数据猿对话 | 族谱科技CEO张力铭:对大数据的看法,很多企业都扭曲了!
大数据究竟是什么呢?它能做什么?为我们的生活又带来了什么改变?数据猿专门对族谱科技CEO张力铭进行了专访,由他为大家解答这些问题。
本文长度为2500字,建议阅读5分钟
大数据应用中有一个常被人津津乐道的老例子:美国最大的零售商沃尔玛通过分析其各门店的详细原始交易数据,发现和尿布一起购买最多的商品竟是啤酒,于是沃尔玛就在其门店中将尿布与啤酒摆放在一起,结果尿布与啤酒的销售量双双增长。
除此之外,大数据的传说还包括:大数据不但能防止堵车,还“操纵”了美国大选;能“预测未来”,包括明天的天气、高考语文作文题目和将在世界杯上夺冠的球队;未来大数据还将控制人类的生活……诸如此类的说法充斥着社交媒体。
在这种环境下,有些企业为了炒作噱头,强行给自己“加戏”,也弄来一个“大数据”的帽子戴着,结果搞得“大数据”反而更像是在算命,甚至是骗术了。
那么,大数据究竟是什么呢?它能做什么?为我们的生活又带来了什么改变?数据猿专门对族谱科技CEO张力铭进行了专访,由他为大家解答这些问题。
族谱科技成立于2015年6月,是一家致力于全景大数据运营服务的公司,去年8月,族谱科技完成了1836万人民币的天使融资,估值1.52亿。
族谱科技现有1.2亿用户的数量级,其中包含9000万高净值人群的精准数据,与新浪微博、品友互动等合作伙伴共建数据平台,行业数据服务平台已包含生活、通信、医疗等多行业数据信息,打破了单一的数据孤岛,形成了强大的数据生态圈。
CEO张力铭毕业于北大计算机系,拥有16年的IT工作经验,曾担任国家及多个行业机构专家成员,在数据挖掘领域拥有深厚的技术背景和实践经验。
数据猿:您是怎么理解“大数据”的?大数据的核心是什么?
张力铭:
我认为,大数据的“大”,不是单指数据量的多少,还应包括维度数据的覆盖范围。在海量数据中,横向是维度数据覆盖范围,纵向是行业细分领域的数据数量,两者结合起来才是“大数据”。
数据维度的覆盖就是指,我们要从人、企业、数据以及事件等方面进行全方位获取数据。数据的横向维度决定了企业在大数据领域从事的行业,和能利用这些数据做什么事;纵向的数据量决定了企业在进行数据深度挖掘的时候能不能获得有效的、有价值的数据。
数据还有一个重要的、用来判别数据价值的属性是时间戳。是否有时间戳对于判断数据的有效性起到了至关重要的作用。
族谱从成立起就开始不断地深度挖掘这些数据了。目前族谱主要着眼的是“人”的数据。从社会的发展变迁史来看,从人类发源,完成从猿人到人的蜕变,再到形成群居生活,最终成为社群、形成社会,形成企业级的交易,社会发展的过程中核心是人的发展,所以我们认为“人”的数据是最重要的。
以企业征信为例,如果对人的维度数据不重视,只是对企业做征信,征信就起不到最核心的作用。所以族谱从一开始就以“人”的维度数据覆盖为核心进行数据挖掘。
基于“人”的数据,族谱目前覆盖了一百七十多个维度和七个重要特征。当我们对“人”的行为画像做分析的时候,由人构成的社群、人群、社会也就可以进行分析了。中国有一句古话“物以类聚、人以群分”,其实就是说,人的兴趣爱好等属性是一致的,才能成为社群。
比如说车友会,这些人因为喜欢某一款车而形成一个社群。这群人会在一起聚餐、消费、出去游玩,这些行为产生的数据就是行为数据。行为数据是通过分析人的社群关系和社交关系来获得的。
另一种数据是事实类数据,也就是既定数据。你出生的医院,你的身份证号码,你的性别,你的父母,家庭关系等等都属于事实类数据。政府部门拥有很完善的事实类数据库。
一些数据公司认为从互联网数据中抓取一些MD5、手机号码、密码或者是Mac地址就可以进行数据分析了,其实是不行的。手机号码仅仅代表这个人的通信行为,而不能反映他的社交行为。通信工具仅仅是人的身体之外和意识之外的工具,不能在人的行为方面起决定性作用。
国内企业对大数据的看法是扭曲的,有些企业会用Hadoop就把自己叫做大数据公司。我去印度的时候发现一个有意思的事情:印度电线杆上面都贴着Hadoop培训的广告。一个工具在印度都已经普及到这种程度,在国内却被炒成“Hadoop就是大数据”。它其实是仅仅在数据挖掘过程当中的一个工具而已,不能定义成会Hadoop就是大数据公司。
数据猿:大数据行业的现状如何?未来的发展方向是什么?
张力铭:
大数据发展的第一阶段是基础数据服务。通过挖掘不同维度的数据可以帮助不同行业在细分领域解决业务方面的问题。在这个阶段,有效性数据的获得是一个极高的商业壁垒,也是大部分大数据企业面临的问题。
大数据发展的第二阶段是数据的场景化构建。比如说风控就是金融行业整体业务的一个场景,风控的场景化构建就是通过大数据在贷中、贷前、贷后三个环节,针对某个人、某个项目进行风险控制。否则都得倒闭,都要死!
很多从事数据场景化的公司倒闭、死了,比如一些风控平台。风控平台并不是做一个软件给客户就可以了,这样的软件是没有办法跟经验丰富的传统IT企业PK的。神州数码、杭州信雅达,这些做了20年以上金融业务的公司在行业内拥有大量资源,在这方面很难超越。没有丰富的经验和数据支撑的风控平台需要反复调整,客户不会拿自己的业务给你试水。为什么很多第一批做平台、工具的公司成了炮灰?原因就是数据维度不够、经验不足,不能打动客户。只有真正符合客户需求的产品才能生存下来。
我认为,马上会有更多的细分领域的业务需要场景化工具。数据公司发展的快与慢并不仅仅取决于数据公司本身,还取决于行业环境。这个行业现在就像海洋一样,表面是平静的,下面波涛汹涌。
大数据发展的第三阶段就是人工智能。人工智能在未来将会成为数据行业发展最核心的支撑点。但是我们现在看到的人工智能,仅仅是“小人工智能”,因为人工智能一定要基于场景化片段才能真正实现为人类服务。
以电影为例,每部电影里面都会有一两个让人记忆犹新的场景和片段。那个片段由时间、人物、地点、故事情节整合而成,其中的某几个人、某几个场景或某个特点吸引了你的眼球,触动了你的感官神经,你才会对这个场景记忆犹新。
机器也是这个道理,人工智能发展到极限的时候,即使是目前中国最大的曙光计算机也难以承担它的运算任务。解决的方法就是利用相对较小的数据构建一个Demo, Alpha Go就是其中一种:在围棋领域去验证人工智能的逻辑是否成立。要不然,那么大的人工智能场景怎么构建呢?很重要的一个方法是数据优化,也叫“场景应用”,就是构建不同的Demo,在不同的场景切换使用。
大数据行业发展到每个阶段都会有不同公司出现,有些公司口号喊的非常高,但是未必能做得到;有些公司不喊口号,但不一定做不到。目前,大数据产业在数据基础服务、数据场景化应用和数据人工智能这三个阶梯上面,必须相互关联起来的,缺一不可,而且每个台阶都有很高的商业和技术壁垒,每个层面都有企业正在尝试。我认为最好从基础做起,一步一步上台阶,一步一步往前迈进。
本文记者大文(微信:discoverier)
来源:数据猿
点击关键词查看相关历史文章
-专访·深度-
-报告·前沿-
-更多关键词-
星红桉潘宇文:传媒行业与大数据