数之联CTO方育柯:2016年大数据的奇点、拐点与痛点
2013年被广泛认为是世界大数据元年,2014年是贵州的大数据元年,2015年被认为大数据应用元年,2016被认为是真正意义上的大数据元年或者是大数据独角兽元年,这些“元年”也不断的被刷新,后续很难想象如果找不到新的”大数据XX元年”名词,那么大数据会是什么样子,是否还会受人瞩目。
作者 | 方育柯
本文长度为3000字,建议阅读6分钟
本文为数据猿年关策划活动《大数据的2016,我的2016》系列稿件,感谢本文作者 数之联CTO 方育柯 先生的投稿。
敬请期待2月16日(本周四),由数据猿与中欧商学院、腾讯视频共同举办的高端领袖线下演讲栏目中欧微论坛之《超声波》。
大数据的奇点
大数据自概念形成之际就不断被投资机构、媒体、科技工作者追捧,2013年被广泛认为是世界大数据元年,2014年是贵州的大数据元年,2015年被认为大数据应用元年,2016被认为是真正意义上的大数据元年或者是大数据独角兽元年,这些“元年”也不断的被刷新,后续很难想象如果找不到新的”大数据XX元年”名词,那么大数据会是什么样子,是否还会受人瞩目?
伴随着上述各种元年的出现,还有国家层面和各地政府的种种措施,比如2014月大数据首次写入政府工作报告,2015年国务院多次出台促进大数据发展的行动纲要,2016年国家建设全国一体化的国家大数据中心,包括一些地方政府全国各省市纷纷出台大数据发展规划,凸显政府对大数据的重视。
紧接着是节节攀高的大数据市场规模评估,2015年据有关单位预测2020年大数据市场规模达到700亿;2016年,大数据的市场规模评估再度被放大,当时有机构估计到2020年,中国大数据市场规模达到8000亿;2017年新年伊始,工信部印发大数据十三五规划,将酝酿开启万亿级别市场规模,到2020年,大数据相关产品和服务业务收入突破1万亿元。
上述种种情况说明从媒体、政府、再到市场,对大数据的期待与日俱增,一切的一切都在预示着大数据的奇点正在到来,大数据价值被不断放大,在很多人看来,大数据可以解决一切的一切问题。
大数据的拐点
听起来很美好,只不过上面的这些声音仿佛都是与大数据无关者,真正与大数据最相关的显然是客户,他们才能够真正的衡量大数据价值。作为最终的买单者,我们最聪明的客户怎么说呢?
他们面对众多纷繁踏至的各种厂商接二连三地PPT方案忽悠,也越来越敏感起来,甚至对大数据产生厌恶或者怀疑,逐渐发出他们自己的声音,“别再给我推销硬件了,我们不需要硬件”,“项目投入产出如何,能否帮我增加10万销售客户”,“ 你们有没有跟我们行业类似的成功案例”,“先放到我们XX业务上试一下,有效果再说”。
前几天终于陆陆续续有评论人发出:“盘点2016年大数据创业:只有‘实力派’能熬过寒冬”,“大数据时代刚刚开启?大数据寒冬已至”,“ 大数据的寒冬已至,谁将倒下,谁成巨人?” ,仿佛大数据的拐点已到,已经开始走下坡路。
大数据的痛点
我过去10年一直围绕数据开展工作,负责超过30项数据挖掘相关项目落地,有成功案例也有失败案例,面对上述的”现象”,不禁会思考大数据过去、现在和未来,还有我们自身的发展之路。
大数据从2010年概念萌芽算起的话,至今已发展7年有余,但是相比于之前提到的种种期望,我们需要思考大数据到底能够为我们带来什么,他的成功案例有多少,《大数据时代》中的数据应用场景有多少在我们身边大规模实现了?思考之后我们发现,当前大数据的应用主要是在互联网运营商领域,这些应用也只是大数据产业的冰山一角,未来将会进一步向传统产业渗透。
不得不说大数据其实离我们还很遥远,在工业领域成功案例非常少,比如传统制造企业中,产品需求、生产流程、销售渠道、售后评价还是非常传统的拍脑袋决策,根本没有智慧化生产、精细化运营、个性化营销。
像农业更是如此,我们的农业生产依然还在粗放的耕种土地、比如市场需要什么样的粮食,什么区域适合什么样的农作物生长,哪些土地该深耕哪些土地需要细作,我们基本上大脑一片空白,只能凭借个人经验;还有对于被大众广泛诟病的政府机构的办事流程和效率、还有各种奇葩证明,都在说明大数据并没有发挥它的作用。
我们分析其原因主要是数据挖掘技术门槛高,缺乏数据挖掘的人才(尤其是一些二、三、四五线城市),使得数据和价值分离的问题非常严重,虽然有小部分互联网企业具备数据挖掘技术,但企业或者政府考虑到数据安全问题,不愿意把数据拿出来。面对这些问题,我们希望借助iCloudUnion产品,通过开放数据挖掘能力,降低目标企业将数据转化为价值的门槛,对传统企业进行大数据赋能!
我们的大数据之路:
因此就诞生了这个产品 iCloudUnion,大数据价值发现与应用创新平台。与google xlab或者科大讯飞所提出的开放数据挖掘结果不同,他们就像黑匣子一样输入一段语音,转换为一段文字,或者输入一段英文快速的翻译成中文,而我们则是开放数据挖掘过程。
平台上已经集成150+机器学习算法,适配到hadoop、spark等分布式处理框架,使得能够快速处理大规模的数据,那么有了这个平台,我们可以通过简单的托拉拽操作就可以快速完成大型数据挖掘算法和模型开发工作,通过开放数据挖掘过程,为客户授之以渔而非授之以鱼,提升客户的数据变现能力。
图-1 大数据价值发现与应用创新平台
(iCloudUnion)
举几个案例来说明iCloudUnion的价值。这是某制造型企业SMT生产优化的例子,通过获取生产线上不同环节的加工数据,比如设备的电流、电压、震动、转速等数据,分析哪个环节容易导致产品不良率比较高,我们花了几个小时做了一个集成学习的模型,如上图所示,下面是一个决策树的可视化结果,通过这个模型,将之前进料阶段准确率实现了大幅度提升。
这样做的好处是,经过初级培训的人在几个小时内就可以完成高级算法工程师要几周才能完成的编程工作。
图-2 某大型工厂SMT生产线优化
第二个案例:是我们金融企业服务方面的一个案例,我们通过分析银行的内部数据和外部数据,内部数据包括客户的信用卡、资金流水、贷款、资产等数据,外部数据如工商信息、房产、法律诉讼以及行业宏观发展数据,预测金融客户贷后的逾期风险情况,以及我们使用集成学习模型,只需要花几个小时既可完成该模型的开发,右上侧是整体建模流程,下面是一个决策树的可视化结果,最终我们预测结果比他们专家经验误差率降低一半。
图-3 某酿酒企业生产过程
图-4 酿酒过程建模优化过程
还有两个案例是我们用iCloudUnion上的深度学习算法和复杂网络分析算法做的一些应用。我们利用深度学习的多重非线性变换对数据进行多层次抽象的特征,将其应用到电商图片数据,实现所见即所得的图像搜索,帮助消费者快速找到商品对应的店铺、评价、销量等信息。
另外我们通过复杂网络分析技术,抽取节点的出度、入度、介数、核数、聚集系数、PR值,针对不同网络图数据,寻找用户洗钱网络,或者预测两个人之间的关系是朋友、亲戚、同事,或者哪些企业是在进行串标围标等问题。
图-5 iCloudUnion的其他应用案例
(深度学习和复杂网络分析)
当前这个平台已经能够比较好的服务于一些企业和政府部门,但是我们希望进一步将它开放出来,让数据爱好者能够在这里分享数据、发布数据需求;科研人员或者算法爱好者可以使用现有平台的计算能力、以及成熟的算法,提升实验效率,而将关注点放到新算法的研究上;
同时也可以将新的研究成果分享出来,并服务于工业上的应用需求(不管你是R、Python、Matlab还是Java等算法语言,我们统统转化为可视化算子,因此让工业界客户可以直接使用,而不用再去找论文、扒代码、做适配);
创新创业者可以利用现有的数据和科学家的研究成果,开发新的行业App,服务于企业;企业可以在这里消费数据、消费算法、以及消费行业应用APP。
大数据的未来
对于未来,我们希望基于上述或者类似平台建设,实现多方共赢的生态圈建设,与众多大数据厂商一道共同推动全社会数据到全企业数据的融合,全社会资源和全企业需求的完整对接,实现数据在全社会的数据价值发现,帮助企业实现数据驱动的业务创新,帮助政府实现数据驱动的政府、社会治理优化,推动大数据时代的到来。
功成不必在我,但求成功有我!
— 关于作者 —
方育柯,数之联CTO,主要从事计算机科学与大数据等交叉领域的研究工作,在机器学习、集成学习、深度学习和图像检索等领域具有丰富的研究经验和一定的国际影响力。
曾担任华为大数据产品部架构师,负责并参与金融、运营商等领域的多个大数据分析挖掘项目,具有丰富的大数据商业应用与工程实践经验,致力于大数据在各大热点领域的商业化、产业化应用。
活 动 预 告
(点击图片查看详情)
注:本文由 方育柯 投稿数据猿发布。