四类应用告诉你大数据到底能干嘛?
我们今天常常讲到大数据思维,很多人就会想到大型互联网公司使用用户的数据做很多事情,既有好的事情,比如今日头条给大家推送有用的资讯,也有坏的事情,比如一些电商公司利用个人信息进行价格歧视,甚至一些公司出卖大家的隐私。
关于大数据思维的一些例子,在当下最常见,也是最成功的有四类应用。
第一类,解决人工智能问题。
世界上利用大数据解决的第一个智能型的问题是语音识别,接下来是机器翻译。语音识别的历史正好和电子计算机一样长,可以追溯到1946年。但是一直做得非常不成功。
到了60年代末,计算机已经进入到第三代了(基于集成电路的),语音识别才只能做到识别十个数字加上几十个单词,而且错误率高达30%。这样水平的系统是不可用的,因为如果每十个词就错三个,你就无法复原原来的意思了。
因此,在60年代初,就有人认为语音识别和治愈癌症、登月、水变油一样,近乎不可能。到了70年代,康奈尔大学著名的信息论专家贾里尼克来到IBM,负责该公司的语音识别项目。贾里尼克是一位天才,他从博士毕业到成为讲席教授,教科书的作者,也就是十年时间。
在贾里尼克之前,人们觉得识别语音是一个智力活动,比如我们听到一串语音信号,脑子会把它们先变成音节,然后组成字和词,再联系上下文理解它们的意思,最后排除同音字的歧义性,得到它的意思。
为了做这件事,科学家们就试图让计算机学会构词法,能够分析语法,理解语义。但这件事证明是不可行的。贾里尼克在到IBM之前并没有做过语音识别,他也不懂得传统的人工智能。
事实上,直到死他都不认为他是人工智能专家。由于不受到传统的人工智能思想的约束,他得以用信息论的思维方式来看待语音识别问题。他认为语音识别是一个通信问题。
贾里尼克是这样考虑问题的。当说话人讲话时,他是用语言和文字将他的想法编码,这就变成了一个信息论的问题。语言和文字无论是通过空气传播,还是电话线传播,都是一个信息传播问题,在通信中有一套对应的信道编码理论。在听话人,也就是接收方那里,他再做解码的工作,把空气中的声波变回到语言文字,再通过对语言文字的解码,得到含义。
于是,贾里尼克就用通信的编解码模型,以及有噪音的信道传输模型,构建了语音识别的模型。但是这些模型里面有很多参数需要计算出来,这就要用到大量的数据,于是,贾里尼克就把上述问题又变成了数据处理的问题了。
在这样的思想指导下,贾里尼克裁掉了IBM全部的语言学家,并且对各种仿生学,比如研究人耳蜗的模型完全不感兴趣,他只注重收集数据,训练各种统计模型。
那么这样能否解决语音识别问题呢?在一开始,学术界确实有人怀疑,不过贾里尼克很快用结果回答了大家。
在短短几年时间里,他的团队(都是数学家和数学很好的理论物理学家)就将语音识别的规模扩大到22000词,错误率降低到10%左右。这是一个质的飞跃,从此数据驱动的方法在人工智能领域站住了脚。
贾里尼克思想的本质,是利用数据(信息)消除不确定性,这就是香农信息论的本质,也是大数据思维的科学基础。这就是第一类应用,把人工智能问题变成数据问题带给我们的启示。
第二类应用,利用大数据进行精准服务。
我们不妨用一个例子来说明。
如果我们想知道搜索“迈克尔·乔丹”的网页结果,我们可以把包含着两个关键词的网页先找到,然后根据相关性和网页质量排序。
但是,在美国有很多“迈克尔·乔丹”,到底用户找的是谁呢?有人可能会说,当然是那个篮球球星了,其实美国还有一个非常有名的“迈克尔·乔丹”,他是当今世界上最著名的人工智能专家之一,美国三院院士(科学院、工程院和文理学院)。
很多年前在Google,研究者想了不少办法来解决这个问题,比如有人提出是否在10条结果中放5条篮球球星的,5条教授的。但是这种想法很快被大家否决了,因为无论是找篮球球星的人,还是找学者的,都会认为你的搜索做得不够好。
对这个问题唯一好的解决办法就是理解用户的意图,进行个性化服务。但是这样一来就需要非常非常多的数据,因为之前可以对所有的人进行统计,看看大家最希望得到的搜索结果是什么。
但是,如果对每一个人进行统计,数据量就不够了,因为一个人搜索的数量再多,也无法和所有人相比。一旦数据量不够,统计就变得毫无意义。
因此,这一方面需要尽可能多地收集数据,另一方面则需要对行为习惯和偏好类似的人进行聚类。
今天,微软的搜索效果没有Google的好,不是技术不行,而是数据量不够。对于那些常见的搜索,大家其实水平差不多,微软差就差在了那些很少见到的长尾搜索关键词上。
但是不管怎样,这两家公司已经从重视方法研究,转为重视信息收集和处理了。这是透视大数据思维的第二类应用,利用大数据进行精准服务,得出的一个趋势。
第三类应用,动态调整我们做事情的策略。
当今,容易一劳永逸解决的那些问题大多数已经被解决了,留给我们的是不确定性的问题,因此我们做事情的策略也就要变化了。
早期的滴滴公司并不是一个技术水平很高的公司,虽然他们在公开场合并不承认这一点,很多行业里的人将它作为这方面的反面典型。但是为什么这样一家很多人看不上的公司,能够做大做强呢?除了运营得好之外,正确的指导思想和做事原则起到了关键性的作用。
其实,滴滴公司远不是第一家网约车公司,之前一些公司,过分强调司机和乘客之间的固定,比如A乘客坐B司机的车子比较满意,他下次依然希望提前预订B司机的服务。这件事在优步和滴滴都是不允许的,但是一些网约车公司是允许的。这两种做法有什么差别呢?
虽然没有人都能举出各自的利弊,但是,对于一个不断变化的打车人群分布和车辆分布,利用数据做动态调整是效率最高的策略。当然,如果你没有足够多的数据,一共只有200辆车,5000个人的数据,你是做不到这一点的。
反过来,如果有了足够多的数据,是否在理论上有保障,只要调整的次数足够多,就能收到最佳匹配呢?答案是肯定的。
第四类应用,利用大数据发现不知道的规律。
如今研制一款新药需要20年时间,20亿美元的投入,这是惊人的投入。能否减少这方面的研发成本,缩短研发周期呢?
如果按照过去的做法工作,即使再努力,能提升的空间也有限。后来大家换了一个思路想问题,那就是让处方药和各种疾病重新匹配。
比如斯坦福大学医学院发现,过去一种治疗心脏病的药治疗胃病效果很好,于是他们直接进入小白鼠试验,然后进入了临床试验。由于这种药的毒性已经试验过了,因此临床试验的周期短了很多。这样,找到一种新的治疗方法平均只需要3年时间,投资1亿美元。
当然,找到药和病的配对,本身是一个大数据问题。这种做事的方法能够成立,背后是有信息论理论依据的,即所谓的互信息理论
最后,小结一下,今天给举了四类大数据思维应用在商业上的成功案例:
- 第一类是解决人工智能问题,是利用数据(信息)消除不确定性,这是香农信息论的本质,也是大数据思维的科学基础。
- 第二类是利用大数据进行精准服务,从中你可以看出一个商业趋势:公司从重研究方法到重数据收集的转变。
- 第三类是动态调整做事策略,足够多的数据可以帮助我们动态匹配最佳结果。
- 最后一类是利用大数据发现未知规律,这背后涉及互信息的理论,也是信息论的重点内容。
这四类大数据应用,都在传达一个信息,那就是大数据的关键是思维方式的变化。。