大数据和知识、知识管理的关系:让人类看到原来看不到的景色
假如,我说假如:
有一个人或者机构,通过一种简单的方法,已经记录了
1、从2010年1月1日-2014年12月20日,在北京这个地理空间出现的,每个时间点;
2、地理位置和他们对应的体温数据;
3、而且可以持续的记录下去,直到永远的永远。
这应该是一个庞大的库了,可以被看做big data。
那么,这个记录可以做什么呢?
你怎么想?你有兴趣、精力去看这些数据吗?估计对这些数据的处理已经超出了大部分人个人的能力范围,也不是咱们常见的Excel、关系型数据库可以搞定的了。
随着智能硬件越来越多,记录“客观事实”和描述“存在”的数据会指数化的增长,而这些数据用传统的方式方法已经无法搞定了,所以产生了新的技术、工具来帮助我们处理这些数据,这是我理解的“大数据时代”的背景。
但其实大部分人不是对数据本身感兴趣,而是对这些大数据背后的“内容”更关注。那大数据背后的“内容”是什么?
哪个“啤酒与尿布”的老梗中内容是“产品之间的关联”–某一类用户的购买规律。
还有这个故事:
2012年年初的一天,一个父亲闯入他家附近的 Target超市向经理兴师问罪,因为超市将婴儿尿片和童车的优惠券寄送给了他17 岁的女儿,经理只能解释这是个误会。但一个月后,这位父亲打来电话道歉,因为他的女儿的确怀孕了。
这其中的玄妙就在于Target运行的大数据模型,能够通过对客户购买行为的分析将各种类型的顾客细分出来。实际上,Target用25种典型商品的消费数据构建了“怀孕预测指数”,这样可以较为精确地辨别出孕妇群体,并且早早地将孕婴童优惠广告寄给她们,毕竟这是含金量非常高的客户群。结果,Target的孕婴用品销售出现了爆炸性的增长。
大数据背后的“内容”也是规律性,通过对某类特殊用户(这里是孕妇)购买行为的数据分析,建立相应模型,模型经过验证后,在广告推广中利用(可以想见如果某个顾客符合25项指标的几个就是可能怀孕、符合多少是一定怀孕、符合多少没有怀孕等),提高超市营业额。
通俗点说:如果数据太多,靠个人或者传统的方法和工具,我们就“蒙”了!而涌现出来的大数据相关方法和工具仍然能让你看到数据背后的规律,还可以发现自己意想不到(靠个人经验和见识)的结论。
这个时候也大致说明白了:我们不是关注大数据,而是关注大数据能更好的解释世界、揭示出我们不知道的规律。对世界的解释和说明、事物间的联系和逻辑,就是人类的知识。
所以可以简单点说:我们关注大数据,是想从大数据中发现规则、规律、知识,来帮助我们更好决策!
国外有许多类似的研究,BD2K=Big Data to Knowledge,有兴趣可以多看看,例如下面这个:
NIH invests almost $32 million to increase utility of big data
传统上讲,人类的的知识是在生产、试验研究中经过人的大脑总结、抽象提炼出来的,主要依靠人的概括、总结、提炼能力,对于人的依赖度很高。大数据里面的规律、规则发现的算法虽然也依赖与人,但他可以超越每个个体经验与总结能达到的范围,发现之前仅仅个人无法处理的内容,这就是它的价值。
还有一个问题是,当前大数据的忽悠者很多,在大部分机构内其实是没有大数据的(欠缺来源和记录),许多人和机构不过是这把这个词作为一个噱头而已。但自己本身没有大数据,并不意味着我们不能利用大数据,还是有许多开放的数据可用:譬如政府、许多商业公司等都有提供。
(本文作者为知名知识管理专家、《你的知识需要管理》作者田志刚。)
该文内容是《如何成为专家》的素材,将来详细的内容(包括案例、方法和工具等)会放到书里面,这本书估计要2017年上半年出版。