“数据、信息、见解”的关系和数据治理(上)
公众号后台回复:管理1906,免费下载本月推荐精品管理类图书
公众号后台回复:人文历史1906,免费下载本月推荐精品人文历史类图书
加入“ICT销售和大客户联盟”(微信ID:ICT-League),寻找志同道合的小伙伴!
您的关注就是我们最大的动力,这里有大量企业家高净值粉丝,每天分享最新商业资讯、趋势、深度好文、把握财经动态。喜欢学习和阅读的朋友请关注我,文章每天都会更新,欢迎转发阅读!
大数据的价值在于从中挖掘到的信息和见解,并根据它们做出正确的决策,从而获得一定的竞争优势。
然而,经历了大跃进式的大数据平台的建设潮后,很多的单位,甚至说绝大多数的用户都只是徒有了大数据平台的名,却没能从建设好的大数据平台和收集到的大量的数据中获得这些竞争优势。
反而因为建设大数据平台投入了大量的人力物力,很多的大数据平台沦为数据收集和存储平台。对于大数据的期望也从收集足够多的信息并获得有价值的见解,转变为形成了新的数据湖后不知道做什么了。
华云数创(北京)科技有限公司,其自有产权的大数据基础平台、数据治理平台、深度学习和算法,为各类用户提供网络数据复杂性探索和理解的方法。华云数创认为,这主要是用户还没有意识到数据和信息的不同,换句话说就是,从海量数据中提取到的信息并不一定都有意义和价值。
01 大数据和信息的关系:
数据不等于信息
先说结论:数据包含了信息,但数据不等于信息,数据的增长并不能保证信息的增加。
现在的大数据中心大多处于数据的收集阶段,动辄说自己拥有多少PB、多少ZB的数据量。在许多业内或者略懂数据的人的口中,数据和信息都是等价的。
事实是,数据和信息两者之间存在着十分微妙的区别。
数据只是事情发生的简单记录,它记录了事件发生的时间、地点及人物的原始数据。数据中确实包含着大量的信息。但是,并非全部的记录都是有用的信息!
这也正是对现在很多的大数据中心无法正常运营的关键所在。
不少企业的大数据中心从不同的来源,不同的时间,不同的场景中搜罗了大量的数据,然后把他们拼接起来,形成了所谓的信息,以用来决策。但似乎这些决策依据经过实践检验的结果是似是而非,甚至是背道而驰,不但没能知道生产经营,反而起到了负面的作用。
大数据虽然给你带来了大量的信息,但是数据的增长并不一定会带来成比例的信息增长。相反,更为实际的情况恰恰是:随着数据的收集越来越多,我们能从中提取到的信息所占的比例却是越来越低。
听起来十分的悲哀,但这就是事实。
这意味著你花大价钱投入的平台,只是在做着价值十分低廉的数据收集和存储工作。并且,随着数据体积迅速激增,你的平台和分析系统消耗了大量的金钱,却只是得到一样东西:从大量数据中获取到信息的比例却在逐渐的缩减。
浅显的例子是数据备份。单纯针对数据的本身而言,备份使你拥有双倍量的数据了,那么,你是否获得双倍的信息量了?答案肯定是否定的。
视频监控是另一个典型的例子。首先,视频文件已经是相当之大了;其次,HD设备会进一步增加数据的体积;最终,你可能拥有成千上万的监控摄像头。这些监控摄像头所创建的视频记录不称为“大数据”都难。
但是,其实很多的监控设备拍到的东西有不少是重复的,部分监控画面甚至几天都没有任何变化。数据量是随着时间在相继的上升,但是,在信息量这个方面,我们可能得到的确是非常非常的有限。而且随着监视设备的增加,信息重叠的可能性也会随之增高。
这就是为什么随着数据的增加,信息的收益却在减少。
因为,其中冗余的数据越来越多。
社交网络就更加如此了!微信上充满了转发的相同的内容,数据量可能是呈几何级的增加,但是信息量呢?很显然没有,决定信息量的是你微信的内容,而不是次数。除非,如果我们的内容是完全无冗余的。即使这样,其中的信息量也小于数据量。
信息≤数据,信息不应该是数据,而是没有冗余的数据。尽管数据会带来信息,但是数据不等于信息。信息只是数据中不重复的部分。
我们从数据中提取到信息只占数据总量的一小部分。现实中往往是信息远小于数据。
02 信息和见解的关系
信息不等于见解
大数据时代,数据已经大量集聚,但数据分析技术和方法却相对滞后,“伪大数据分析”现象随处可见,这主要不是数据本身的问题,关键是掌握数据的人的问题。
这源于:
1、选择性数据。在获取的各种数据中,按照预设的立场来选择那些对预设立场有利的正面的或者反面的数据。然后,在选择的数据基础上的进行数据分析,这必然是片面的、主观的、不公正的、不科学的。
2、数据代表性不足。这种情况下,即使掌握的数据再多,也不能导引出正确的调查结果。
3、现在各行各业的数据库都是有核心数据和非核心数据之分的。核心数据都是有防火墙严格保护的,不会轻易与同行共享。在这种情况下,各行各业的所谓的大数据,都不是完整的,特别是核心数据不完整,其数据分析结果的质量必然大打折扣。
4、同一行业内评价或评估标准不统一,使用的数据各行其是,不但未能起到客观评估的作用,反而把评估的标准搞得更乱了。
尽管从大数据中可提取的信息量被高估了,但是,我们仍然可以从大数据储存的大量数据中获取有用信息,从而获得的见解,这一点仍然是极其宝贵的。
那么信息和见解两者又有着是什么样的关系呢?
毫无疑问,尽管所有的见解都源于信息,但是,这并不代表所有的信息都可以提供见解。
我们真正需要的不是大数据本身,而是大数据背后所隐藏的各种信息资源,它们可能只占数据总体的万分之一甚至更少。大量的数据其实都是垃圾,甚至其中含有大量虚假和有害的内容。
如果纯粹凭借数据来判断、分析、利用和传播某种数据,就可能会导致许多误判。未经前期调研论证和规范分析,仅仅从数据中所获取的信息,其数据量越大可能越模糊,其得到的垃圾信息也就可能越多,这也为各种数据造假和不当传播打开了方便之门。
对此,我们必须学会辨识和判断数据的真实性,避免因盲目的数据崇拜造成误判,甚至被“数据暴力”所淹没!
下图表示了从大数据到有远见的信息(见解)的收缩状态。
图中给出了有价值见解的信息的3个标准:
首先,可解释。大量的非结构化数据和不同的媒体类型数据,导致其中大量的数据和信息不可解释。
117,89,138,69,135,108,这组数据,它们能代表什么?它可能是你在微博上读过前五篇文章的点赞数目,也可能是一个黑白图像上5个像素点的亮度,还可能你6次测量心率的数据。如果没有更多的信息和元数据,是无法解释这样的数据的。
所以,不能解释的数据和信息是不会给你提供任何见解的。
见解只存在于提取出信息中的可解释部分。
其次,关联性。与用途与价值紧密相关的信息。相关的信息通常被看作是信号,而不相关的则被作为噪音。
但是,一个人的的信号恰好是另一个人的噪音。关联性有着相当的主观成分,对一个人很重要的信息可能完全和另一个人无关。关联不仅是主观的;同样是前后联系的。关联还可能是人从一个环境中换到了另一个。例如:如果我下星期将要去广州的话,那么广州的交通和气象将会关联到我。但是当我回到北京,同样的信息将会和我无关联。
因此,见解是关联信息中一个非常小的子集。
最后,必须是有远见的信息。它必须提供一些你以前不曾拥有的新知识。显然这个标准也是主观的,因为一个人知道的东西另一个人不一定也知道,而新鲜也是因人而异的。
随着我们不断的从大数据中捕获知识,新的见解就越来越难以发现。那么见解这个关联信息中的子集又将继续缩减。
在见解这个子集层层的缩减后,就会发现大数据的价值被彻底的夸大了,发现有价值见解的可能性非常小。
很多大数据中心使用者的一个根本缺陷就是它只关注“客观数据”的呈现,而缺少对“主观数据”的反映。
事实上,大数据是汇集了行为主体、时间、地点三个维度的“数据宇宙”,所有的数据说到底都是有关“人”的记录,对它的分析和归纳反映的都是人的层面上的一种互动。因此,这些记录所蕴含的社会文化意义是我们使用大数据时真正需要了解和掌握的内容。如果脱离了人及其所在社会的价值本性,单纯的无限放大大数据的效应及其影响力,就会本末倒置,最终产生许多难以预期的后果。
我见到过仅仅从数据看人的一个大数据的笑话,他把人全部数字化后得到的结果是:人的身体是一个对生态循环系统有用的东西,它最终可以从一个人的身体上获取:一大桶的清澈见底的水、一盒有机油脂、一瓶钙片,甚至还有硬币那么大的一小片铁。
所以,如果人及其各类社会行为都仅仅被看作一个个数据符号,我们就很难从数据中解读出充满朝气、富有激情的人,也就很难从数据塑造出来的没有个性特征的人去推导群体样态和社会构成。
大数据是一把双刃剑,用得好会给企业创造价值,用不好不但会成为企业的负担,反而还可能会成为误导。
大数据的复杂性不仅在于其数据样本巨量,更在于其多源异构、多实体和多空间之间的交互动态性,只有少数人掌握处理这种复杂的巨量化大数据的技术。
巨量化的大数据实际上也掩盖了许多具有个性特征的数据的意义。这就像是一种“数据暴力”,它是大数据分析中需要注意的问题。
大数据的价值只有在其能够被规范成为可供分析的形式之后才能最大程度地被挖掘出来。实际上可供规范分析的数据只是极少数,许多数据都停留在“碎片化”阶段而难以被真正挖掘和分析。
对这些碎片化的数据进行清理,形成规整的结构,是大数据能够得到充分利用的根本所在。这就要求我们在数据清理技术、存储结构上进行优化,另外,在数据采集环节也要尽可能地做到规范,否则就很难获得对复杂事物的系统认知。
(未完待续)
分享是一种美德,转载请注明来源和出处!