大数据思维养成从认识大数据的本质开始

践行数据的商业价值,理解大数据的本质,从哪里开始?

应该从认识不确定性开始。

01

什么是不确定性

什么是不确定性?打个比方,老王、老李做一个游戏“猜花生米”。老王出一只拳头,让老李猜里面是空的还是抓了一粒花生米。这个事件对老王而言是确定性事件,因为老王自己有没有抓花生米,他心知肚明。这个事件对猜拳的老李来说就是不确定性事件,因为老李无法对老王的猜拳决策做出绝对准确的预测。

在实际生活中,不确定性事件广泛存在。事实上,人生就是由一系列或大或小的不确定性事件构成的。婚姻选择有着极大的不确定性。一对相爱的男女是否应该接受对方成为自己的终身伴侣,这是一个重大选择。这个选择的后果是什么?是幸福的远航,还是痛苦的开始?这有很大的不确定性。为了极小化这种不确定性,青年男女往往需要一场死去活来的恋爱,以便充分暴露双方的优点和缺点,以减少未来婚姻中的不确定性。但是,无论你如何了解,这种不确定性仍然存在。

世界到处都充满了不确定性,那我们对未来的世界认识是不是不可知的?答案是否定的。世界上很多事情是难以用确定的公式或者规则来表示,但是这种不确定性并不是无规律可循,这个时候就需要用到统计学中的概率模型来描述。在概率论的基础上,信息论鼻祖香农博士建立了一套完整的理论,将世界的不确定性和信息联系起来,这就是信息论,用来解释不确定性的世界。

02

信息可消除不确定性

什么是信息?在看《暗时间》时(推荐大家看看),里面讨论了一些信息论相关的内容,于是就尝试搜索信息论和不确定性的关系,结果发现香农说了这么一句话:“信息是用来消除不确定性的东西”。信息论的鼻祖果然是鼻祖,一句话解释了信息。

信息是否可以被度量?如何度量信息?1948年,香农提出了“信息熵”这个概念,解决了信息度量的问题。他指出,信息量与不确定性有关:假如我们需要搞清楚一件非常不确定的事情,或者我们一无所知的事情,就需要收集大量的信息。相反,如果我们对某件事已经有了较多的了解,那么不需要太多的信息就能把它搞清楚。从这个角度来看,信息量的度量就是不确定性的多少。

举例说明,就拿互联网广告来说,在门户网站上投放展示类的品牌广告,点击率是非常低的。因为对于受众用户,广告投放时几乎是随机猜测用户的需求,很不准确。而搜索广告因为有用户输入的关键词,准确率会大幅度提高,至于提高多少,取决于关键词所提供的信息量。这就是搜索广告所赚到的广告费用要高出展示广告两个数量级。通过这个例子,也能说明,信息时代,谁掌握了更多的信息,谁就掌握了更多财富的可能性。

03

大数据与信息的关系

了解大数据的人,都可能知道,大数据有5V特点,这是IBM提出来的:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。但从信息论的角度,大数据通常是具备三个主要特征,数据量大,多样性和完备性

1、大数据的体量足够大

大数据最明显的特点就是体量大,这一点无论是内行还是外行都认可,没什么异议。我们国家仅仅北京的国家超级大数据中心,占地面积就8万平方米,包含9栋数据中心机房和1栋感知体验中心。

但是,过去由于数据量不够,即使用了数据,依然不足以消除不确定性,因此数据的作用其实有限,很多人忽视它的重要性是必然的,数据的价值也就被严重低估。在那种情况下,哪个领域先积攒下足够的数据,它的研究进展就显得快一些。语音识别领域,就是因为早期积攒了大量的音频数据,才可以捷足先登,第一批尝到了数据驱动方法的甜头。

2、大数据的多维度足够多

众所周知,Google的人工智能已经走在了前沿,也是目前全球估值最高的公司。但是,无论是AlpahaGo、无人驾驶还是IT医疗公司Calico,都是建立在多维度的大数据基础之上的。例如关于“食物”这个问题,Google会利用用户输入的信息,收集所有相关的信息。不仅涉及到食物的做法、吃法、成分、营养价值、价格、问题来源的地域和时间等维度。

大数据的多维度,统计学中称为相关性,信息论中称为互信息。互信息,它在信息论中,实现了对信息相关性的度量。比如“央行调整利率”和“股市短期波动”的互信息很大,这就证实了两者具备强相关性。第二个视角,交叉验证。举例说明,夏天的时候,“空气湿度高”和“24小时内要下雨”之间的互信息比较大。也就是说空气湿度高,24小时下雨的可能性比较大,但并不能说空气湿度高就一定会在24小时内下雨。还需要结合气压信息,云图信息等其他纬度的信息,来交叉验证“24小时内要下雨”这件事情,那么预测的准确性要高的多。

3、大数据的完备性

要理解它,需要介绍信息论中的一个重要概念—交叉熵。它可以反映两个信息源之间的一致性,或者两种概率模型之间的一致性。当两个数据源完全一致的时候,其交叉熵为0,当它们相差很大时,它们的交叉熵也很大。因此,所有数据驱动的方法,建立模型使用的数据和使用模型的数据需要有一致性。

抽样调查方式都是采用抽取有限的样本进行统计,从而得出整体的趋势。抽样的核心原则是随机性,不随机就不能真实地反应整体的趋势。但是要做到随机性是很难的。例如电视收视率调查,要从不同阶层随机找被调查的人,但高学历高收入的大忙人们普遍拒绝被调查,他们根本就不会因为几个蝇头小利而浪费时间,电视调查的结果就可想而知。

所以,在过去,任何使用概率统计模型都会有很多小概率事件是覆盖不到的。大数据时代以前,这是数据驱动方法的死穴。

在大数据时代,在某个领域获得数据的完备性还是有可能的,Google的机器翻译系统就能很好的要利用大数据的完备性。通过数据学到了不同语言之间很长句子成分的对应,然后直接把一种语言翻译成另一类,前提条件就是使用的数据必须是比较全面地覆盖中文、英文,以及其他各种语言的所有句子,也就是说具备两种语言之间翻译的完备性。

当数据的完备性具备了以后,就相当于训练模型的数据集合和使用这个模型的测试集合是同一个集合,或者是高度重复的。这样的数据驱动方法才是有效的。

由此可见,大数据的科学基础是信息论,它的本质就是利用信息消除不确定性。

湖南湘谷大数据科技

有限公司

(0)

相关推荐

  • 全面梳理:图像配准综述

    内容导读: 1 定义 2 问题背景和应用 3 相关关键词 4 问题分类 4.1 基于问题特点的分类 4.2 根据算法本质的分类 5 图像配准通用流程 5.1 基于特征的图像配准通用流程 6 图像配准质 ...

  • 特征选择方法最全总结!

    上个月扫读完<阿里云天池大赛赛题解析>[1]后,看到书中对特征选择的讲述,于是便打算借此机会,系统梳理下各种特征选择方法.如有不足,还望指正. 一.背景介绍 在处理结构型数据时,特征工程中 ...

  • 信息视角下的生命是什么:横跨生命和非生命集群系统的信息化架构

    导语 生命是什么?这一追问至今仍在进行中,目前的答案以定性居多.而随着在自然界发现越来越多新型生命形态,以及新技术所创造的许多类生命系统,生命系统与非生命系统之间的明确边界正在不断受到质疑.近日发表在 ...

  • 三年级数学思维训练:倍数初步 数据大,画线段图太麻烦,该怎么做?

    三年级数学思维训练:倍数初步 数据大,画线段图太麻烦,该怎么做?

  • 大数据思维

    中国用了70年,走完了西方500年的工业革命,信息革命之路,还挺立潮头,我们这一代人面临的社会变化之剧烈,可谓是千古少有.以前学会了逻辑思维(后面是因果关系),但现在社会的大数据思维(后面是信息论,熵 ...

  • 测开分享会第十二期-大数据思维与技术在测试领域中的应用

    跟着芒果一起好好学习,天天向上~ 在这周五我们举办了测开分享会第十二期的分享,现在就由芒果为大家整理这次分享会的知识.本次整理内容包含我们的V咖王海龙老师的分享内容,部分提问及回复.想要提问或者观看完 ...

  • 【审计实务】基于大数据思维的医院收费审计思路与技巧

    来源:山东省审计厅网站,转载用作学习,如有问题,请及时联系我们.另转载请注明来源! 随着药品零差率等一系列医改举措的持续推进,当前各医院的药占比等指标持续下降,收入结构也随之发生变化,医疗服务收费较以 ...

  • 每周一本书 |《大数据思维》:从毒大米和死麻雀的罗生门事件讲起

    <数据猿导读> 货船散落一地的大米与20只麻雀的死是这起罗生门事件的起因.所以,争议过后,麻雀到底是撑死的,还是毒死的?答案大家可以自行分析,但里面包含的大数据思维就是这本书的精华 本期[ ...

  • 零点助力广西开启绩效管理新未来:大数据思维与技术的应用

    2018年8月30日-31日,由广西壮族自治区财政厅举办为期两天的"2018年全区绩效管理业务培训班"在南宁召开,有来自自治区直属单位.各市县财政部门.第三方机构等300余人参加培 ...

  • 大数据思维与运用

    大数据思维的核心分为三点. 实证性思维:一切基础都是实证思维,也就是所有的事情都要讲证据和数据. 复杂性思维:建立科学的决策系统,数据间的关系比因果更为重要.寻找正确的指标,不要以因果判断数据,容易出 ...

  • 简单几步了解大数据思维

    今天呢,聊一聊大数据思维,我们主要讲三个部分.第一呢,是大数据时代的三大重要变革.第二呢是,从传统思维到大数据思维.第三个是,运用数据思维,解决业务问题. 第一呢,是处理数据理念的思维变革.第二是是挖 ...

  • 【营销心得】最火综艺思维理解最in大数据-大数据开启未来

    卫星与网络 satnetdy(←长按复制) 关注我们 专注军民融合的报道,坚持正确的舆论导向,依靠社会力量,为推动我国卫星网络通信的规划.建设.应用以及研发.生产提供全面的信息服务. 俗话说:穷,穷不 ...