深度解析:大数据面前,统计学的价值在哪里?
导读:本文介绍了关于统计学与大数据的一些观点。
作者:朱利平
来源:《光明日报》2019年03月30日 10版首发
01 统计学对大数据的意义
很高兴有这样一个机会,我能与大家在这里做一些关于统计学与大数据的交流,与大家分享一些观点。
在讲大数据之前,我们首先来看看什么是数据。很长一段时间里,大家对数据的理解,可能只是停留在阿拉伯数字这个层面。近些年来,大家开始讲大数据。结果有人就开始好奇了:这个大数据和我们之前说的数据有什么关系呢?
阿拉伯数字是不是数据呢?当然是数据。大数据是不是数据呢?当然也还是数据。不过,现在我们对数据的理解要广泛得多了。凡是可以被数据化的信息载体,我们都可以认为是数据。
比如说,我们接触的文本,包括平时看到的一些文字,现在我们都可以把它量化。我们看到的图片、视频和音频,现在也都可以量化。包括阿拉伯数字、文本、图片、视频和音频,我们都称之为数据。
现在我们理解的数据,从来源上来说更加广泛了,从类型上说变得很复杂了。这些不同来源、类型复杂的数据组合在一起,达到一定的体量之后,就可以认为是一个大数据了。
现在我们来说一下统计学,统计学是什么呢?首先,从学科定位上说,统计学已经被列为一级学科了。这一点和数学、法学等都一样了。
大不列颠百科全书对统计学有个定义,说这是一门收集数据、分析数据的科学和艺术。定义中提到统计学是一门科学,这个容易理解。那为什么说统计学是一门艺术呢?这个问题,就和我今天主要回答的一个问题很有关系。顺便说一句,现在美国很多高校的统计系,它并不设在理学院下面,而是设在艺术学院下面。
今天我主要回答一个问题:在大数据时代,我们究竟是否需要基于抽样的统计学?
有些人认为,现在计算机科学非常发达,可以收集海量的数据。为了特定的研究目的,我们现在甚至有能力通过计算机技术收集与特定的研究目的相关的全部数据。今天,基于抽样的统计学就没有那么重要了,甚至都不在被需要了。事实真的是这样吗?
02 统计学是一门收集数据的艺术
既然统计学被认为是一门收集数据、分析数据的科学和艺术。我们暂时不谈科学,先来看看统计学为什么被认为是一门收集数据的艺术。
我们来看第一个案例。这个案例是希望调查15个国家的国民的诚实情况。调查人员想要知道,哪些国家的国民最倾向于撒谎,哪些国家的国民很诚实。
如果直接去问被调查的人员:“您是否撒过谎?”十之八九,是问不到真实答案的。如果被调查人员以前撒过谎,也不在乎多撒这个谎了。被调查人员可能出于不同的动机,不愿意给出真实答案。
那么,调查数据怎么得来呢?这显然不是简单地通过计算机技术、通过某些爬虫软件就容易收集到适合研究目的相关数据的。
如何利用统计学方法来收集数据呢?这就需要统计学的智慧了。调查人员设计了两组实验。
调查人员先从每一个国家找1000人参与测试,15个国家一共找了15000人,找这么多不同国家的人来面对面调查,这是非常困难的,所以调查人员通过互联网找到了这15个国家共计15000人。两组实验都是在互联网上进行的。
在第一组中,他们先做了一个测试,请受调查者在家里抛硬币,硬币有正反两面,调查者事先规定,受调查者抛硬币之后要告诉我结果,如果硬币正面朝上,我就奖励你十块钱,如果反面朝上,我就不给你奖励。
这个调查不需要提供你抛硬币的证据,只是由你告诉调查者,抛硬币的结果。这也就是说,受调查者有没有撒谎,只有他自己知道。
这个最后的结果,实际上调查者是有参照的。因为,每个国家有1000人参与测试。正常情况下,1000次抛硬币的结果,应该是500次左右正面朝上。某个国家参与实验的1000个人之中,如果有900个人声称自己抛出来的硬币正面朝上,甚至1000人声称抛出来硬币正面朝上。那么,很大概率就是其中有人撒谎了。这是第一组实验。
第一组的实验有价值,但是它也不一定能够全面反映真实的情况,所以调查人员还有第二组实验。
第二组实验,是要求受调查者回答五个问题。这五个问题在回答之前,需要受调查者承诺,他不能为了答题去查阅任何资料,不能去寻求任何帮助,也就是说,看了这五个问题之后,受调查者需要立即给出答案。
调查者承诺,如果五个问题中,回答对了四个以上,就奖励给受访者十块钱,如果答对三个或者三个以下,就没有奖励。
而这五个问题中,其中有三个问题特别简单,类似于像1+1等于几这种问题。另外两个问题则非常生僻。如果受调查者不去查阅资料或咨询他人的话,基本是不太可能回答出来的。
因此,如果有受调查者答对了这两道难题,十有八九就说明他违反了自己事先承诺的“不去查阅资料寻求帮助”,由此可以推论他在这件事情上不诚实。
然后统计人员通过这两组实验结果,互相验证。这两组数据收集的过程都非常恰当地体现了统计学在收集数据方面的智慧。
所以说,即使在大数据时代,不是说有了计算机,有了爬虫技术,我们就能收集到适合研究目的的所有数据。统计学是一个收集数据的艺术,针对特定的研究目的,设计非常漂亮的数据收集方案,就是一个非常艺术的收集数据的过程了。
我们再举一个例子。这是最近美国麻省理工刚刚完成的一个实验,大致在2018年左右完成的,实验结果也公布出来了,目的是想了解大家目前的婚姻观念,100人受到邀请来到一个封闭的场所参与这个实验。
参加实验时,每人都会被贴上一个编号。男的编号是单数一三五七九,女的编号是双数二四六八十,以此类推。参与实验的这100人不知道自己的编号,也不知道究竟有多少人参加了这次实验。换句话说,他们不知道参加这次实验的正好是50个男人和50个女人,受访者仅仅知道,这次实验有很多人参加。
在这里统计人员采取了一点小花招,就是当受访者进门的时候,把编号贴在受访者后背上,受访者知道自己有编号,但是不知道自己的编号是多少,不过他能够看到别人后背上的编号。实验规则说,允许100人中的任何两个人进行交谈,除了不能告诉对方他的后背编号是多少,其他话题都可以谈。
然后实验者把这100人带到一个很小的一个房间里,宣布给大家5分钟时间,在这5分钟内,大家自行配对,每人只能配一名异性。5分钟结束之后,如果配对成功了,两个人背后的数字加起来乘以十,就是两人能够拿到的奖金。
也就是说,如果编号是100的那个女性找到了那个编号为99的男性,那么两人就可以拿到(100+99)×10的奖金,也就是1990美元,这笔钱已经很可观了。但是如果你是一个编号为2的女性,而你找到的是那个编号为1的男性,那么你俩只能得到(1+2)×10也就是30美元,你俩用这奖金一起吃顿饭都不一定够。但是5分钟之后,如果还没有配对成功的话,你就连一美分都拿不到。
因此,参加者必须在5分钟之内,在一个很小的拥挤空间内,尽快找到愿意跟自己配对的那个人。而且在这个过程中,要尽可能让自己的奖金数额变得很大。
实验人员之所以把100人故意安排在非常拥挤的小房间内,就是考虑到,一方面要让大家能够很快速地看到一些人的编号,另一方面又能保证一个人不可能看到所有人的编号。在人挤人的情况下,有些编号是肯定看不到的。
实验开始了。
一些人很快就发现,自己连续跟别人配对三四次,大家都拒绝他。这很可能说明,自己后背的编号数字不够大,别人不感兴趣。
于是这其中就有人采取了应对策略,他跟别人讲,如果你愿意跟我配对的话,那我愿意把奖金全部给你,反正我数字也不大,所以我的钱不要了。还有人说,只要你这次跟我配对成功了,我们出去以后,我再单独请你吃顿饭。
另外还有一些人,虽然他不知道自己后背的编号,但是他发现有很多人过来找他,所以他很快就意识到,自己后背的编号很可能很大,但具体多大,他并不知道。而且要尽可能让两个人组合出来的数字变得很大。
于是他很快就把眼前这批他能看到数字的人拒绝掉了,因为他理所当然地认为接下来肯定还有更大的编号,但是他并不知道最大的编号是多少,同时他还必须要在5分钟内快速决定跟谁配对。
这个实验的结果是,编号99的男性并没有与编号100的女性配对成功。那位编号100的女性,找到的是编号八十几的一位男性。那些数字在中间的人,大体都配对了跟自己差不多的另一个人。
这我们现在来看这个实验的结果,它基本上跟中国男女婚姻观念的现实比较类似。比如说,实验者因为自己编号小,就让渡自己的奖金给对方甚至于承诺事后请对方吃饭,以求得成功配对,这个跟现实中“我的个人条件差一些,但是我父母同意我们两个结婚之后送给我们一套房子”的承诺是类似的。
而且我们在生活中也发现,一些最优秀的男性女性,他们身边不乏追求者,但是他们并没有找到自己的“最佳匹配对象”。
这个数据的收集过程也是非常漂亮的。
03 数据并不是越多越好
统计本身是一门收集数据的科学,但是数据是不是越多越好呢?很难说。
历史上有一个非常有名的例子。大约500年之前,丹麦有一个天文学家叫第谷,他从当时的丹麦国王那里要了一笔钱,建了一个实验室。第谷天天去观察每颗行星的运动轨迹,并且每天记录下来。于是第谷观察了20年,记录了大量的数据。不过,这个数据太多了,第谷花了大量时间、精力来分析这个数据,但没有发现任何规律。
这时候,一个叫开普勒的人出现了。开普勒认为,第谷每天去观测,一年365天每一颗行星都会有365个数据,这样20年观测记录积累下来,要分析处理的数据就太多了,而且那个时候的数据分析只能依靠手工计算,这个处理工作量实在太大了。
于是开普勒就说,能不能每年只给我一个数据,比如说你可以只告诉我每年的1月1日,地球在什么位置,土星在什么位置,太阳在什么位置等等。这样20年的观测数据筛选之后,每一颗行星的数据就只有20个了。开普勒知道,地球每隔365天会回到同一个位置,然后他把地球的位置固定,再分析其他行星跟地球的相对位置。
开普勒通过固定地球的位置,对其他行星位置20年的数据进行分析,就成功得到了其他行星的运行轨迹。此后开普勒就发现,如果地球位置不变的话,那么其他行星的20年运行轨迹画出来之后,这些行星都是围着太阳运转,运行轨迹都是椭圆形的。由此开普勒发现了行星运动的规律。
从这个天文学上的著名案例,我们可以看出来,数据太多可能会导致信息量变得巨大,反而增加寻找到规律的难度。从而需要通过科学的方法简化数据。
关于这方面的案例还有不少。比如说美国总统富兰克林·罗斯福,他是美国历史上唯一一位连任四届的总统。1932年的时候他第一次当总统,当时美国和许多国家正在遭受经济危机,罗斯福面临的压力也很大。
因此到了1936年罗斯福想竞选自己的第二任总统的时候,美国许多人预测罗斯福很难连任。那一次,罗斯福的主要竞选对手是兰登。当时就有两个机构在预测总统选举结果,其中一个是《文学文摘》杂志,它在当时是一个非常有影响力的刊物,因为这个杂志此前几次对总统选举结果的预测都成功了。
到了1936年美国总统选举的时候,文学文摘搞了一个大的调查统计,它调查了240万人。具体方式就是在杂志里面夹上关于总统选举的调查问卷,然后收集反馈。其实当时文学文摘调查的还不止240万人,还要更多,只不过最后收回来的有效问卷是240万份。正是根据这个调查结果,文学文摘宣布他们预测兰登将战胜罗斯福赢得大选。
而当时还有一个机构,准确地说是一个年轻人,叫盖洛普,他的预测结果跟文学文摘的预测正好相反。起初盖洛普做这类调查统计,是因为他的母亲要竞选众议员,他是给他母亲帮忙,于是就在经费不多的情况下做了对较小人群的相关调查,然后这个调查结果很成功,他母亲当上了众议员。
接下来他就想调查一下,罗斯福和兰登谁会赢得1936年竞选。但是他比不了文学文摘的财大气粗,所以他只调查了5000个人,根据这5000人的调查结果,盖洛普预测罗斯福当选。
结果罗斯福果然成功连任总统,盖洛普的预测胜利了。
这个选举结果出来之后,对《文学文摘》杂志的声誉造成了巨大的冲击:毕竟文学文摘调查了240万人,最后却发布了一个错误的预测,而盖洛普只调查了5000人,发布的预测却是正确的。结果,文学文摘因为这个事情后来就关门倒闭了。而那个年轻人盖洛普,就此成立了一个民意调查公司,也就是现在的盖洛普咨询公司。
这是事情的结果。那么为什么调查了5000人的预测,要比调查240万人的结果更准确呢?我们先不说240万这种海量数据,它在规模变大以后会带来计算效率的下降,我们也不提这类海量收集数据会导致成本居高不下的问题。
根本的原因,是当时文学文摘通过杂志夹带问卷进行调查的这种方式。因为当初问卷是夹在杂志中发放的,所以文学文摘收集来的240万份有效问卷,实际面对的都是订阅了这份期刊的用户。
那么,当时什么样的家庭会订阅这样的杂志呢?一般来说都是家境比较好的家庭,所以,文学文摘虽然号称调查了240万人之多,但是它调查的主要群体,是当时美国国内相对而言有钱的那部分人。而穷人群体的意见,它这个调查实际并没有覆盖到。
数据的量多不一定就代表准确,收集来的数据质量好、有代表性,才有可能分析出准确的结果。
04 统计学是一门分析数据的艺术
前面举了一些例子,提醒我们需要非常小心地设计方案收集数据。数据收集上来之后,我们还要做数据分析。按照前面大不列颠百科全书的说法,统计学同样是一门分析数据的艺术。
讲到数据分析,在这里我只讲两个基本概念:相关与因果。为什么讲这两个概念呢?这是因为人们常常混淆这两个概念,常常会把相关关系误以为是因果关系。在许多科学研究和政策问题评价中,我们更关心因果关系。但是,当我们看到了某种形式的相关关系后,常常会误以为这就是我们追求的因果关系了。
比如说,在中世纪的欧洲,很多人相信,虱子对人的健康是有帮助的。这是因为当时人们发现,得病的人身上很少有虱子,而健康人的身上反而是有虱子的。这是长期的观察累积下来,形成的经验。
在中世纪的欧洲,很长一段时间里人们都根据这个经验,得出这样一个因果推论:这个人身上有虱子,所以他身体健康,那个人身上没虱子,说明他身体不健康。
当时,人们确实观察到虱子的存在与否跟人是否健康构成了相关关系,但是,这是因果关系吗?
有了温度计以后,人们就发现了,这不是真正意义上的因果关系:因为虱子对人的体温非常敏感,它只能在一个很小的温度区间范围生存下来。而人体一旦生病的话,很多时候会出现发烧症状。人体一发烧,温度变化,虱子就无法适应发烧时候的热度,于是跑掉了。
如果我们只停留在观察到健康与否和虱子多寡之间存在关系,那实际只是相关关系,而不是因果关系。与之类似的例子还有很多,比如说,我们看到每年冰淇淋销量增加的同时,各地不幸溺亡的人数也在增加。那么这两件事情是不是构成因果关系呢?
常识告诉我们,肯定不是。其实是因为每年气温升高之后,游泳的人可能就多了起来了,随之溺亡人数也就相应增加了。而同样是因为气温升高,冰淇淋的销量也会增加。
也就是说,如果我们观察到一个因素出现了一点点变化,另外一个因素也会随着跟它变化,它们之间可能就有相关关系,但是这种相关关系,并不意味着这两个因素构成因果关系。
如何判断因果关系呢,这就需要我们非常小心,而且要非常艺术地做数据分析了,我们最终还是要回到统计学上来。
这里,我们举一个历史上的疾病案例,这就是小儿麻痹症,也就是脊髓灰质炎。现在大家看到的小儿麻痹症病例比较少,因为现在有相应的疫苗。历史上,脊髓灰质炎曾经是一个让人非常害怕的疾病。
在20世纪50年代,当时美国一所大学的实验室,做出了一种针对这个疾病的疫苗,已经证明它在实验室条件下能够产生有效的抗体。但是他们不知道,如果应用到实际生活中的大规模实验,这个疫苗还会不会有效。
所以当时美国政府部门就决定要做实验,这个时间大致在1954年。因为当时脊髓灰质炎的患者主要是孩子,所以当时的实验人群定为小学一二三年级的学生。怎么做实验才能够真正说明疫苗是否有效呢?为了确保统计结果最终反映真实的因果关系,当时提出了五套实验方案。
第一套方案是,因为1953年之前是没有这个疫苗的,所以就从1954年开始,给所有的一二三年级小学生接种疫苗,最后再来看一下,1954年的发病率,跟1953年相比,会不会有差别。
这个方案是个办法,但是它有问题,因为之前每一年的脊髓灰质炎发病率的差别比较大。比如说1951年全美可能有3万名脊髓灰质炎患者,1952年则有6万名,而1953年又可能缩减到不足4万名。
这个脊髓灰质炎每年发病率的波动都比较大,万一到时候实验结果是3万名到4万名之间,如何判断这个结果是随机变化的,还是疫苗发生了作用?
第二个方案则提出要按照地区来做。比如,在纽约地区,就给一二三年级小学生们全部接种疫苗,而在芝加哥地区的就全部不接种疫苗,然后来统计,纽约和芝加哥这两个地区的脊髓灰质炎发病情况。
这个方案后来发现也不行。因为脊髓灰质炎本身就是传染病,一个地区可能流行这个疾病了,而另外一个地区就可能没流行,那么这两个地区的数据看起来就会有差异,但是这不是疫苗的效果,不具有可比性。
于是就有人提出了第三个方案。因为当时这个疫苗接种,谁也不知道有没有副作用,因此是有一定风险的。所以这个方案就提出,让接种疫苗的孩子们的父母来自行选择。有的家长选择给孩子接种疫苗,有的就不选择接种,这样同一批孩子就会出现不同的对照。
但是这么做,也有问题。因为当时人们已经发现,脊髓灰质炎的患者一般来自于家境比较好的家庭。
这是因为,那些家庭经济状况比较差的家庭,因为生活条件差,卫生条件不好,可能一个人很早就接触过脊髓灰质炎的病毒了,甚至很可能在刚刚出生的时候就接触了脊髓灰质炎的病毒,但是刚出生的婴儿是有母体的免疫力的,婴儿凭借母体的免疫力,接触这个病毒之后能够产生抗体,反而不会得病。
当时的这类数据情况已经展现了这种现象。如果采用自愿接种的方式,那些经济状况比较好的家庭,往往愿意让自己的小孩去接种,而经济状况不好的家庭由于经费原因,同时也知道自己这个阶层染病率稍微低一些,他可能就不愿意接种了。这样就造成了对实验结果的干扰,你无法判断到底是疫苗有效还是经济原因导致的不同结果。
然后是第四个方案。有人提出,只让二年级的学生接种,而一年级和三年级学生不接种。之后再比较接种的跟不接种的学生之间的区别,看他们的发病率会不会有差别。这个方案是当时的一个脊髓灰质炎防治委员会提出的方案。
这个方案同样行不通,第一,它同样无法避开接种孩子家庭贫富差距导致的患病概率差异。第二,脊髓灰质炎是一种传染疾病,人群的年龄是对这种传染有影响的,一、二、三年级的学生年龄层次有差别,可能就会导致各个年级学生得病概率的差异。
此外这个方案还有第三个重大缺陷,那就是可能会对医生形成心理上的诱导。如果按照这个方案执行下去,医生们就是知道的,一、三年学生没有接种疫苗,而二年级同学中有部分同学接种了疫苗。
当时脊髓灰质炎的诊断还不太容易,如果医生已经知道了这个疫苗接种方案,而且也提前知道这个疫苗在实验室阶段是管用的,那么医生在面对一年级学生时,一旦这个疾病还无法确诊,那么这个医生就很可能根据“一年级学生没有接种疫苗”“疫苗是有效的”这两个提前的认知,就直接诊断这名一年级学生得了脊髓灰质炎。
而且这种区别对待的方案,接种的学生本身心理也会受到影响的。
当时还有第五个方案,也就是最终执行并被采纳了调查结果的方案。这个方案具体来说,就是在征得学生家长同意之后,仍旧会告诉家长:你即使同意接种疫苗,我给你家孩子接种的,也不一定是疫苗,而是一种看起来跟疫苗一模一样的安慰剂,没什么副作用也没有什么效果。
因为这个安慰剂跟疫苗长得一样,所以医生和学生都不知道到底接种的是疫苗还是普通的安慰剂,但是疫苗提供方是知道的,它对每一个药品都加了编号,因此疫苗提供方知道哪些是安慰剂,哪些是疫苗。
通过这样的方式,实验室实现了随机的方式接种疫苗,而且无论家境好坏,这个接种疫苗都是随机的。同时医生们也不知道,到底是哪一些小孩接种了疫苗。这就规避了年龄、经济条件等各种扰动,有助于确定脊髓灰质炎与疫苗之间真正的因果关系。
1954年,这个实验大约有74万名小学生参与。最终的实验结果是,如果接种疫苗,孩子罹患脊髓灰质炎的概率大约是十万分之28,如果不接种疫苗,患病概率大约是十万分之77,二者相差一倍多。之后又经过各种努力,脊髓灰质炎疫苗在美国获得了通过。
许多科学结论、政策评价都依赖于因果分析而不是相关分析。统计学能够帮助我们证明那些我们所需要的因果关系。很多时候,真正的因果关系,不能简单地建立在相关关系的基础之上。还有很多科学问题,仍需要我们去发现真正的因果关系,这正是统计学可以提供数据收集以及分析方案的地方,也是统计学的魅力所在。
关于作者:朱利平,中国人民大学统计与大数据研究院副院长、博士生导师,中国人民大学“杰出学者”特聘教授。国家自然科学基金优秀青年基金获得者。入选中组部青年拔尖人才计划、教育部新世纪优秀人才计划等。长期从事复杂数据分析的研究工作,在统计学重要学术期刊上发表学术论文70余篇。