统计学的十个误区,你答对了吗? | 说人话的统计学·协和八
原
题
回
放
假设你经过多年潜心研究,发明了一种聪明药。
你招募了两组受试者进行双盲试验:你给其中一组服用你的聪明药,另外一组服用安慰剂维生素C片,然后让两组受试者进行智力测验。
经过两组的平均智力测验分数的比较后,你获得了0.01的p值——
也就是说,两组的智力测验得分具有统计学意义上显著的差异。
根据以上信息,选出以下你认为错误的陈述(可能不止一个):
1. 原假设(“两组的平均得分之间没有差别”)绝对是错误的;
2. 原假设(“两组的平均得分之间没有差别”)有1%的可能性是真的;
3. 备选假设(“两组的平均得分之间存在差别”)绝对是正确的;
4. 根据上述信息可以算出备选假设为真的概率;
5. 我们错误地拒绝原假设的概率是1%;
6. 如果同样的实验重复很多遍,其中将有99%的实验获得统计学意义上显著的结果;
7. 如果同样的实验重复很多遍,其中将有1%的实验获得统计学意义上显著的结果;
8. 我们完全由于随机因素而得到这一结果的概率是1%;
9. 这一实验的统计功效是1-0.01=0.99。
答案是:
全错!
1. 原假设(“两组的平均得分之间没有差别”)绝对是错误的。
——错误。
统计学永远无法给我们绝对的答案。
3亦同。
2. 原假设(“两组的平均得分之间没有差别”)有1%的可能性是真的。
——错误。
p值不是原假设为真的概率,
它只是在如果原假设为真时得到与数据相同或更极端的数据的概率。
在频率主义统计学(比如所有以p值为基准的假设检验方法)中,原假设为真的概率是一个无法知道的量。
关于p值的概念及对其常见的误解可见本系列第1集《你真的懂p值吗?》。第5集《你的科研成果都是真的吗?》中给出了一个例子,展示了p值和原假设成立概率之间可能存在的关系。(可以戳相应标题回顾第1集和第5集)
3. 备选假设(“两组的平均得分之间存在差别”)绝对是正确的。
——错误。
见第1问答案说明。
4. 根据上述信息可以算出备选假设为真的概率。
——错误。
根据题目所给的信息,我们无法知道备选假设为真的概率。频率主义统计学只考虑数据与假设的相符程度,并不对假设本身成立与否的概率作出推断。
5. 我们错误地拒绝原假设的概率是1%。
——错误。
注意到在这里,根据0.01的p值我们已经把原假设拒绝掉了。“错误地拒绝原假设”,也就是说原假设其实是真的,而我们的决定是错误的。因此,这一问和第2问其实是一样的。但是,如前所述,根据题目给出的信息,我们并不知道原假设是不是真的,也不知道它为真的概率是多少。
如果我们加上“如果原假设为真”,这句话对不对呢?
即使如此还是有问题的。在原假设为真的前提下,错误地拒绝了原假设,这就是我们之前说过的“第一类错误”(见本系列第2集《做统计,多少数据才算够?(上)》)。
犯第一类错误的概率(称为“错误发现率”false discovery rate)由⍺(许多时候取0.05)来表示,这就是我们用来判断一个统计检验结果是否具有统计学意义上的显著性的依据。如果我们坚持0.05这个标准,那么从长远来看,在我们做的许多统计学测试中,将会有5%的第一类错误。然而就单个实验来说,我们不能说犯第一类错误的概率是多少。
与此同时,p值是一个对实际获得的数据偏离原假设程度的测量,同样不是犯第一类错误的概率。举一个假想的例子,针对同样一个原假设,两个人分别独立做了完全相同的实验,一个人的数据的p值是0.01,而另一个人的p值是0.02。根据p<0.05的标准,两人都拒绝了原假设。如果p值等于原假设成立下错误拒绝原假设的概率,那么他们错误拒绝原假设的概率将是不同的。然而,对同一个原假设,他们做了同样的决定,这一概率不同在逻辑上是不能成立的。
6. 如果同样的实验重复很多遍,其中将有99%的实验获得统计学意义上显著的结果。
——错误。
p值与统计结果的可重复性没有关系。统计结果的可重复性依然取决于原假设为真的概率,但我们不能从p值中推出这个概率。
7. 如果同样的实验重复很多遍,其中将有1%的实验获得统计学意义上显著的结果。
——错误。
同上。
8. 我们完全由于随机因素而得到这一结果的概率是1%。
——错误。
如果在前面加上“在原假设成立的前提下”,那么这句话就对了。
9. 这一实验的统计功效是1-0.01=0.99。
——错误。
统计功效的定义是1-第二类错误率β(见第2集《做统计,多少数据才算够?(上)》。p值与β无关,题目中也没有关于β的信息,因此我们不知道统计功效是多少。
本期两位50元花费获奖者分别为:358***077@qq.com和188****6087。
题目没做对不开心?不要紧!
悄悄告诉你,两位德国学者Haller和Krauss拿着相似的几道题目去考30位大学统计学教师(详情可见第2篇参考文献),他们也做得不咋地呢——其中80%的人至少答错了一道题……
*本题改编自Reinhart, Alex. 'Statistics done wrong.' (2014)和H. Haller and S. Krauss. “Misinterpretations of significance: A problem students share with their teachers?” Methods of Psychological Research 7, no. 1 (2002)。