逻辑知识:相关性 ≠ 因果性
作者:physixfan
转帖:呼呼
专家说,常食海参使人变得更聪明!专家又说,科学研究表明,20~50岁男人射精越频繁,以后患前列腺癌风险就越低!诸如此类,我们在电视中、在媒体和网络上,每天可以看到类似的说教,什么什么会导致什么什么,也就是说到处可以见到各种各样的因果关系模型。
你会深信诸如此类的以上这种说法吗?例如,是不是为了变聪明我们人人就要天天吃海参?是不是为了降低患前列腺癌的风险男人就要天天打飞机?
相信死理性派的读者,不会轻易就相信上述的因果性结论。但轻易下因果结论则是很多人经常犯的毛病,为了分析类似这种结论的可信程度,我们先来看看这种结论都是如何得出的。
为了研究海参和聪明之间的关系,研究人员通常是这样做的:
首先在一定的人群中统计一下他们是否平时常吃海参,挑选出常吃海参的一组和不常吃海参的一组。然后进行智商测试,对总体结果进行统计,看看哪一组智商平均值更高,或者直接统计吃海参频率和智商之间的相关系数。如果常吃海参的一组平均智商得分更高,那么研究人员就会得出结论:常吃海参和智商高之间是呈正相关的关系的。
但根据这个研究,有的所谓“专家”则声称:海参吃得越多智商就越高哦!为了提高智商赶紧吃海参吧!然而——
相关性 ≠ 因果性!
即便是假设常吃海参的组平均智商真的更高,并且调查对象人数真的多到了具有统计意义,“专家”的声明仍然有一个致命的逻辑缺陷:相关性并不代表因果性!这是一个经常被人混淆,也经常被一些团体故意混淆已达到他们自己的目的的伪说辞、伪逻辑关系。
两个变量A和B,可能具有相关性,其原因是有很多种的,并非只有A→B或者B→A这样的因果关系。一个很常见的导致相关性的可能性是A和B都是同样的原因造成的:C→A并且C→B,那么A和B也会表现出明显的相关性,但并不能说A→B或者B→A。
比如有统计表明,游泳死亡人数越高,冰糕卖得越多,也就是游泳死亡人数和冰糕售出量之间呈正相关性,我们可以由此得出结论说吃冰糕就会增加游泳死亡风险吗?显然不可以!这两个事件显然都仅仅是夏天到了气温升高了所导致的,吃不吃冰糕跟游泳死亡风险根本没有任何因果关系。
从这个例子可以明显看出,只依据统计数据是不足以得出因果性的,想要得出因果性,必须从理论上证明两个变量之间确实有因果性,并且要排除掉第三个隐含变量同时导致这两个变量的可能性。
回到海参的例子上来。海参和聪明之间的正相关性,有可能是因为经常吃到海参的家庭一般比较富裕,而富裕的家庭通常可以给孩子提供更好的教育资源,以使得孩子更聪明;也可能是有一个或者多个基因,同时起到了使人喜欢吃海参和提升智商两种作用。如果不排除这些其他可能性,说吃海参可以导致更聪明的说法就是不可信的,我就绝不会为了提升智商去吃海参。
那么是否射精越频繁,患前列腺癌的风险越低?
对于什么是可靠的理论分析,我个人一直持有“无引用不相信”的原则,我们读到的科普文或者科技新闻,总是经过一次或者几次转述,很可能因为需要把某些说法夸张了。所以为了辨别这些说法的真伪,一定要根据文章的引用找到发表在学术期刊上的原文去读,看看原文的结论是什么,得出这个结论是用到了什么方法。而如果没有引用的话,就应该保留态度,此处存疑,不可尽信。
最后再来说说关于射精频率和前列腺癌患病率的负相关关系。“20~50岁男人射精越频繁,以后患前列腺癌风险就越低”,这个问题最近引起了不小的争论。依旧用“无引用不相信”的原则,我们搜索到一篇 文献
,这篇论文依据的正是统计调查,因此其研究结果只得出了相关性的结论,并没有给出因果关系。原文的最后结论说的很明确也很谨慎:“Our results suggest that ejaculation frequency is not related to increased risk of prostate cancer.”翻译过来是:“我们的结果表明,射精频率与前列腺癌发病率的升高并没有相关关系。”所以不能因此就下这样的结论:射精越频繁导致前列腺癌风险越低。至于为了降低患前列腺癌的风险天天打飞机,更不可取。最后还有一点需要说明,相关不等于因果,不代表相关就不可能是因果关系,只不过为了论证因果关系,需要更加严密的实证来说明。