相关不代表因果,推断需谨慎

小时候你有没有相信过这样一些“规律”:

  • 多打篮球会长高,因为打篮球的人个子普遍都高

  • 多吃鱼鳔,有利于游泳,因为会游泳的鱼,大都有鱼泡

但是我们坚持了很久以后,却发现并没有什么用。回头想想更像是父母让我们运动和吃东西的话术套路:

  • 打篮球的人之所以高,是因为矮个子容易被这个运动淘汰

  • 鱼泡是鱼游泳的关键器官,但是人吃下去,无非是获得了一些蛋白质等营养物质,而不是获得类似的器官

长大后,我们不再迷信这些“偏方”。但我们依旧会固执的认为:

  • 人只要努力,就能够成功。因为成功的人都很努力

  • 人只要有钱,就一定幸福,因为有钱的人看起来都很幸福

如果你还迷信这些想法,你可能需要好好看看本文接下来的内容了。

相关不代表因果

在统计上,相关和因果是两个完全不同的概念。举个例子,大家就能理解了。

有数据显示,同一时期内销售的冰淇淋数量越多的话,海滩度假村的溺水次数也就越多,也就是溺水死亡人数和冰激凌售出量之间呈正相关性。我们是否可以得出结论,是因为人们吃冰激凌比较多,才导致的溺水?

显然不能,这两者之间几乎没有任何因果关系。

这两个事情背后的原因,其实都是夏天气温升高。因为气温高了,所以人们爱吃冰激凌了,也有更多人去游泳了,这也增加了溺水的风险。

在上述这个例子里,相关性误导了我们,让我们误以为事物之间存在着因果联系。

从统计学的角度来看,相关和因果有着明显的区别:

  • 所谓相关关系,是指两个变量一起发生改变,彼此的变化存在一定的关联度

  • 所谓因果关系,是指一个自变量能够影响另一个因变量,二者存在时间前后的因与果关系

因果一定相关,比如你吃海鲜过敏,那么你吃海鲜后,肯定会伴随着过敏。

相关也不一定是因果,因为相关的两个变量背后,可能有共同的第三方因变量。比如前文所说的“夏天”这个第三方变量。

回到本文开头所说的那两个案例:

  • 努力,只是成功的可能条件之一,也有人很努力却不成功。成功的人之所以努力,可能仅仅是因为忙

  • 有钱,只是幸福的一个影响因素,也有些有钱人并不幸福。在看起来有钱和幸福的背后,可能都是炫耀心在起作用

如何确定因果关系?

通常来说,因果关系必须满足三个条件:

  • 变量影响:当自变量变化时,因变量会跟着发生变化。如果改变了自变量,因变量不受影响,说明因果关系不成立

  • 时间先后:自变量的变化必须在前,因变量的变化在后。如果在改变自变量之前,因变量就发生了变化,这肯定不是因果关系导致的

  • 排除干扰:要想确定因果关系,两个变量之间的因果关系不能被别的变量解释。比如前文冰激凌和游泳所说的例子

相关依旧有其价值

比起因果关系,相关并非完全没有价值了。相关意味着我们可以进行预测,而预测意味着我们可以制定策略。

比如尽管我们不知道吃冰激凌和溺水之间有没有因果关系,但是我们依旧可以设定一个报警,当我们开始大量吃冰激凌的时候,增加人力保护大家游泳安全,同样可以起到不错的效果。

我们都听说过蝴蝶效应,微小的变量能带来巨大的影响变化。

在复杂的现实环境中,很多变量之间的关系是错综复杂的,没有办法找到简单的因果关系。而且即便存在因果关系,这种关系也可能是非线性的,是时间延迟的。因而大部分时候,因果关系并不可得,我们只能利用好观测到的相关性。

AI是一个利用相关性的杰出产物。

以推荐算法为例,淘宝发现客户购买商品和行为之间的相关性,从而让推荐算法向用户呈现有意义的相关产品。

百度发现用户点击行为中的相关性,进而向搜索用户提供给有用的信息。

这些算法模型没有直接给出用户偏好产品A和产品B的原因,但会根据相关性给出有效的选择,从而提升商业效率。

学会区别相关和因果,是理解事物的第一步。而学会利用相关和因果,是打开新世界的那一步。

(0)

相关推荐