相关不代表因果,推断需谨慎
小时候你有没有相信过这样一些“规律”:
多打篮球会长高,因为打篮球的人个子普遍都高
多吃鱼鳔,有利于游泳,因为会游泳的鱼,大都有鱼泡
但是我们坚持了很久以后,却发现并没有什么用。回头想想更像是父母让我们运动和吃东西的话术套路:
打篮球的人之所以高,是因为矮个子容易被这个运动淘汰
鱼泡是鱼游泳的关键器官,但是人吃下去,无非是获得了一些蛋白质等营养物质,而不是获得类似的器官
长大后,我们不再迷信这些“偏方”。但我们依旧会固执的认为:
人只要努力,就能够成功。因为成功的人都很努力
人只要有钱,就一定幸福,因为有钱的人看起来都很幸福
如果你还迷信这些想法,你可能需要好好看看本文接下来的内容了。
相关不代表因果
在统计上,相关和因果是两个完全不同的概念。举个例子,大家就能理解了。
有数据显示,同一时期内销售的冰淇淋数量越多的话,海滩度假村的溺水次数也就越多,也就是溺水死亡人数和冰激凌售出量之间呈正相关性。我们是否可以得出结论,是因为人们吃冰激凌比较多,才导致的溺水?
显然不能,这两者之间几乎没有任何因果关系。
这两个事情背后的原因,其实都是夏天气温升高。因为气温高了,所以人们爱吃冰激凌了,也有更多人去游泳了,这也增加了溺水的风险。
在上述这个例子里,相关性误导了我们,让我们误以为事物之间存在着因果联系。
从统计学的角度来看,相关和因果有着明显的区别:
所谓相关关系,是指两个变量一起发生改变,彼此的变化存在一定的关联度
所谓因果关系,是指一个自变量能够影响另一个因变量,二者存在时间前后的因与果关系
因果一定相关,比如你吃海鲜过敏,那么你吃海鲜后,肯定会伴随着过敏。
相关也不一定是因果,因为相关的两个变量背后,可能有共同的第三方因变量。比如前文所说的“夏天”这个第三方变量。
回到本文开头所说的那两个案例:
努力,只是成功的可能条件之一,也有人很努力却不成功。成功的人之所以努力,可能仅仅是因为忙
有钱,只是幸福的一个影响因素,也有些有钱人并不幸福。在看起来有钱和幸福的背后,可能都是炫耀心在起作用
如何确定因果关系?
通常来说,因果关系必须满足三个条件:
变量影响:当自变量变化时,因变量会跟着发生变化。如果改变了自变量,因变量不受影响,说明因果关系不成立
时间先后:自变量的变化必须在前,因变量的变化在后。如果在改变自变量之前,因变量就发生了变化,这肯定不是因果关系导致的
排除干扰:要想确定因果关系,两个变量之间的因果关系不能被别的变量解释。比如前文冰激凌和游泳所说的例子
相关依旧有其价值
比起因果关系,相关并非完全没有价值了。相关意味着我们可以进行预测,而预测意味着我们可以制定策略。
比如尽管我们不知道吃冰激凌和溺水之间有没有因果关系,但是我们依旧可以设定一个报警,当我们开始大量吃冰激凌的时候,增加人力保护大家游泳安全,同样可以起到不错的效果。
我们都听说过蝴蝶效应,微小的变量能带来巨大的影响变化。
在复杂的现实环境中,很多变量之间的关系是错综复杂的,没有办法找到简单的因果关系。而且即便存在因果关系,这种关系也可能是非线性的,是时间延迟的。因而大部分时候,因果关系并不可得,我们只能利用好观测到的相关性。
AI是一个利用相关性的杰出产物。
以推荐算法为例,淘宝发现客户购买商品和行为之间的相关性,从而让推荐算法向用户呈现有意义的相关产品。
百度发现用户点击行为中的相关性,进而向搜索用户提供给有用的信息。
这些算法模型没有直接给出用户偏好产品A和产品B的原因,但会根据相关性给出有效的选择,从而提升商业效率。
学会区别相关和因果,是理解事物的第一步。而学会利用相关和因果,是打开新世界的那一步。