UC头条:科学家是如何判断两个现象之间的因果关系的?
这不就是病因学研究吗,试着回答一下。
因果是个哲学问题,发展到现在,现代科学的因果观是概率论的因果观,简单的说就是,原因就是使结果发生概率升高的事件。比如说 A 和 B 存在一种关联,当你改变 A 的频率或者特性的时候,会引起 B 的频率或者特性的相应改变,那么 A 就是 B 的原因。放在病因学研究里,如果某种因素可以使人群的发病率升高,而去除这种因素之后,发病率会下降,那么这种因素就可以称为病因。
上面说的比较简单,不要以为因果关系就是这么简单。因为任何结果都不是由单一孤立的原因所致。
举个例子,比如你打开开关,电灯就亮了,关掉开关,电灯就灭了,经过反复试验发现,“开开关”和“电灯亮”是有因果关系的。但是,“开开关”却不是“电灯亮”的唯一原因,比如前提是要有电,而且电线也得是通的,同时,灯泡的灯丝不能断了,等等等等,因素其实有很多。如果影响到这些因素,也会影响到电灯是否会亮。
所以,一个结果应该是有一组原因影响生成的。
这样一来,问题就复杂多了,原因也要被分类了。
比如说从作用方式来看,可能存在必要原因和充分原因。
必要原因就像必要条件一样,就是说如果发生这个结果了,那么必然是有这个原因的存在和作用;反之不一定。这个用概率论因果观很好理解,因为原因是使结果概率升高,但并不一定是 100%概率,所以会有必要原因的存在。比方说肺结核。如果你已经得了这个毛病,那么可以反推肯定被结核杆菌感染了,那么结核杆菌的感染就是得肺结核的必要原因。但是,如果你免疫力强,可能虽然接触结核杆菌,但也不一定会发病,所以,结核杆菌感染不能推出必然得肺结核。这是必要原因。
有必要原因就有充分原因,就是说有了这个因素,就必然出现某种结果,我们常说的因果关系恐怕更多的是指这个充分原因。但是,充分原因就更麻烦了,因为前面提到了,产生结果的原因不是单一的,那么就没办法找到单一的充分原因,而只能有一组,是一组充分原因共同作用才必然出现结果。就好像前面提到开灯这件事儿,本来以为“开开关”必然导致“电灯亮”,以为是充分原因,但是没那么简单,我把你电线剪断了,再开开关灯也不亮,所以充分原因应该有一组。而要找到这一组相互影响的充分原因,这工程量就大了!所以,目前医学上的绝大多数疾病,充分原因并不完全明了;甚至极端一点,没法做到完全明了,因为还可能存在某种因素,只是你还没有发现而已。
凡事必有因,出现一种结果,总是有相应的原因。平时也经常会被问到“我为什么会得这个毛病?”我们可以说清楚一部分的必要原因,但是要想把充分原因都说清楚就太难了,甚至几乎是不可能的。
再比如从引起结果的远近程度来看,有直接原因和间接原因,或者是近端原因和远端原因。
比如医学研究发现,性生活越混乱、开始时间越早的女性,宫颈癌的发病率越高;而修女、尼姑和独身主义妇女很少有人患宫颈癌。这就是一个很典型的概率论的因果关系,所以,可以说性生活是宫颈癌的一个原因;再讲得危言耸听一点,就是“性生活致宫颈癌”。之所以说是危言耸听,是因为很显然,性生活不是宫颈癌的充分条件,因为有性生活的女性数量是很庞大的,相比而言,只有一小部分人得了宫颈癌。所以,应该是性生活带来某种因素,导致了宫颈癌。于是大家继续研究,发现了 HPV,这种病毒经性交传播,而且可以引起宫颈癌变。再继续研究,又发现了所谓宫颈癌的高危型 HPV,并且需要 HPV 的长期反复感染,才可能会导致宫颈癌。而有些人 HPV 一直阳性,但就是没有癌变;有些人查出来没多久就病变了,于是大家考虑应该也与某些遗传因素有关。这就是大家对于慢性疾病寻找原因的过程。这里的性生活就是宫颈癌的间接原因或者远端原因;而 HPV 感染则是直接原因或者近端原因。
既然原因是多种因素的,那么就像前面你说“性生活致宫颈癌”显得有些危言耸听一样,在医学上,我们给这些层次的病因取名叫做危险因素。比如性伴侣多和性生活开始的年龄小,就是宫颈癌的危险因素。
前面说过出现结果了我们反推原因,涉及必要原因、充分原因。现在我们发现一种现象了,那么是否就一定导致某种结果呢?答案是否定的。比如前面提到性伴侣多和性生活开始的年龄小,就是宫颈癌的危险因素,但不是说你的性伴侣有不少,就意味着你将来一定得宫颈癌。各个危险因素对于最终结局的作用程度其实是很难把握的。虽然科学研究中用到诸如“相对危险度”之类的概念,用来评价危险因素与结局直接的关联程度。但是,当你企图用数字来描述现实的时候,一定要小心,你可能把现实过于简单化了。甚至有时候,科学的数字称为书生百无一用的原始原因。
举个例子,我们已经知道了产后发生肺栓塞的大量危险因素,以及各个因素的相对危险度,比如长期卧床、产后出血、辅助生育技术、剖宫产手术等等。现在有一位产妇,是试管婴儿获得的妊娠,而且是中央型前置胎盘,孕晚期出现先兆早产,躺在床上休息了两个月,最终做了剖宫产手术,并且发生产后大出血。如此多的危险因素,她的产后会发生肺栓塞吗?答案是不清楚。我们需要高度警惕,但实际是否发生,要等她真的出现了才知道。
我们应用科学,总归是希望可以更好的预知未来,比如通过因果关联。但是实际情况是,当你真的打算通过已有的数据去预知未来的时候,当你看到现象打算通过已有的因果关联去预知结果的时候,需要慎重。因为即使是科学的手段获得的因果关系,也不是绝对全面的;甚至更“科学”的一点讲,你没法“科学的”获得绝对全面的因果关系。
前面讲的是用什么标准推断因果性。关于如何推知因果性,当然是靠试验和数据的统计,相关问题在 @程毅南的回答里写得很清楚了,而且也强调了关于混淆变量的问题,这里就不多说了。
再补充强调一点,就是关于实验设计时的时间顺序问题。因为因果关系有明确的时间先后顺序,所以,在实验设计上,应该是前瞻性的研究,就是说是预先选定好研究对象,然后给予干扰因素,再进一步观察结果。这感觉像是废话,难道有不是前瞻性的吗?有啊,既然因果关系是概率论的因果关系,那么当我们想要了解某因素 A 是不是某结果 B 的原因时,前提总是 A 和 B 的出现概率平行相关,如果 A 出现增加的时候 B 并没有增加,那么 A 就不是 B 的原因。所以,当 A 和 B 都已经存在了,我们去观察分析,这是一种回顾性研究,这种研究不能明确因果关系,但是,在了解两件事的相关性上也是有帮助的。当我们明确了两者相关之后,再去考虑谁是因谁是果。