Donald Rubin的因果推断学术贡献:超出统计学范畴的划时代影响

导语

2021年10月11日,Joshua D. Angrist和Guido W. Imbens因“对因果关系分析的方法学贡献”而获得2021年诺贝尔经济学奖。Angrist和Imbens最为知名的工作是其在20世纪90年代将工具变量引入了潜在结果框架,该框架也被称为Rubin因果模型。本次因果科学第三季读书会第一期邀请到了该框架的提出者,统计学家Donald B. Rubin教授来为我们介绍潜在结果框架,欢迎点击文末了解详情。

Donald B. Rubin教授,美国国家科学院院士,美国科学与艺术学院院士,曾任哈佛大学统计系John L. Loeb讲席教授,现任清华大学丘成桐数学科学中心教授。他获得过统计学领域几乎所有著名奖项,包括著名的 Wilks奖章、Parzen奖、Snedecor奖等,是当今世界最具影响力的统计学泰斗。他对科学的贡献已超出统计学范畴,其统计思想对生物医学、经济学、心理学、教育学、社会学及计算机科学等众多领域产生了划时代的影响,谷歌学术显示其文章和著作引用量已超过35万次。

一、20世纪70年代:潜在结果的提出

尽管从最初级的统计课开始,我们就被反复教导“相关不意味着因果”,但在日常生活中,我们还是经常使用“因果”的语言来描述我们的经历。例如:“我今天感冒好了是因为我吃了阿莫西林”,“他考试没及格是因为从来不做作业”,或者“美国的新冠病例数出现反弹是因为出现了德尔塔变异株”。但是同时,我们似乎也能区分相关性与因果性,比如没有人会主张“太阳升起是因为鸡打鸣了”。

在日常生活中,我们依赖自己的经验以及常识来判断因果或相关关系。但是在科学研究中,人们面对的往往是未知的事物,经验或者常识变得不再可靠。长期以来,科学家们依赖随机对照实验来研究因果关系。譬如如果要研究某种药物对治疗疾病的影响,需要将病人随机地分为两组,分别给予药物及安慰剂,并依此比较两组间的结局差异。然而,在现实中,随机对照实验并不总是可行的。例如,如果我们要研究吸烟与肺癌之间的关系,我们不可能将人群随机分为两组,一组让其吸烟、一组让其不吸,因为这不符合伦理。同样,我们想研究接受大学教育对一个人收入的影响,也不能随机地让受试者上大学或不上大学。基于随机对照实验所定义的因果关系在现实中有很大的局限性。我们需要一种形式化的因果的定义,使其可以尽可能广泛地用于各种研究类型中,现如今在统计学、经济学、流行病学以及其他自然及社会科学中被广泛使用的潜在结果(potential outcome)框架,就是这样的一种形式化的定义。

潜在结果最初的提出是在Neyman的论文[1]中,但是这篇文章只在随机对照试验中使用了潜在结果的概念,且直到1990年翻译成英文后才为人所知。Rubin在他1974年的论文中也提出了潜在结果的概念,并将这个概念推广到了观察性数据中[2],真正开启了统计学界对因果推断的广泛研究。因此潜在结果框架有时也被称为Rubin因果模型[3]。

何为潜在结果?又如何基于潜在结果定义因果?假设我们关心某个变量A(例如,在某个时间点是否服用阿莫西林,A=1是服用,A=0是没有服用)对Y(服用后三小时的是否还感冒,Y=1表示感冒,Y=0表示没有感冒)的因果关系。那么我们观察到的某个个体就存在两个“潜在”的状态:一个是如果他服药,他三小时后是否感冒,不妨记作Y(1);另一个如果他没有服药,他三小时后是否感冒,不妨记作Y(0)。这里Y(1)和Y(0)就是潜在结果。(注意,在实际中,Y(1)和Y(0)这二者中只有一个可以被观察到。另外,严格地说,此处实际上做了“个体处理值稳定”即SUTVA的假设)那么对这个人,就可能有以下四种情况:

a) Y(0)=0, Y(1)=0。即不论吃不吃药,这个人在三小时后均不会感冒。

b) Y(0)=1, Y(1)=1。即不论吃不吃药,这个人在三小时后均会感冒。

c) Y(0)=1, Y(1)=0。即此人如果不吃药,三小时后会感冒,但是如果吃药,三小时后不会感冒。

d) Y(0)=0, Y(1)=1。即此人如果不吃药,三小时后不会感冒,但是如果吃药,三小时后会感冒。

在a和b两种情况下,Y(1)=Y(0),即吃不吃药不会影响三小时后是否感冒的状态,这种情况下我们说吃药对三小时后是否感冒没有因果作用,相反,在c和d两种情况下,Y(1)≠Y(0),这种情况下我们说吃药对三小时后是否感冒有因果作用。使用潜在结果,我们便可以方便地定义感兴趣的因果作用,例如平均因果效应E[Y(1)-Y(0)],这个量代表了在一个群体中,如果每一个人都采取某种处理和都不接受处理相比,这两种情况下平均意义上的结果差值。

使用潜在结果我们或许可以理解为什么人们不会认为“太阳升起是因为鸡打鸣”了,因为根据我们的常识,如果某天鸡不打鸣(或许是因为生病或劳累),太阳仍然会照常升起。

二、20世纪80年代:倾向性评分的提出

Rubin的另一重大的贡献则是和Rosenbaum一起提出了倾向性评分的概念 [4]。他们的这篇文章是著名统计学期刊Biometrika引用量最高的文章之一。

随机试验之所以被认为是因果推断的金标准,很大程度上是因为其处理是随机分配的,而不是由受试者自己选择的。处理是随机分配的假设可以形式化地表达为A⊥{Y(0),Y(1)}。在这条假设下,我们可以说明,基于观察数据得到的相关关系实际就反映了因果关系:

E[Y(1)-Y(0)] = E[Y(1)|A=1]-E[Y(0)|A=0] = E[Y|A=1]-E[Y|A=0]

其中,第二个等号成立是因为“一致性”,即在某种处理方案下观察到的结果就等于这种处理方案对应的潜在结果。

但是在现实中,处理是随机分配的假设往往不成立。例如在分层随机化实验中,我们先依据性别进行分组,进而在每个组内进行随机化实验,此时,条件在性别这个变量上(记作X)后,处理的分配是随机的,这个条件我们可以写成如下形式(即可忽略性):A⊥{Y(0),Y(1)}|X。很多观察性研究可以近似地看成是某种分层随机试验,尽管处理的分配不是随机的,但是当个体的某些特征都相同时(如性别、年龄、收入等),处理的分配可以看成是随机的。

针对这种观察性研究,Rubin最初的想法是“匹配”,即将协变量X相同的个体放在一起比较,算出处理组和对照组之间的差异。但是这种方法的问题是,当X的维度很高时,基于原始协变量的匹配就越来越不现实。Rosenbaum和Rubin提出的倾向性评分,相当于对原始的协变量进行降维。倾向性评分 (propensity score,记作e(X)) 的定义是:e(X)=P(A=1|X)。它实际描述的是处理的分配机制。在Rosenbaum和Rubin的文章中,他们证明了A⊥{Y(0),Y(1)}|e(X),于是可以基于倾向性评分进行匹配。当然,在现实中,倾向性评分往往是未知的,需要进行估计。基于倾向性评分的因果效应的估计方法也有很多,除了匹配的估计,还有逆概率加权的估计,回归的估计等。本届诺奖得主Imbens在倾向性评分方法方面也做出了许多工作,如提出广义倾向评分等。

三、20世纪90年代:工具变量引入潜在结果框架

Rubin对因果推断的另一贡献便是将工具变量引入了潜在结果的框架。为了确定因果效应,我们通常需要假设上述的可忽略性成立,这在观察性研究中很难满足,即存在某些观察不到的混杂变量,同时影响处理分配和结局。在有未观测混杂的情况下识别和估计因果作用一直是一个巨大的挑战。这个问题长期以来一直受经济学家的关注,他们长期以来在线性结构方程模型的框架下使用工具变量来处理“遗漏变量偏误”的问题,但是线性结构方程模型隐含了较强的同质性因果效应的假设。Angrist、Imbens、Rubin在1996年的《美国统计学会学刊(JASA)》上发表的文章首次将工具变量引入了因果推断的框架。这也是首次在潜在结果的框架中,提出工具变量的三条关键假设(排他性、相关性、独立性)。他们的文章还提出了依从者平均因果效应的概念,这个概念也为主分层概念的提出埋下了伏笔。

在Angrist、Imbens、Rubin的文章里,他们使用了一个非常巧妙的例子。这篇文章里他们分析了参军(veteran status in the Vietnam era,记作A)对健康结局(记作Y)的因果作用。在现实中,一个人是否参军往往受多种因素影响,一般很难穷尽所有影响参军和健康结局的共同因素。但是在这个研究中,有一个很巧妙的工具变量的设计,因为当时入伍的优先权是通过随机分配的通过抽签决定的(记作Z)。理论上说,抽中数字较小(Z=1)的人应该服役(A=1),抽中数字大(Z=0)的人不应该服役(A=1),但是在现实中,也会有不依从的现象出现。这里,Z就是一个较好的工具变量:首先,一个人抽中的数字的大小不会对健康有直接影响,只会通过影响服役(A)来影响健康,这满足排他性假设;其次,抽中数字的大小与潜在结果是无关的(因为抽签是随机分配的),这满足独立性假设;最后抽中数字小的人——尽管存在不依从的现象——参加兵役的可能性会更高,即相关性的假设成立。

但遗憾的是,即使上述三个条件均成立,工具变量依然不足以识别我们通常感兴趣的因果参数(如平均因果效应)。注意到人群中存在四种人,我们一一列出如下(此处A写成Z的潜在结果):

a) A(0)=0, A(1)=0。即无论抽签大小,均不服兵役。

b) A(0)=1, A(1)=1。即无论抽签大小,均服兵役。

c) A(1)=1, A(0)=0。即如果抽签抽中,(即抽签的数字小,Z=1)就去服兵役,反之不服兵役。

d) A(0)=1, A(1)=0。即如果抽签没抽中,(即抽签的数字小,Z=1)就去服兵役,反之不服兵役。

在Angrist、Imbens、Rubin的文章里,他们假设第四种人是不存在的,即“单调性”假设,也就是说,人群中没有这种看似非常奇怪的人,他们如果没被抽中就回去服兵役,但是被抽中的就不去服兵役。在这个例子中,单调性似乎是一个很有道理的假设。

在以上的假设下,Angrist、Imbens、Rubin提出了依从者(即第c类人)的平均因果效应是可以识别的,而且就等于如下的Wald估计量:

E[Y(1)-Y(0)|A(1)=1,A(0)=0] = {E[Y|Z=1]-E[Y|Z=0]}/{E[A|Z=1]-E[A|Z=0]}

这个量被称作局部平均因果作用(LATE),也被称作依从者平均因果作用(CACE)。

同一般的在计量中被广泛使用的“工具变量回归”,Angrist、Imbens、Rubin的方法几乎没有任何的模型假设。此后,对于处理未观测混杂的方法以及工具变量方法的研究变成了因果推断中的一个重要领域。

四、新千年:主分层概念的提出

前面提到,在从在非依从现象时,我们能够识别的只是依从者——也就是人群中的某一“层”——的平均因果作用。Frangakis和Rubin把这一观察总结为主分层(principal stratification)的概念[6],即按照某种处理后的潜在结果对总体进行分层,而真正关心的因果作用被局限在某一个主层内。

考虑一项激励试验,医生随机地鼓励或不鼓励患者打疫苗。实际上,患者即使被鼓励打疫苗了,他也有可能不打疫苗,而没有被鼓励的患者也可能自己去打疫苗了。用Z表示医生是否鼓励患者打疫苗(Z=1表示鼓励,Z=0表示不鼓励),用A表示患者实际上是否打了疫苗(A=1表示打疫苗了,A=0表示没有打疫苗),用Y表示患者是否得了流感(Y=1表示得流感,Y=0表示没有得流感)。注意到A可以表示为Z的潜在结果,记为A(z);Y可以表示为Z和A的潜在结果,记为Y(z,a)。我们可以根据A(z)把人群分为四层:

a) A(0)=0, A(1)=0。即无论医生是否鼓励打疫苗,患者都不会打疫苗,称这些人为拒不服药者。

b) A(0)=1, A(1)=1。即无论医生是否鼓励打疫苗,患者都会打疫苗,称这些人为永远服药者。

c) A(1)=1, A(0)=0。即患者会按照医生的建议打疫苗,称这些人为依从者。

d) A(0)=1, A(1)=0。即患者会做出与医生建议相反的决策,称这些人为抵抗者。

假设排他性成立,即Y(0,a)=Y(1,a),一个人是否会得流感只依赖于他有没有打疫苗,与医生是否鼓励他并不直接相关。稍加观察我们就会发现,第a组人和第b组人对于估计打疫苗的真正作用是没有帮助的,因为他们得流感的潜在结果都相等,要么都是Y(0),要么都是Y(1)。只有第c组人和第d组人对于估计打疫苗的真正因故作用有帮助,因为对于这两组人来说,每一组内同时存在打疫苗的人和不打疫苗的人。

医学上常用意向治疗策略来描述激励试验,用E[Y|Z=1]-E[Y|Z=0]来描述鼓励患者打疫苗带来的作用。然而,这个量并没有因果解释,它并不能反映打疫苗的因果作用。利用主分层的框架,我们就能清楚地看到,只有在依从者或抵抗者这两个人群上才能定义因果作用。如果再假设单调性,认为抵抗者不存在,那么感兴趣的因果量就只能在依从者中定义了,这个量也就是前面提到的依从者平均因果作用了。

当然,主分层也能处理非依从以外的问题。假设我们想要知道某种治疗方案对于患者生活质量的改善情况,记Z为治疗方案(Z=1为积极治疗,Z=0为保守治疗),记Y为治疗两年后生活质量是否改善(Y=1为改善,Y=0为未改善),Y是Z的潜在结果,记为Y(z)。实际研究常遇到的一个问题是,患者可能再两年内死掉,导致收集不到结局变量。试想一下,如果一个人没有活着,那谈论他的生活质量还有意义吗?所以,只有对存活个体,才能定义结局变量,这一问题被叫作死亡截断问题。用S表示个体的存活状态(S=1表示存活,S=0表示死亡),S其实是Z的潜在结果,记为S(z)。按照S(z)可以把人群分为四层:

a) S(0)=0, S(1)=0。即无论采取何种治疗方案,患者都会死亡。

b) S(0)=1, S(1)=1。即无论采取何种治疗方案,患者都会存活。

c) S(1)=1, S(0)=0。即如果接受积极治疗会存活,如果接受保守治疗会死亡。

d) S(0)=1, S(1)=0。即如果接受积极治疗会死亡,如果接受保守治疗会存活。

对于第a、c、d这三组人群,至少有一个潜在结果Y(z)是无定义的,所以在这三层中我们无法给出良定义的因果参数。只有第b组人群的两个潜在结果Y(z)都有定义,我们可以在这一层内定义幸存者平均因果作用,即E[Y(1)-Y(0)|S(0)=1,S(1)=1]。

仅仅通过观察数据无法判断出一个个体属于哪个主层,所以需要为所定义的因果量找到合理的解释才有实际意义。值得一提的是,死亡截断的问题在其他领域中也会遇到。比如要研究给学生奖学金能否会提高学生成绩,学生成绩只有在其不辍学时才能定义;要研究疫苗对于病毒载量的影响,病毒载量只有当一个人感染了才能定义。

五、随机化真的是金标准吗?——再随机化

长期以来,随机化一直被当成是评估因果作用的金标准。在随机化试验中,每个个体被随机分配到各个处理组,因此理论上各个处理组下的协变量X的分布相似。使用各个处理组下的观察到的结局均值差异能对平均因果作用进行无偏估计。然而,随机实验的这些性质只对大量重复实验平均而言成立,在实际只做一次实验的情形下,不同处理组下的协变量的分布可能有显著差异,均值差异估计量可能离因果作用的真实值很远。举一个简单的例子,假设在某次随机化临床试验中,随机分配一些个体接受治疗或对照,但治疗组中恰巧大部分都是身体虚弱的个体,而对照组中恰巧大部分都是身体健壮的个体,这样,两组的观测结局均值受到患者身体状况这一不容忽视的混杂因素的影响。

如果协变量的个数很多,单个或多个协变量不平衡的现象就越有可能发生。即使增大样本量,单次试验的因果作用估计偏差问题也得不到解决。这是因为,虽然随着样本量n的增大,协变量以根号n的速度趋于平衡,但平均因果作用的估计量也以根号n的速度收敛,这导致协变量不平衡造成的偏差与因果作用的量级仍然处于同一尺度。

当面临不合适的随机分配时,Fisher曾建议进行再随机化。Morgan和Rubin首次对再随机化进行了正规的数学描述[11],其基本思路是:预先指定某种衡量协变量在不同处理组之间分布是否平衡的准则,不采纳那些协变量不平衡的随机分配,而是一直进行随机化,直到获得协变量平衡的随机分配为止。Morgan和Rubin建议使用处理组和对照组协变量均值的平方马氏距离作为准则,只接受平方马氏距离小于某个阈值的随机分配。他们还指出,通过再随机化,可以实现平均因果作用估计的方差下降。

再随机化实验的统计推断比完全随机化实验的统计推断更加复杂。有一个处理组和一个对照组并使用平方马氏距离准则进行再随机化的情形下,Morgan和Rubin建议使用Fisher随机化检验进行统计推断。由于限制了处理组和对照组之间的协变量分布,所以处理组和对照组的平均结局差异并不再服从正态分布,而是服从一个正态分布和另一个截断正态分布的线性组合。近些年来,再随机化受到了越来越多的关注,例如协变量存在不同重要梯度时的再随机化、序贯实验中的再随机化。

王瑞、邓宇昊 | 作者

邓一雪 | 编辑

(0)

相关推荐