DID陷阱解析-L111
作者: 李胜胜 (安徽大学)
邮箱: lisheng2@foxmail.com
Source: Wing, C., K. Simon, R. A. Bello-Gomez, 2018, Designing difference in difference studies: Best practices for public health policy research, Annual Review of Public Health, 39 (1): 453-469. -Link-, -PDF1-
目录
1. 摘要
2. 引言
3. DID 设计和统计模型
3.1 潜在结果表示法
3.2 两组两时段
3.3 多个组和时间段
3.4 共同趋势假设
3.5 严格的外生性
4. 常见趋势假设的敏感性分析和稳健性检验
4.1 图形证据
4.2 组特定线性趋势
4.3 成分变化的平衡检验
4.4 格兰杰因果关系检验
4.5 多期处理效应
4.6 三重差分
5. 统计上 DID
6. 政策变化与异质性
7. 讨论
8. 参考资料
9. 相关推文
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:
1. 摘要
双重差分(DID)设计是一种准实验研究设计,研究人员通常在随机对照试验(RCT)不可行或存在不道德的公共卫生环境中进行因果关系研究。然而,因果推断在 DID 设计中提出了很多挑战。在本文中,我们回顾了 DID 设计在公共卫生政策研究的主要特点。当代研究人员应该采取积极的方法设计 DID 研究,通过寻求建立对照组、敏感性分析和稳健性检验,以验证方法的假设。本文解释了设计的关键性假设,并讨论了在应用研究中重要的分析策略、补充分析和统计推断方法。DID 设计不是随机实验的完美替代品,但它通常代表了一种了解偶然关系的可行方法。最后指出,在 DID 方法的下一波创新中,重要的是如何将多种准实验技术中的元素结合起来。
2. 引言
因果推断是公共卫生政策研究中的一个关键挑战,旨在评估过去的政策并帮助决策未来的事项。与疫苗、车辆安全、有毒物质、污染、合法和非法药物以及健康行为有关的政策和计划的因果效应都很难衡量。但科学研究和健全的政策分析需要有关因果关系的信息。标准建议是实施随机对照试验(RCT),以避免混淆和隔离处理效果。但大规模的随机对照试验在实践中并不多见。在没有随机对照试验的情况下,研究人员通常从自然实验中寻找答案,包括非线性回归设计、工具变量、协变量匹配和合成控制法(最近的方法综述见9、10、13、41)。在本文中,我们将重点放在准实验研究的设计上,比较在不同时期实施于不同政策和环境因素的群体效应。大多数人将这种方法描述为 DID 设计,但有时也被称为比较间断时间序列设计或非等效对照组预测试设计(6,55,92,99,105)。
不论命名如何,DID 设计在公共卫生研究中的地位已经很好地确立(45)。从十九世纪中叶开始,John Snow 发表了他的 DID 研究结果,表明霍乱是通过水源而不是空气传播的(97)。自从 Snow 的研究以来,研究人员已经开发出一些工具和策略来增强 DID 研究的可信度。本文的目的是回顾研究人员用来设计和实施高质量 DID 研究的原理。在整篇文章中,我们指出的理论工作和经验例子,期望帮助阐明健康研究中常见的重要技术或挑战。考察实现这些技术的各种应用示例,对于抽象地描述 DID 挑战也是一个非常有用的补充。
3. DID 设计和统计模型
3.1 潜在结果表示法
本文中,使用 来标记横截面个体,使用 来标记时间。在 DID 研究中, 通常是指地理区域,例如州,县[例如,在研究食品券计划的历史推出时(61)]或人口普查区域,尽管它也可以指代不同的群体,例如用年龄划分群体[用于 Medicare D 部分的研究(例如 3、65、101)或《Affordable Care Act》规定的年轻成年人(例如 91)]。在大多数情况下, 代表年、季度或月。在大多数应用中,研究人员关注两种替代治疗方案的结果:治疗条件和对照条件。为了使这个想法具体化,如果个体 在时间段 中接受治疗,则;如果个体 在时间段 中处于控制(对照组)条件,则。例如,在公共卫生应用中,这套治疗方法可能包括两种替代方法,可以为管理不同州在不同年份采用的注射器交换计划(23)。Note:这篇文章主要是公共卫生领域方向,用治疗组和对照组表达,类似于实验组(处理组)和控制组(对照组)的概念。
对治疗条件的因果影响的研究围绕着在替代治疗水平下每个个体和时间段的结果。使这个想法更具体的一种方法是定义在不同(假设)治疗情况下描述同一个体的潜在结果。为此,假设 代表在假设情况下 期间单位 在 处有效的情况下的结果; 是在备选情况下相同个体和时间的结果(控制组)。该特定个体和时间段的治疗效果为 ,这仅仅是针对两种假设情况下的个体相同。这种表示法很容易做到,但是应用研究人员无法像在实验室实验中那样,在两种不同的情况下观察相同的个体。在实践中,每个个体在特定时间段内仅处于一种治疗条件下观察到相应的结果。具体而言,对于给定的个体和时间,我们观察到 .
到目前为止,这个符号描述了每一个因果推断研究中出现的反事实推理问题。在一项典型的研究中,研究人员可以获得 和 的数据,他们的目的是将这些数据与研究设计假设相结合,以了解研究人群中 的平均值。
DID 设计是公认的、简单易懂的,是 RCT 设计的准实验替代方案,在健康保险方面研究中随处可见(12,67;参见 74)。例如,在 1970 年代的 RAND 健康保险实验中,以及最近在俄勒冈州的健康保险实验中。
RCT 和 DID 有一些共同的特点:两者都涉及定义明确的研究人群和一组治疗条件,很容易区分治疗组和对照组以及治疗前和治疗后的时间段。最重要的区别是,治疗条件是在 RCT 中跨个体随机分配的,而 DID 设计不是。在在随机分配下,治疗实施在统计学上独立于可能影响结果的任何(测量或未测量)因素。在 DID 设计中,研究人员不能依赖随机分配而避免来自未测量混杂因素的偏差,而是强加一些假设来限制可能混杂因素的范围。具体来说,DID 设计假定跨组变化的混杂因素是时间不变的,时变混杂因素是群体不变的。研究人员将这两种说法称为共同趋势假设。在接下来的两节中,我们将进一步描述 DID 设计,并说明设计的关键假设如何得到易于估计治疗效果的统计建模框架。我们从简单的两组两时段 DID 模型开始,然后研究允许有多个组和时间段的更通用的设计。
3.2 两组两时段
DID 设计的最简单形式是一种特殊情况,其中在两个时间段()中仅观察到两组()。这种情况通常由 框表示。在第一阶段,两组均处于对照条件下,在第二个阶段,该治疗在第2组中进行,但不在第 1 组中进行。设 为虚拟变量,用于标识对第 2 组的观察值。 没有时间下标,因为组成员身份是时间不变的。 表示来自周期 2 的观测值,并且 没有组下标,因为时间段在各个组之间没有变化。在简单 DID 中,处理变量是这两个虚拟变量的乘积:。在第一个周期中(时段),两个组的 ,因为 ;而在第二个周期中, 只适用于组 2,因为这是 和 都等于 1 的唯一情形。
在两组两周期 DID 设计中,共同趋势假设相当于已治疗和未治疗潜在结果的简单统计。在简单 DID 下,未处理的潜在结果为 。在不进行治疗的情况下,第 1 组的 1 期的平均结果为 ,2期为 。同样,第 2 组的平均未治疗结果在第 1 期等于 ,在第 2 期等于 。在共同趋势假设下, 系数反映了两组之间结果的时间不变性。隐含地说明了组系数捕获了所有未测协变量的综合效应,即系统上这些协变量在两组之间的差异在研究期间没有变化。以类似的方式, 上的系数捕捉了两个时期之间变化,但对两组结果影响相同的任何未测协变量的综合效应。在实践中,研究者称 为集体效应, 为时间趋势。
用于治疗的潜在结果的模型是未治疗的结果加上治疗效果,通常在各个观察结果之间限制为恒定:。两种潜在的结果指标与治疗指标相结合,可以根据通式 产生已实现的结果。用模型规范代替潜在结果将得出 。在两组两周期设置中,,这意味着在消除 项之后,我们可以根据组和时间段指标重写观察到的结果方程,以获得标准的 DID 估计方程:
该模型易于通过组成员和时间段的数据进行估算得到结果。交互项的系数是在共同趋势假设下对治疗效果的估计。
3.3 多个组和时间段
两组两周期 DID 设计是直观的,但它不能适应涉及多个组和多个时间段的治疗风险等复杂问题。当 组, 周期时,若 组和 周期治疗有效,则 ;否则,。与两组两周期情形一样,广义 DID 中的核心假设是结果任何未测量的决定因素要么是时间不变的,要么是组不变的。
使用双向固定效应回归模型来估计潜在结果。未处理结果的模型为 。在模型中, 代表 组的时不变特征的综合效应,而 代表时变但组不变因素的综合效应。第 5 期第 3 组的平均未治疗结果为 。同理,第 5 期第 4 组的未治疗的结果为 。两组在每个时期都有不同的水平,但组内随时间的任何变化都来自 描述的组不变趋势项,研究人员称 为组固定效应, 为时间固定效应。时间固定效应可以追踪出共同的时间趋势。一个关键点是,群体效应和时间趋势源于不同群体和时间段之间未测量协变量的潜在差异。DID 设计旨在控制这些无法衡量的混杂因素,即使未明确衡量的基本变量也是如此。
与两组两周期设计一样,广义DID也规定治疗结果是未治疗结果的移位版本,因此 。组合方程式表明,观察到的结果为 。将固定效应结构替换为潜在结果,以获得 并消除其余 项,以得到广义 DID 估计方程:
双向固定效应参数化源于两组两周期 DID 中涉及的相同的共同趋势假设,但它在研究设计的细节上可容纳更多的变化。在实践中,研究人员使用固定效应回归模型估算治疗效果参数 。他们只是将观察到的结果回归到治疗变量以及一组完整组和固定时间效应上。有关示例,请参见 Bitler & Carpenter(21)。
3.4 共同趋势假设
简单的 DID 设计和广义的 DID 设计均基于以下假设:重要的未测变量是时不变的组属性或时不变的组不变因素。这些限制加在一起意味着,每个组中结果的时间序列在每个时期都应该有固定的差异,并且应该表现出一组共同的特定时期的变化。总的来说,时间序列图应该看起来像一组平行线。有关示例,请参见 Kaestner 等人的图表(64)。请注意,平行线不必一定是线性的:时间固定效应允许灵活的时间趋势在不同时期之间上下波动,例如在 Sommers 等人的研究中(100),他们以未扩大医疗补助计划的州的低收入成年人为对照组,研究了联邦医疗补助计划的扩展效应。
在应用工作中,最困难的任务是评估共同趋势假设的可信度。在本文的稍后部分,我们将讨论统计检验和图形分析,研究人员可以使用这些统计检验将共同趋势假设解释为一组基本变量的副产品,这样理解可能会有所帮助,这些变量在各州之间存在差异,并随着时间的推移而变化。以疫苗政策为例(例如,102)。与其问一个抽象的问题,即没有该政策的两个州的疫苗接种率是否易于遵循共同的时间趋势。不如我们可以问什么样的(无法衡量的)因素可能解释州与州之间的疫苗接种率的变化(例如父母态度)。接下来,我们将考虑这些因素是否可能被 DID 设计所涵盖:它们是时不变的组属性还是组不变的时变因素?为此,为固定效应结构要捕获的未测量变量命名是评估 DID 设计质量的好方法,因为与针对未知变量引起的抽象趋势相比,针对特定变量进行构造和评估自变量要容易得多。
对不可测量变量的具体化通常也为更强有力的研究设计指明了方向。如果某些群体在重要的未测量变量方面似乎与其他群体不同,那么将其排除在分析之外也许是有意义的。
此论点的一个版本用于形成合成对照组,其中在形成单一对照组的对照组时,与治疗组(处理组)相比,过去特征有所不同的组将被排除或给予较少的权重(如在 文献 1 中所做的那样形成一个对照组,来自没有烟草控制计划的潜在控制州的加权平均值来合成加利福尼亚州;有关合成控制方法的更长评述,请参见 10、47、77)。即使不是在所有组和所有时间段中都适用,共同趋势假设也可能在组或时间段的受限样本中成立。这种思路是组合研究设计的起点,其中研究人员首先使用倾向得分匹配,然后使用 DID 方法对匹配的样本估计治疗效果[例如,在研究德国就业转变的健康影响时(50),同时使用 DID 和合成控制方法,另见54]。
3.5 严格的外生性
DID 设计的目的是使用消除组或时不变因素偏差的技术来区分未测量的混杂因素。为了使作为方法核心的差异化技术发挥作用,DID 设计中的治疗实施时间必须在统计学上独立于潜在的结果分布,以组和时间固定效应为条件。这方面的设计更难理解,计量经济学教科书用“严格外生性”来描述它,指出它比“同期外生性”强,后者是基于倾向得分匹配和横截面回归调整研究的基本假设。
为了更好地理解这种区别,假设 和 是潜在协变量 和 的向量函数。在假设 for 的条件平均独立性假设下,收集每个协变量数据的研究者可以估计 对 的因果影响。为了将这一想法付诸实践,研究人员可能会形成治疗和对照观察值的配对,并使用配对样本结果的平均差异来估计治疗效果,例如,Obermeyer 等人(83)在研究医疗保险的临终关怀福利时所做的那样。DID 设计中的情况不同,为了使用差异消除混杂因素,过去和未来治疗实施的整个序列必须独立于结果变量未测量的决定因素。正式地,严格的外生性要求 for 。
其想法是,在对组和周期效应进行条件作用后,在 发生的治疗实施不会被早期(如 )测量的结果所预测。这种限制在实践中可能由于很多原因而失败。也许州政府会根据结果变量的变化而改变他们的规章制度(19),或者公司可能会在不久的将来预期出现法规时改变其行为。这种行为模式几乎可以肯定地发生在现实世界中,并且它们对 DID 设计的有效性构成了重要的威胁。研究人员研究此类影响的一种方式是,在左侧包括政策变量,并表明最关注的因素无法预测法律的通过。一些研究使用这些规范来表明政治变量是有影响力的,并且在一定程度上可以认为它们是外生的,它们可以用作政策的工具(71)。
4. 常见趋势假设的敏感性分析和稳健性检验
DID 设计的现代应用非常重视敏感性分析和稳健性检验,旨在探索支持研究设计内部有效性的主要假设。尽管涉及的具体细节随单个研究的背景和数据限制而变化,但本节简要概述研究人员用于阐明共同趋势假设的有效性以及对严格外生性条件威胁的分析技术。
4.1 图形证据
在简单的两组两个时期内,共同趋势假设是不可检验的。然而,在具有多个预处理时间段的环境中,研究人员可以部分验证共同趋势假设。例如,研究人员通常按组和时间段绘制平均结果图,然后观察这些线是否近似平行(例如,参见文献 8 中的图 1,有关与 ACA 的年轻成年人职责相关的示例, 该图为平行趋势假设的统计检验的先例)。当年平均值被精确估计并且年内波动率相对较低时,很容易在很长的时间序列中发现与共同趋势假设的偏差。
当数据嘈杂或时间序列较短时,视觉证据可能不那么有说服力。在这种情况下,可能很难区分统计噪音和与共同趋势的真正偏差。图表也有助于传达传达政策冲击的强度,例如通过医疗保险保单对覆盖率的影响来衡量。这一点很重要,因为研究通常会继续检查政策对下游效应(如医疗保健使用或健康状况)的影响。图形证据的可解释性与 DID 设计中更广泛的统计问题有关。DID 设计的统计功效通常比标准教科书中考虑的简单均值差异和线性回归系数的标准功效分析需要更多的分析,并且重要的是考虑此类研究能够可靠检测出效应大小(见26第46页;70,80)。
4.2 组特定线性趋势
在具有两个以上时间段的研究中,用于评估共同趋势假设的另一种策略是拟合增强的 DID 回归,以实现特定于组的线性趋势[例如,由Hansen等人(56)研究国家卷烟税]。实际上,这等于处理变量、组和周期效应的结果回归,并且每个组效应与线性时间指数相互作用:。
共同趋势模型嵌套在特定于组的趋势模型中,则组特定线性趋势的所有系数共同为零的联合为零的 F 检验是对共同趋势模型的检验。拒绝原假设意味着共同趋势不是有效的假设。在实践中,大多数研究人员通过比较受限模型和非受限模型中的处理效果估计,更随意地解释特定于组的线性趋势模型。如果处理效果对替代规范不敏感,则大多数研究人员认为核心结果更为可信。
4.3 成分变化的平衡检验
在随机对照试验和匹配研究中,研究人员经常提供证据,表明处理组和对照组的协变量分布非常相似(59、63)。在这种情况下,基本目的是证明两组在接受处理之前具有可比性。在 DID 研究中,在接受处理之前,这些组通常是不等价的,因此,简单的协变量平衡并不能很好地说明研究设计的有效性。但是,当协变量相似时,读者往往也会很放心地继续使用。而对于 DID 有效性而言重要的是,两组之间的差异随时间变化是稳定的,并且被实施处理组的变化与协变量分布的变化不相关。
实证检验的一种方法是估计协变量平衡性(例如,86,它使用协变量平衡来研究新外科医生的效率)。假设除了 和 数据外,研究人员还可以使用与 组相关周期 中的协变量 数据。检验有问题的成分变化的一个简单方法是用协变量替换结果变量,并拟合标准的 DID 回归模型:。在没有成分变化的原假设下,我们期望 。当然,考虑成分变化的幅度而不是系数估计的纯统计意义是明智的。研究人员可以将 DID 回归与大量可用协变量的数据进行拟合,以评估各种因素之间的平衡。
4.4 格兰杰因果关系检验
为了检查当前结果可预期未来被处理的可能性,研究人员可以扩展标准 DID 回归模型,以包括处理变量的前导值(滞前)。例如,研究人员可能使用处理变量的 滞前值拟合模型:
在严格的外生性为零的情况下,我们期望未来的政策变化不会与当前的结果相关联,因此 for 。关于要检查的线索数量的决定在某种程度上是任意的,并且主要与可用于分析的周期总数和政策更改的时间有关。主要检验研究包括 Bachhuber 等人(11)(关于医用大麻法律与阿片类药物过量死亡率之间的关系)和Raifman等人(88)(关于同性婚姻法律与青少年自杀未遂之间的关系)。
4.5 多期处理效应
在许多应用中,处理效果可能会随时间而变化。研究人员可以通过在标准 DID 模型中包含滞后的处理变量来研究这些影响。一种常见的策略是使用事件研究方法在单个回归中检验预期效应和逐步效应,例如
在本规范中, 反映了策略的即时效应, 表示策略在采用后 个周期内产生的任何额外效果。如果该策略的初始效果为正,则 的负值表示该策略的初始效果会随着时间的流逝而消散,而 的正值表明该策略的影响会随着时间的推移而增大。事件研究包括:Bellou 和 Bhatt(16)研究驾驶执照法;Anderson 等人(5)研究医用大麻法;Bitler 和 Carpenter(21)研究乳房 X 光检查法;Simon(93)研究香烟税;Marcus 和 Siedler(75)研究德国的酒精政策;以及 Paik 等人(84),研究医疗事故。
一些研究,如Brot Goldberg 等人(24)的研究,专门寻找预期效应,在这种情况下,可以研究扣除额对医疗保健价格、数量和支出的影响。一般来说,只要保单包含了从公告到生效日期之间的时间间隔,就有可能发生这种情形。在一个广为宣传的联邦政策变化的背景下,Alpert(3)研究了医疗保险 D 部分实施前的预期效果,利用观察到的慢性和急性药物行为的差异;Kolstad 和 Kowalski(66)则考虑了实施前、实施中和实施后的时期。
4.6 三重差分
当 DID 核心假设在概念或经验上令人怀疑时,研究人员有时会试图通过添加额外的比较组并使用三重差分(DDD)来估计处理效果以加强研究设计。假设 DID 设计是有问题的,因为存在随时间变化的混杂因素,该混杂因素在构成研究设计的各个状态之间存在差异。对于 DID 研究而言,非状态不变的时变混杂是 DID 研究的一个问题,因为它违反了共同趋势假设。为了解决 DDD 设计中的问题,研究人员需要找到一个新的州内对照组,该对照组没有受到处理,但受到有问题的时变混杂因素的影响。有了这两组数据,研究人员可以分别在原始数据和新的对照组数据上分别估计标准 DID。来自对照组的 DID 估计值表示不受任何处理效果影响的特定于状态的时变混杂因素的效果估计值。来自原始数据的 DID 估计值表示混杂因素和处理的综合效应。通过从另一个估计值中减去一个DID估计值(形成三倍差),研究人员可以消除混杂因素的偏差并隔离处理效果 [请参见 Atanasov & Black(9,pp:254–58)对DDD 进行了仔细的设计]。
假设某些州对大型医院征收税,但对小型医院不征收税,我们希望研究其对护士工资的影响。处理组的实施同样会影响控制组的虚假冲击,也会假设征税州大多来自不同的地理区域,但随着时间的推移,这些区域面临着不同的经济繁荣和萧条。DID 的标准估算值可能会使医院税收政策的变化与地区经济状况相混淆;也就是说,DID 模型可能无法满足共同趋势假设。DDD 策略的出发点可能是小医院与大医院受相同地区经济条件的约束,但不受大医院税的约束。
在全国范围内,也有一些小企业冲击和一些大企业冲击。因此,要么比较在处理州内的大小企业的 DID,要么比较在处理州和对照州的大公司的 DID。但是,如果 DDD 比较有和没有该政策的州大型企业随时间的变化,而与小型企业的类似差异相比,则会产生无偏的结果。换句话说,共同趋势假设应该在 DDD 中成立,而在两种可能的 DID 方法中都不成立。研究人员几乎总是提出三重差分结果作为主要 DID 的补充。最近在卫生领域使用的例子包括 Chatterjee 及其同事(36)和 Heim&Lin(58)的研究,这两项研究都考察了医疗保险改革的劳动力市场结果。很少有文章提出 DDD 的平行趋势检验,但 Paik 及其同事(85)提供了这样一个检验的例子,并说明了进行这种检验的重要性。
5. 统计上 DID
到目前为止,我们已经集中探讨了 DID 研究有效性的假设和概念上存在的问题。但是,大量文献清楚地表明,统计推断也是 DID 研究中的重要挑战。核心信息是,在假设误差在观测值之间是独立的情况下估计的标准误经常下偏,从而导致对原假设的过分否定。
Moulton(79)考虑了在聚类组内不变化的变量上回归系数的统计推断。他的例子中模型将劳动力市场结果的微观数据与地理信息总量联系起来。而问题在于这些因素在组内不会变化(或在组内相关),并且组也可能具有共享的错误结构。Moulton 使用参数化随机效应模型来显示标准误差向下偏斜,并且偏斜的大小与组大小,回归误差的组内相关性以及模型中包含回归因子的组内相关性正相关。Bertrand 及其同事(18)指出,很多 DID 研究涉及较大的群体规模,并且容易表现出误差和关键自变量高水平组内具有相关性。他们使用蒙特卡罗模拟来评估在很多 DID 研究的聚集数据中执行统计推断的几种不同方法的性能。他们发现,许多推理方法的效果都不佳,尤其是在聚类数目相对较少的情况下。但是,他们还发现,将数据折叠到组级单元中时,聚类标准误以及自抽样的聚类效果相对较好。
自 Bertrand 及其同事的文章(18)发表以来,DID 研究中关于统计推断替代方法的研究一直在蓬勃发展。Cameron & Miller(30)对文献进行了有益的回顾。通过我们的阅读,文献尚未在 DID 模型中执行推断的最佳方法达成共识。但是,出现了几个主题。在大多数情况下,汇总数据使结果与处理变量处于同一水平是有意义的(就像 Bedard & Kuhn(14)所做的那样,他们研究了饭店连锁店中健康食物的轻推信息)。标准聚类稳健性误差估计(72)在基于大量聚类的研究中表现良好。对于聚类数量较少的研究[这适用于德国等16个州(69)或瑞典具有4个州的地理变异(2)),已经出现三大类解决方法。一种方法使用集群级随机分布来执行推理(38、90),另一个方法是自抽样聚类(28),第三种方法基于减少偏差的线性化来执行有限的样本校正(15、46、62、87)。Cameron 等人(29)提供了一种调整多路聚类的方法;Solon等人(98)讨论了抽样权重的作用。此外,Abadie(1)等人最近的工作重新探讨了聚类标准误差调整的基本原理,并强调调整聚类的决定应来自嵌入研究设计和数据收集方法中的处理分配规则。
6. 政策变化与异质性
上个世纪,美国的很多卫生政策已在州一级做出决定,这反映了联邦制的原则以及为找到适合当地情况的解决方案而做出的努力(60,82)。但是,州政策的变化通常在州之间表现出很高的标准化程度,因此有可能在一项研究中从多个州的经验中总结出来。如果每个州都采用极独特的立法解决方案来应对公共卫生挑战,那么结果将是一系列的单个州 DID 研究,这将难以达成共识并难以提供证据来帮助未来制定政策。但这并不是贬低单一地理单元研究的重要性,例如以下研究都很有意义:当在爱尔兰和中国(51,106)在全国范围内引入诸如室内烟草禁令之类的健康政策时,或者当一个美国州或地方制定了一项在其时代独特的政策时,这些在当时是独一无二的[例如,马萨诸塞州的医疗改革,Kolstad & Kowalski(66);在 Garthwaite (49)等人的文章中,田纳西州的医疗补助计划被取消;如Cantor等 (31)和Cawley&Frisvold(35)的食品政策]。
但是,在这种情况下,研究人员有时仍能够比较国家间的政策,例如拉丁美洲的医疗保健私有化(27)。研究人员还能够使用合成控制方法,使用其他国家/地区的加权平均值来构建对照组,正如 Rieger 及其同事(89)在研究泰国全民健康保险的影响时所做的那样。
美国各州法律之间相对标准化的原因之一是政策组织广泛采用示范法。例如,当各州对管制药物的获取进行监管时,它们可以考虑通过国家示范州禁毒法联盟提供的示范立法。诸如针对大麻药用等政策的州法律标准化版本允许研究人员使用州分类进行研究,利用年份的差异来实施一项具有 DID 设计的研究(22、81)。
尽管有力量推动州法律的标准化,但政策的确在反映当地政治市场的重要方式上有所不同(105)。研究人员通常将州法律划分为合理数量有意义的不同类别,但重要的是要了解这种方法所牺牲的详细程度。例如,由于替代分类或敏感性分析会删除难以分类的州。研究人员通常会自己调查政策的特征,或者借鉴其他研究或政策组织的分类。例如,在州小团体保险市场改革领域,州法律可能被定性为强或弱,这取决于法规是适用于全部还是部分保险政策(94)。可以考虑使用国家政策的替代分类,以及检验对删除某些具有特别模棱两可的政策状态州的敏感性,这些都是对具有政策异质性分析的有用补充。使用同一分类系统的多个分析的可用性有助于跨研究比较,并且提供足够的详细信息进行复制也是一种很好的做法。
在公共卫生环境中,政策异质性通常表现为另一种方式是税率,例如在调节健康行为(烟税或酒精税)领域。由于每个州都倾向于设置个性化比率,因此政策存在异质性。但是,该政策是线性的,其强度可以是连续测量。Carpenter & Cook(33)通过构建 DID 模型研究了香烟税对青少年的影响,而先前的文献并未包括州固定效应。这种线性政策措施的非税率示例包括医疗补助医师费用或最低工资法,最近几篇文章已经讨论了其对公共卫生的影响(25、40、103)。可以将线性的政策变化的量度直接置于 DID 框架中,但研究人员也可以使用二次项或通过为政策值范围创建虚拟变量(如将税率分类为低于或高于某些值,或以样条线形式输入值)来探索政策影响中的非线性。
即使使用线性衡量,研究人员也面临着以下决定:如果变量值在各州之间的分布存在偏差,是否取对数;是否应以实际或名义值来衡量政策值;以及是否对外部无法确定的变量将其标准化(例如,对医疗补助费的研究通常相对于医疗保险或私人保险费,使用其比率作为关键的政策措施:例如43、44)。如果这些线性法律形式存在细微差别,例如,如果健康保险法规仅适用于大公司,或者酒精税适用于啤酒而不适用葡萄酒,一些人可能会将被排除在外的群体作为州内部控制(如76) 或可以检验这些群体的非预期溢出效应;其他人可能更喜欢简单地排除这些群体。
当推断检验表明 DID 由于违反共同趋势假设而出现问题时,使用州内对照组尤其有用。如果可以找到一个可信的州内对照组,且其趋势与处理组相似,且没有该政策,那么研究人员也可以实施 DDD。
经常用来解释 DDD 的一个例子是产妇承保范围和工资的情况。Gruber(52)表明,由于男性不应受到政策的影响,所以他们组成了一个令人信服的州内控制组。有时研究人员报告两个单独的 DID,而不是明确估计 DDD [例如,Simon & Kaestner(95)估计了低学历和高学历人群最低工资的影响,将高学历人群作为接近安慰剂的人群]。但这种观察不同人群影响的方法与研究政策异质性的研究方法不同(例如,研究香烟税对年轻人和成年人吸烟率影响差异的研究人员将执行两个 DID,并分别进行报告,而不是运行 DDD)。同样,一些健康保险研究使用基准县特征来检验,检验在可能从该政策中受益更多的县中预期的效果是否更大(20、48、78);Cook &Durrance(39)利用各州在联邦酒精税约束程度上的差异来构建识别策略。
多维政策异质性也可以转换为线性衡量,这一技术在可以创建公式以根据受影响的人口的百分比来衡量总体政策的强度时非常流行。一个典型的例子是 1980 年代和 1990 年代的医疗补助资格扩展措施(42,53)和有关这些扩展的长期影响的文献(例如 37)。医疗补助资格由一个公式确定,该公式计算一些但不是其他形式的收入,并扣除某些费用,并根据家庭中孩子的数量和年龄使用不同的规则。研究人员不会收集单独的变量来衡量政策的各个方面,而这会导致对参数的繁琐解释,也不会将状态分为强扩展与弱扩展,而是收集确定资格的参数并将其变化归结为严格度指标。以具有全国代表性的人口为例,可以检查在某个州和特定年份符合现行规则的人口所占的百分比,从而得出随慷慨而增加的指数。
使用这个变量作为政策术语会产生一种 DID 格式,研究人员可以通过这种格式来解释结果如何随着慷慨程度的增加而变化。例如,10% 以上的代表性人口可能有资格享受该政策。这种线性政策措施可以作为唯一的政策措施,尽管对这种方法的一种批评是决策者可能想知道他们控制的每一个实际政策杠杆的效果(55)。无论政策变量是如何创建的,它都可以作为资格的工具(例如,当考察由于政策变化而符合资格是否会导致私人保险范围减少时)或作为一种简化形式(例如,当回答政策慷慨如何影响结果时)。
7. 讨论
准实验研究设计可能是了解因果关系的有效方法,这些因果关系对公共卫生科学和公共卫生政策很重要。最近的创新使研究人员能够以与完全随机实验研究相同的方式进行准实验研究的设计。当研究人员积极地决定哪些可能不完美的对照组最有可能满足某一特定技术的假设时,准实验往往最有效。当研究人员仔细考虑了他们具体研究的关键假设的实质意义时,研究将最有说服力。鉴于现代技术文献庞大而复杂,因此需要谨慎地确定和采用与给定研究最相关的工具和技术。
本文详细研究了DID设计,不是因为 DID 设计是准实验研究设计的最佳方法,而是因为 DID 设计通常在大型联邦或权力下放国家的公共卫生研究中可行,因为这些州可以通过广泛的调查和行政管理收集数据。
但是,在某些情况下,除 DID 以外的其他方法最适合评估州政策:当没有州政策变化之前的数据,数据不可用时,研究人员使用基于年龄的不连续性回归来了解医疗保险(32)或酒精政策的影响(34)。例如,在美国,不同的法规和环境条件会随地理区域和时间的推移而变化,从而为探究因果关系提供诸度多挑战。DID 设计也适用于非地理单元,例如研究医疗保险 D 部分和 ACA 的年轻成年人职责,可以按年龄分组进行比较。此外 DID 设计也可以不考虑时间和地区(例如,在文献(73)中使用了获得保险和健康的两个维度)。提高设计和实施高质量 DID 研究的技能,以充分利用现有数据,是公共卫生研究的重要组成部分。
尽管这超出了我们的审查范围,但我们预计未来的方法学进展涉及利用多种准实验设计元素的混合来设计研究。例如,Wing & Cook(104)使用 DID 和匹配研究中的设计元素来增强回归不连续性设计的外部有效性[(7)和(17)也旨在扩大回归不连续性设计的外部有效性],Kreif 等(68)将合成控制方法的结果与 DID 方法的结果进行比较,以评估医院绩效计划的效果。本文所调查的 DID 方法的进展以及展望未来进一步创新的可能性,都表明 DID 框架将继续是公共卫生政策研究中使用的主要模型之一。
8. 参考资料
Wing, C., K. Simon, R. A. Bello-Gomez, 2018, Designing difference in difference studies: Best practices for public health policy research, Annual Review of Public Health, 39 (1): 453-469. -Link-, -PDF1-