然后用Q作为W的工具变量。知道第一阶段的回归应该是
W = e + fX + gZ + hQ
(即在第一阶段中使用所有外生变量)。实际上,如果使用ivregress 命令,这个步骤都是自动完成的 。但是,若只想在第一阶段使用Q而不用X和Z作为W的工具变量。有什么办法可以在Stata中做到呢?此时,可以用W对Q做回归并获得W的预测值,然后将其用于第二阶段回归。不过,也有一个问题,那就是这时获得的估计标准误并不正确。ivregress不会让你这样做,而且,如果你相信W是一个系统的一部分,是内生的,那么就必须同时包括 X和Z 作为W的工具变量,否则会得到有偏差的b、c和d估计值。
Y1 = a0 + a1*Y2 + a2*X1 + a3*X2 + e1(1)
Y2 = b0 + b1*Y1 + b2*X3 + b3*X4 + e2(2)
注意:假设正在估计结构方程式(1);如果 X1和X2 是外生的,则必须将它们作为工具变量,否则你的估计将有偏差。在一般系统中,当内生变量的工具值出现在方程中时,此类外生变量必须用作任何内生变量的工具变量,其中外生变量也出现在方程中。Y1 = e0 + e1*X1 + e2*X2 + e3*X3 + e4*x4 + u1(1r)
Y2 = f0 + f1*X1 + f2*X2 + f3*X3 + f4*x4 + u2(2r)
其中e#和f#是(1)和(2)方程中的a#和b#系数的组合,而u1和 u2是e1和e2的线性组合 。对于一个内生变量,所有外生变量都出现在他的方程中。这是联立系统的特性,因此估计效率(estimation efficiency)要求将所有外生变量都包括在内,以此作为每个内生变量的工具变量。这是真正的问题。看式(1):Y2的简约形式方程 (2r)清楚地表明, Y2与X2相关 (通过系数 f2)。如果不将X2包括在Y2的工具变量中 ,那么将无法考虑Y2的工具值与 X2的相关性。由于没有考虑这种相关性,因此当使用Y2的工具值估计式(1)时,将迫使系数 a3去考虑这种相关性。这种方法将导致a1和a3的估计偏差。可以参考一下Baltagi(2011)。请参见2SLS的整个讨论,尤其是第265页上的方程11.40之后的段落。(不知道为什么在其他书中不强调此问题。)但是,在一种情况下,不必包括X1和 X2作为Y2的工具变量 。也就是说当系统为递归形式时 Y2确实不 依赖于Y1,考虑到两个方程的扰动项之间的相关性,因此有理由相信它是弱内生性的。仍然可以在这里进行ivregress的操作,并保留X1和X2作为其工具变量。但是,值得注意的是,这里不再要求使用他们作为工具变量。然后,可以只需从第一阶段就对工具变量的预测值做回归即可。如果使用间接最小二乘法,则必须自己对协方差矩阵进行调整。考虑如下结构方程:
其中,工具变量为z1, 且你不认为 y2是y1的函数 。以下示例仅将 z1 用作y2的工具变量。首先,在y1,y2, x1和z1上创建一个数据集 :
现在,我们执行第一阶段回归并获得对工具变量的预测值,这对于方程右边的每个内生变量都必须执行。
Reference
Source: https://www.stata.com/support/faqs/statistics/instrumental-variables-regression/