统计计量 | 内生性与工具变量,你不可不知的9个问题汇总
本文转载自公众号经管学苑
来源:网络
Part1内生性的例子
Part2内生性的原因
遗漏变量:如果遗漏的变量与其他解释变量不相关,一般不会造成问题。否则,就会造成解释变量与残差项相关,从而引起内生性问题。 解释变量与被解释变量相互影响 度量误差 (measurement error):由于关键变量的度量上存在误差,使其与真实值之间存在偏差,这种偏差可能会成为回归误差(regression error)的一部分,从而导致内生性问题。
Part3内生性的定义
解释变量与error term相关。例子:y is earnings, x is years of schooling,u is error term (including ability), z is proximity to college。 外生: 解释变量x和error term u独立影响被解释变量y。 内生: error u 影响解释变量x,因而间接影响被解释变量y。 工具变量:工具变量z与x相关,但与error term u无关。即z能且只能通过x影响y。
Part4工具变量z的要求
Part5Instrumental Variables的原理
假设一个linear model:y=xβ+μ
内生性问题就是当一个或多个解释变量与error term相关:
OLS的估计系数将会是有偏的(biased):
上述方程可写为:
其中,y1是被解释变量,y2是内生变量,x1是外生变量。X由[y2, x1]组合而成,包含了内生和外生变量。
假设我们可以找到一组外生的变量(工具变量)z=[x1,x2],其中x1是自己的工具变量,x2是y2的工具变量。
Part6The two stage leastsquares (2SLS) 估计过程
两阶段OLS用工具变量对内生变量的预测值代替了内生变量本身 ,首先,在第一阶段对只包含外生变量的方程进行回归,
其次,产生内生变量的回归预测值,然后用预测值代替内生变量:
Part7关于识别的问题
阶条件:工具变量的数量至少要与内生变量一样多。
秩条件:为了求逆,矩阵z'x必须是满秩的。
恰好识别的情况:当每一内生变量各有一个工具变量的时候,我们称这一工具变量模型恰好识别。估计系数是无偏的。
Under-identified model
当内生变量的数量多于工具变量的个数时,我们称这一工具变量模型是Under-identified的。
此模型有无数解,所以没有统一的估计值存在
过度识别:当工具变量的个数大于内生变量的个数时,这时这个工具变量模型是过度识别的。此时我们可以得到两种不同的估计值。
The twostage least squares (2SLS) (当残差项服从独立同分布的时候是最好的估计方法。)
GMM(广义矩估计:The generalized method of moments)
当w=(z'z)^(-1)时,这与2SLS估计一样。通常有:
其中等式右边是z'μ估计方差,当存在异方差的时候GMM估计更优。
Part8检验
内生性的检验:
Hausman test
豪斯曼检验检验解释变量是内生的还是外生的。通过对比OLS和IV的结果是否存在显著的差异来判断,如果差别显著,则解释变量为内生,反之亦然。
Durbin-Wu-Hausman test
TheDurbin-Wu-Hausman test主要检验等式
是否成立。
估计第一阶段方程:
把残差项(μ)放进方程:
如果μ的系数rho显著异于0,则判断变量为内生,反之,则为外生变量。
过度识别限制检验
用GMM方法估计并得到下面检验统计量:
这是一个服从自由度等于过度识别的限制数的卡方分布,原假设为:至少有一个工具变量不是有效的。
弱工具变量检验
当一个内生变量和一个工具变量时,这两个变量的弱相关性可以说明这是一个弱工具变量。
当多个工具变量对一个内生变量时,工具变量的强弱可以用第一阶段的F统计量来衡量,一半认为10是安全值阀,大于10安全。
弱工具变量的后果
一是会降低估计的精度;另外,IV的估计值是渐进一致、有偏的。偏误的大小与工具变量的弱度正向相关,与样本量的大小反向相关!(可怕啊)
Part9工具变量和联立系统方程
假设有两个内生变量,方程如下:
简化后:
2阶段最小二乘或3阶段最小二乘估计过程:
首先,通过对简化式进行OLS估计得到y的预测值(y帽),然后用y的预测值估计下式:
最后,用2阶段最小二乘估计的结果计算下式:
此时的β即为3阶段最小二乘估计结果。
对比2SLS和3SLS的估计性质:3SLS比2SLS更有效。但是3SLS在残差项存在异方差的时候的估计非一致。