统计计量 | 回归系数不显著,其原因和解决思路有哪些?

本文转载自公众号林林山川

相信大家在做数据分析时,一定遇见过数据不显著的问题,不要气馁,因为不显著才是常态,显著反而是少数。

需要注意的是,当遇见回归系数不显著时,我们不能简单的认为对应的解释变量对被解释变量没有影响。

首先,观察一下F检验值,如果整体线性检验不显著,那么说明模型设定为线性不合适,需采用其他模型形式,如非线性回归模型。如果替代模型的回归系数t检验拒绝原假设(显著),这就说明是模型设定的问题。

其次,需要对残差进行异方差检验以及自相关检验,如果存在异方差或者自相关,则用广义OLS法消除后,再做参数显著性检验。异方差和自回归的存在都会使得t检验失效。如果结果仍然不显著,那么,我们就要考虑是否将该变量从模型中剔除掉。若剔除该变量后的回归结果使得三个信息准则值均有所下降,那么这就说明:该剔除该变量是明智的选择。

最后,我们来总结一下p值不显著的原因,主要有以下几种:

1、故事“虚幻”

所谓故事“虚幻”,即故事本身的假设不符合现实情况。这种错误几乎没有挽救办法,但也只是“几乎”,具体看最后的解决办法汇总。

2、数据“虚假”

例如,我们所用数据库不可靠,不真实,整理数据时出现操作错误、计算出错等,这都可能导致指标出现一系列问题。比如,如果论文的变量特别难选择,那就需要仔细检查数据的计算过程,如果能在复查过程中发现计算上的错误,这肯定比重新做数据来得“简单,粗暴”。一般来讲,如果我们的数据得不到预期想要的结果,那么这个原因首当其冲。

3、模型“误用”

其实,我们在做数据分析的过程中,很多问题的原因都可以归结于模型的误用,比如,计量模型(最小二乘法OLS、固定效应模型、随机效应模型等)、回归方程式的设定(控制变量的选取、考虑更高阶的函数形式)等。重要的是,我们应该学会借助计量知识选择计量模型,借助经济学理论去设定回归方程。

从大众的经验角度而言,无论是面板还是截面数据,用OLS回归都有非常好的显著性。但是,面板数据不应该用OLS回归,而应该从固定效应、随机效应、混合OLS模型三者中选择一个模型。根据大家经验总结,有这样一个顺序:固定效应模型的显著性最差、稳健性最高、有效性居中;随机效应模型的显著性居中、稳健性居中、有效性有时最高;混合OLS显著性最高、稳健性最差、有效性最差。根据这个排序而言,现实生活中,学术研究往往追求稳健性,不做任何检验直接采用固定效应模型也是具有一定科学性的。实践中,很多人会在固定效应模型不显著的情况下,为成功发表文章退而求其次,选择混合OLS模型。虽然随机效应模型可能具有最好的有效性,但往往不会被使用。

4、多重共线性

如果你的解释变量有某一个变量的n次方,那么你就需要小心了。当然,如果你的解释变量里面有两个变量同时在衡量一个指标,也可以试着检验一下是不是这个原因造成的。如果你的结果显著,自然而言就不用检验和处理多重共线性,因为即使你处理了这个问题,显著性只能是更好的,不会使得结果变差。在大多数情况下,多重共线性是只有在结果不显著问题出现时才会考虑的。因为多重共线性具有方差膨胀的作用,它会导致回归系数的显著性下降,这自然不是我们所追求的效果。

5、内生性

内生性(Endogeneity)的概念跟内生变量(endogenous variable)的概念息息相关。而内生变量这一概念的兴起又跟社会科学的模型化和系统化密不可分。比如曼昆在他的经济学原理(或者是宏观经济学?)一开头就举了一个汉堡包的例子:在汉堡包的生产中,有投入(原料、劳动、工厂),有产出(汉堡包),我们感兴趣的是中间的制作流程。那么研究者应该做的,是通过一个模型来刻画上述制作流程(比如一个生产函数),从而给定模型的输入(各类投入品的消耗),就能计算出对应的输出(汉堡包产量)。在得到了准确的模型之后,我们就可以进一步对汉堡包的生产进行预测和改进,达到理解世界和改造世界的目的。在这个例子中,投入就是汉堡包制造模型中的外生变量,而产出则是内生变量。换言之,外生变量是模型中的 “原因”,而内生变量是模型中的 “结果”。

内生性的产生根源在于:互为因果、联立性、遗漏变量、测量误差。总的说来,内生性主要由以下原因造成:

第一是遗漏变量

如果遗漏的变量与其他解释变量不相关,一般不会造成问题。否则,就会造成解释变量与残差项相关,从而引起内生性问题。

遗漏变量主要值得是某些不可观测的解释变量没有纳入到回归模型中,如果北一楼的变量能够同时对因变量和自变量产生影响,那么会出现内生性的问题。一个比较经典的案例例如研究一个人受教育程度与他的收入之间的关系,其中收入作为被解释变量Y,然后样本中的隔热的教育程度作为解释变量,这个模型中例如能力、性别以及其他变量都有可能同时影响该模型变量受教育程度以及收入,例如个人能力比较高的人可能这个收入比较高,而个人能力有可能作为遗漏变量包含在随机误差扰动项中,因此会出现这个内生性的问题。

第二是解释变量与被解释变量相互影响

首先我们来看下反向因果关系的解释,例如根据凯恩斯的消费函数,首先模型的设定为C=a+bY+Ui,其中C为消费,Y为国民收入,Ui为随机误差扰动项。然而国民账户的恒等式又有Y=C+I+G+NX,即Y等于消费投资政府购买和净出口的和,很显然,消费是国民收入的重要组成部门,消费又是误差的函数,这样消费与国民收入的函数之间存在反向因果关系,主要因为消费函数里面的Y与Ui相关,本来应该是X与Ui不相关,扰动项的信息应该全部包括或者表现概括在已经有的X里面了。

第三是度量误差

由于关键变量的度量上存在误差,使其与真实值之间存在偏差,这种偏差可能会成为回归误差(regression error)的一部分,从而导致内生性问题。

(0)

相关推荐

  • 深入讨论机器学习 8 大回归模型的基本原理以及差异!

    几乎每个机器学习从业者都知道回归,其中一些人可能认为这没什么大不了的,只是从参数之间的切 换罢了.本文将阐明每种回归算法的细节,以及确切的区别.包括 : OLS Weighted Least Squa ...

  • 应该掌握的7种回归模型

    本文转载自博客你应该掌握的7种回归模型!. 线性回归和逻辑回归通常是人们学习预测模型的第一个算法.由于这二者的知名度很大,许多分析人员以为它们就是回归的唯一形式了.而了解更多的学者会知道它们是所有回归 ...

  • 回归系数不显著,其原因和解决思路有哪些?

    来源:林林山川 相信大家在做数据分析时,一定遇见过数据不显著的问题,不要气馁,因为不显著才是常态,显著反而是少数. 需要注意的是,当遇见回归系数不显著时,我们不能简单的认为对应的解释变量对被解释变量没 ...

  • 统计计量 | 显著性水平究竟是何方神圣?

    本文来源:量化研究方法 原文链接:https://towardsdatascience.com/statistical-significance-hypothesis-testing-the-norm ...

  • 统计计量 | 回归分析中15个统计量解释

    本文来源:计量经济学综合整理(转载请注明来源) 回归系数 注意回归系数的正负要符合理论和实际.截距项的回归系数无论是否通过T检验都没有实际的经济意义. 回归系数的标准差 标准误差越大,回归系数的估计值 ...

  • Excel3个通配符的妙用,许多统计筛选的问题都能得到解决

    通常数据的查找搜索其实是有一定局限性的.使用一般情况下的搜索,我们只能实现点对点的查找. 举个简单的例子,在搜索框中输入"张三",你就只能搜索到含有"张三"的字 ...

  • 回归系数不显著怎么办?有以下解决思路

    在我做实证的经历中,不显著是常态,显著反而稀缺.一般的论文或许我可以先放一放,继续push自己的idea.但博士论文实在是放不起,一不留神就快到毕业季了,再放一放,学位就不用拿了.因此面对种种不显著的 ...

  • 统计计量 | 计量经济学、机器学习和深度学习

    本文转载自公众号E校挺好 本篇短文是班门弄斧之做,其目的是抛砖引玉,引发大佬们对个话题的关注. 机器学习和深度学习是伴随人工智能发展而兴起的建模方法.一般的编程需要考虑应用场景所有可能出现的情况,并且 ...

  • 统计计量 | 内生性与工具变量,你不可不知的9个问题汇总

    本文转载自公众号经管学苑 来源:网络 计量经济学中,线性回归模型的本意是给定x值,然后预测(或估计)y的条件均值.在给定的x值下,y值可能忽高忽低(即y是随机变量),其变化程度也可大可小(即y有方差) ...

  • 统计计量丨​一文详细解读回归模型中的异方差问题,让您不再困惑!

    本文转载自公众号简单易学的计量经济学 当你在写实证论文的时候,经常会发现回归模型参数显著性在很多时候并不符合预期,当然这存在很多方面的影响, 比如变量间存在多重共线性.残差存在一阶或高阶自相关或者残差 ...

  • 统计计量 | 回归分析不可不知的关键词和统计量

    本文转载自公众号经管学苑 计量经济学服务中心整理 本文第一部分关键词来源:统计课是纸老虎. 词汇表内容取自<回归分析>(谢宇,2010) 第二部分统计量来源于计量经济学 NO.1回归分析关 ...