12篇文章,手把手教你如何科学地构建回归模型!

作为医学统计学与SPSS教程的重要组成部分,系列教程《如何科学地构建回归模型》完结。
它们分别是:
1.一道饕餮大餐来了!手把手教你如何科学地构建回归模型!
2.一文汇总三大回归的基本应用条件、诊断与处理方法
3.回归分析时何时设置哑变量?如何设置?
4.当回归分析模型遇到连续型自变量,我该怎么办?
5.吃巧克力预防高血压?一文学会P trend计算,掌握趋势性分析
6.你只会“先单后多”吗?如何筛选自变量建立多因素回归模型
7.你认识它吗?--有向无环图(DAG):回归分析中自变量筛选的指导思想
8.中介变量一直很重要,一直被忽视!如何在回归分析中考虑中介变量?
9.控制混杂偏倚的回归自变量筛选法,强烈推荐Change-in-Estimate法
10.回归分析筛选自变量,不推荐逐步回归法?那我应该怎么办?
11.回归分析时,单因素P<0.05,而多因素却没有意义,我该如何是好?
12.一个困扰已久的问题:回归分析样本量如何确定?
应该说,这一系列不够完整,感觉还差一两篇。不过对于大多数人来说,足够学习了。这一系列大致完整地告诉诸位,如何避免简单粗暴地开展回归分析,而根据一定的条件与场合去建立回归模型。
现在,我帮助大家来梳理一下,方便有兴趣者学习
建立回归分析的第一个要考虑的是,回归分析的条件。对此,我首先和大家讲述线性回归、logistic回归、Cox回归的条件。
一文汇总三大回归的基本应用条件、诊断与处理方法
在应用条件中,回归分析两类自变量需要值得大家关注。第一种,当变量是无序分类变量时,大家需要考虑哑变量的设置问题:
回归分析时何时设置哑变量?如何设置?
第二种情况,当变量是定量变量时,考虑的策略很多,既可以考虑哑变量设置、也可以进行趋势性检验分析,或者什么都不考虑,直接纳入自变量进入模型。
当回归分析模型遇到连续型自变量,我该怎么办?
吃巧克力预防高血压?一文学会P trend计算,掌握趋势性分析
如何挑选自变量进入模型呢?
接下来,如何纳入自变量进入模型呢?一般来说,回归模型的自变量不能太多。这主要由于自变量太多而模型样本量不大时,模型可能无法成功建立起来。因此回归分析一方面对样本量有要求:
一个困扰已久的问题:回归分析样本量如何确定?
另一方面,限制自变量进入模型。如何限制?基本原则是“大道至简”、“严进严纳”,即要求纳入模型的自变量,不用太多,留在模型的自变量也应该控制在一定水平内。下面这篇文章进行了总的介绍:
你只会“先单后多”吗?如何筛选自变量建立多因素回归模型
在自变量控制与筛选中,可以采用DAG、先单后多、效应改变法、逐步回归法、多模型法帮助我们完成这一任务。
回归分析包括研究影响因素、控制混杂、预测与分类三大目的。不同的回归分析目的有不同的回归筛选方法。本系列文章就前两者的回归策略我做了介绍,这里做一个梳理与总结。
如何研究影响因素?
所谓“研究影响因素”,一般为探索性的研究。面对健康问题,我们掘地三尺,希望能够从我已经拿到的变量中,找到与影响健康问题发生、发展、转归的因素。这些因素五花八门,包括个体特征、生活方式、生活环境、临床诊疗、心理特征等。这些因素,又是分层次的,存在着远因与近因,远因对健康结局有影响,而且可能通过近因而发挥作用,因此,近因又可能是中介变量。
因此,研究影响因素为目的的回归,中介变量是需要考虑的问题。考虑中介变量的方式,就是建立因果关系链,即DAG理论:
你认识它吗?--有向无环图(DAG):回归分析中自变量筛选的指导思想
中介变量一直很重要,一直被忽视!如何在回归分析中考虑中介变量?
因此,研究影响因素路径,第一步工作是,建立DAG图谱,大致建立各自变量与结局、各自变量与各自变量直接的因果关系。
研究影响因素路径,第二步工作是,挑选合适的变量进入模型。方式有三种,第一种,排除中介变量,直接挑选理论上与研究结局因果关系明确的自变量进入模型。第二种,先单后多方法。先单因素分析,然后再排除中介变量,挑选单因素回归分析P值较小者纳入模型,开展多因素回归分析。第三种,多模型法分析:至少建立2个模型,有中介变量的模型和没有中介变量的模型开展回归分析。这样的做法既可以排除中介变量看远因,也可以分析中介变量(即近因)的影响。
研究影响因素路径第三步工作是,考虑在多因素回归过程中,剔除多余的自变量。这一步不是必选项,一般情况下,在样本量足够大且自变量个数不多时,不考虑。当然,如果模型纳入模型自变量实在仍然很多,可以采用逐步回归法进行分析,而一般情况下,不推荐逐步回归法。
回归分析筛选自变量,不推荐逐步回归法?那我应该怎么办?
如何控制混杂偏倚呢?
控制混杂偏倚的目的其实也是探讨影响因素,只不过在该目的中,我们不再将爱泛化,而是钟情于1、2个自变量,其它变量可能是混杂偏倚,需要通过模型进行控制的。
控制混杂偏倚路径,第一步工作是同样是建立DAG理论,大致地分析,哪些是混杂变量,哪些可能又是中介变量。中介变量虽然不是混杂变量,但仍然是我们需要重点考虑的。
控制混杂偏倚路径,第二步工作是,纳入自变量进入模型,大致地方法也有以下几种,第一,如果自变量不多,在排除中介变量后,直接纳入所有自变量与目标变量进入回归分析模型;第二,在排除中介变量后,采用效应改变方法开展回归分析
控制混杂偏倚的回归自变量筛选法,强烈推荐Change-in-Estimate法
第三,先单后多方法。先单因素分析,挑选潜在混杂变量。这个单因素分析,一般可以通过与目标自变量的关联性分析,或者与结局变量的关联性分析,考虑是否是可疑的混杂因素(当P<0.05是为潜在混杂因素)(写医学研究SCI文章,不能不了解混杂因素与混杂偏倚!);挑出P<0.05者,在排除中介变量后,连同目标变量,纳入多因素回归分析模型。第四种方法,如果自变量太多,可以考虑先单后多与效应改变法的结合。
控制混杂偏倚路径,第三步工作是多因素回归分析后,排除多余自变量。这一步,可以省略,因为控制混杂偏倚一般不建立采用逐步回归方法进行分析。如果纳入多因素回归的自变量个数有点多,构建模型很吃力!建立采用倾向得分方法进行分析。
最后,无论是研究影响因素,还是控制混杂,都会存在令人困惑地方,即单因素回归分析P<0.05,而多因素回归P>0.05,不再具有统计学意义。这个时候,郑老师也提供了相应的策略帮助大家理解结果:
回归分析时,单因素P<0.05,而多因素却没有意义,我该如何是好?
总结

回归模型不能在简单粗暴、一下子将自变量直接全部纳入多因素回归分析,或者直接先单因素后多因素了!这只会“garbage in、garbage out”。

努力建立一个有灵魂的回归模型吧!
整个系列,我也有很多内容没有叙述,比如对于自变量 与应变量非线性关系,如何建立非线性回归呢?对于自变量或者应变量出现异常值时,如何处理呢?对于控制混杂偏倚,倾向得分法其实可以讲讲的。上述这些内容,我将择时,再专门进行介绍,到时候欢迎学习。
对于上述清单?你有何感想?如果有有更好的内容建议,请留言!
支持郑老师,
快来点击“分享”吧
(0)

相关推荐