漂亮!大咖杰作!中国学者Lancet文章展示如何利用回归方法巧妙探讨影响因素

2021年8月27日,中国中日友好医院国家呼吸内科中心曹彬教授联合首都医科大学等研究人员在国际顶级期刊《柳叶刀》上在线发表了题为" 1-year outcomes in hospital survivors with COVID-19:a longitudinal cohort study "的研究论文。
曹彬教授,是2021年的中国工程院院士候选人(第一轮)。这两年以来,围绕着新冠肺炎防治方面开展了一系列卓有成效的工作。
这篇《柳叶刀》正刊发表了一项我国学者进行的最大规模新冠后遗症研究。该研究追踪了1276名从武汉金银潭医院出院的新冠患者康复情况。结果显示,新冠出院患者1年后健康状况相比出院6个月时有明显改善,但仍未恢复至基线健康水平。
该研究对2020 年 1 月 7 日至 5 月 29 日期间从金银潭医院出院的 COVID-19 幸存者进行了一项双向队列研究。在 6 个月和 12 个月的随访中,幸存者接受了有关症状和健康相关生活质量 (HRQoL) 的问卷调查,并接受了体检、6 分钟步行测试和实验室测试。他们被要求在出院后报告他们的医疗保健使用情况,并在 12 个月的访问中报告他们的工作状态。主要结果是症状、改良的英国医学研究委员会 (mMRC) 评分、HRQoL 和 6 分钟步行距离 (6MWD)。多变量调整logistic回归模型用于评估 12 个月结果的危险因素
研究结果显示,至少还有一种后遗症症状的人群比例从6个月时的68%,下降到12个月时的49%;疲劳或肌肉无力是最常见报告的症状,从 6个月时的52%下降到 12 个月时的20%。不过,疲劳或肌肉无力、睡眠困难、脱发、嗅觉障碍和味觉障碍等症状均随着时间推移显著消退。
1、疲劳或肌肉无力:6个月时52%→12个月时20%。
2、睡眠障碍:6个月时27%→12个月时17%;
3、脱发:6个月时22%→12个月时11%;
4、嗅觉失灵:6个月时11%→12个月时4%
5、心悸、关节疼痛的比例则没有明显变化。
因此,大多数 COVID-19 幸存者在 1 年的随访期间身体和功能恢复良好,并恢复了原来的工作和生活。但总体上该研究的 COVID-19 幸存者队列在 12 个月时的健康状况仍低于对照组。

划重点:如何利用回归开展新冠患者预后的影响因素?
针对疲劳或肌肉无力、焦虑或抑郁、弥散功能障碍三个结局指标,作者开展了影响因素研究。本文重点就是学习这篇文章如何开展影响因素分析。我发现这篇文章的影响研究非常非常值得我们来借鉴!

为了学习这个文章的思路,首先要明确它的结局和暴露因素。
Outcome:它的结局是疲劳或肌肉无力、焦虑或抑郁、弥散功能障碍三个,是分类变量的结局:疲劳或肌肉无力(是/否)、焦虑或抑郁(是/否)、弥散功能障碍(是/否)
Expoure暴露因素:这是个队列研究,但它同时聚焦了多个影响因素。这些影响包括age, sex, cigarette smoking, education, comorbidity, corticosteroids, antivirals, and intravenous immunoglobulin、disease severity 。数量也不多。
问题1:结局是二分类的变量,用什么回归?

答:logistic回归
问题2:开展影响因素是否需要“先单后多”

这是非常值得聊一聊的话题,现在很多人在开展影响因素的时候,采取的策略是先单因素分析,再将单因素分析P值较小者纳入到多因素回归模型。其实我是不推荐的,我在之前的文章已经写过:
回归分析时,一定要单因素回归P<0.05的自变量纳入多因素回归吗?

答案:不一定,在自变量个数较少的时候,可以全部自变量纳入多因素回归模型

问题3:这篇文章是全部自变量纳入多因素回归分析吗?
答案:嘿嘿,又不是的!
啥?你郑老师是耍我么?怎么又不是所有变量纳入分析了?
我在之前文中说过,构建回归模型要“严进严纳”:严进严纳的方法基本理念是,即在纳入自变量的时候需要严格纳入,在排除自变量的时候,没有多大意义的别放在最终模型中来。
严进:合理的挑选自变量纳入多因素回归模型
严纳:少留变量在最终模型,多淘汰一些变量出

开展回归,(1)要考虑那些理论上具有因果关系的变量和潜在混杂变量纳入到回归模型中,严格限制无关变量、中介变量进入统计模型。(2)在上述限制条件下,当样本量足够大,自变量不多时候,可以不必按照“先单后多”原则,可一次性纳入所有符合上述条件的变量进入。

所以刚才讲的所有变量纳入模型,是第(2)步,但第(1)步要选筛选变量,特别是要区分哪些是目标暴露因素,哪些是混杂因素,哪些是中介变量。
有句话在回归分析一般要记住:混杂因素一定要纳入,中介变量一般不纳入。这篇文章就是这么干的。

(1)首先讨论的暴露因素是疾病严重程度(disease severity对于这个变量而言,年龄、性别、吸烟状态、教育程度、并发症、皮质类固醇、抗病毒治疗、静脉注射免疫球蛋白是潜在混杂变量,所以回归分析的时候都一同纳入。
(2)如果要分析教育和吸烟程度与结局的关系,那么并发症、疾病严重程度不能放了,因为它们可能是中介变量。 
When exploring the associations of education and smoking with outcome, the aforementioned variables except for comorbidity, and both comorbidity and disease severity (due to the potential mediation) were included, respectively 

(3)如果要分析年龄和结局的关系,那么只有性别、吸烟状态、教育程度能放了,因为其它变量可能是中介变量。
(4)如果要分析并发症和结局的关系,那么疾病严重程度不能放了,因为它们可能是中介变量。
所以,开展回归分析,在考虑是否先单后多的策略前,要考虑哪些是目标暴露因素,哪些是混杂因素(包括潜在),那么些中介变量。特别注意,中介变量不好纳入。
我强烈建议,开展回归分析之前,好好考虑变量之间的关系网络,推荐绘制有向无环图(DAG)来描述因果关系。
关于这个DAG,我在之前好多都进行介绍了,  有兴趣去了解下。
“病例对照研究”也能发BMJ杂志?作者用了一幅图征服了审稿专家
你认识它吗?--有向无环图(DAG):回归分析中自变量筛选的指导思想
真实世界数据分析(3):基于DAG方法进行自变量的筛选
比如该文章的例子,我简单的绘制出本文DAG:
对于这个DAG来说,举两个例子,
(1)对于疾病严重程度来说,基本上它是其它自变量的中介变量,因此研究其他变量的时候,回归分析不能纳入疾病严重程度;但是如果聚焦于疾病严重程度,那么其它变量都可能是混杂变量,回归分析都要纳入。
(2)对于并发症来说,基本上它是其它变量中介变量除了疾病严重程度。因此,如果分析其他便作为影响因素,疾病严重程度和并发症不能纳入回归模型,如果要分析并发症的影响,其它变量可以作为潜在混杂 变量纳入,唯独不能放入疾病程度,因为这个时候疾病程度是中介变量。
曹彬教授的影响因素分析,就是这个套路!你懂了吗?说句实话,容我孤陋寡闻,我是第一次看到中国学者探讨影响因素是这么玩的!
请记住:回归分析开展影响因素研究,混杂因素一定要纳入,中介变量一般不纳入。
如果有需要查看原文者,不放发送,发送关键词“文献阅读”至公众号,无需分享推文,即可获得文献的下载地址。

更多信息

本公众号作为医学数据分析公众号,提供一些免费医学统计学学习资源下载,欢迎点击下载。
1.免费下载!统计初学者的福音!《妙趣横生统计学》视频,生动有趣的统计学!
2.医学研究样本量如何计算?原创高清教程视频来了,完全免费下载!
3.绝对值得收藏!原创高清SPSS 操作视频免费下载
4.全网最简单的SPSS教程,160页PPT学会SPSS统计分析!免费下载!
5.BMJ子刊教程“如何利用R语言进行meta分析”:附全套R代码
6.【免费】精制原创11讲短视频下载!零基础者2小时掌握医学统计学基本原理
7.【绝对精品】这套954张PPT的医学统计学教程,现在公开赠送!
特别提醒:上述资源每天限分享和下载一个。

培训通告

2021年,我们召集了一批富有经验的高校专业队伍,着手举行短期统计课程培训班。如果您有需求,不妨点击查看:
来参加吧,通俗易懂的统计培训课:R、Meta、重复测量以及量表分析
如果您觉得文章不错,
为我们打“call”,
点击“分享”吧
(0)

相关推荐