临床大数据文献|Logistic回归的模型构建策略:有目的的选择
欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA、GEO, SEER数据挖掘。
临床大数据研究系列文献分享第5篇,由浙江大学章仲恒老师撰写的临床大数据系列专栏文章发表在 Annals of Translational杂志,这篇文章主要介绍的是介绍Logistic回归模型的构建策略。这里只做学习交流,版权归原作者所有。
摘要
Logistic回归是解决医学文献中混杂因素的最常用模型之一。本文介绍了如何使用R执行有目的的选择模型构建策略。作者着重于介绍使用似然比检验来查看删除变量是否会对模型拟合产生重大影响。还应检查已删除的变量,以确定它是否对剩余协变量的重要调整。应检查交互作用,以弄清协变量之间的复杂关系及其对响应变量的协同作用。应该检查模型的拟合优度 goodness-of-fit(GOF)。换句话说,拟合模型如何反映真实数据。Hosmer-Lemeshow GOF检验是用于Logistic回归模型的最广泛的检验。
介绍
Logistic回归模型是研究变量对医学文献中二项式结果的独立影响的最广泛使用的模型之一。但是,许多研究并未明确提出模型建立策略,从而损害了结果的可靠性和可重复性。文献中报道了多种模型构建策略,例如有目的地选择变量,逐步选择和最佳子集。但是,究竟哪一种方法好还没有被证明,也不得而知,模型构建策略是“部分科学,部分统计方法以及部分经验和常识”。模型构建的原理是选择尽可能少的变量,但是模型(简约模型)仍然反映了数据的真实结果。在本文中,作者介绍了如何在R中执行有目的的选择。变量选择是模型构建的第一步。其他步骤将在后续文章中介绍。
附上原文
参考文献
Cite this article as: Zhang Z. Model building strategy for logistic regression: purposeful selection. Ann Transl Med 2016;4(6):111. doi: 10.21037/atm.2016.02.15
Bursac Z, Gauss CH, Williams DK, et al. Purposeful selection of variables in logistic regression. Source Code Biol Med 2008;3:17. [Crossref] [PubMed]
Greenland S. Modeling and variable selection in epidemiologic analysis. Am J Public Health 1989;79:340-9. [Crossref] [PubMed]
Model-building strategies and methods for logistic regression. In: Hosmer DW Jr, Lemeshow S, Sturdivant RX. Applied logistic regression. Hoboken, NJ, USA: John Wiley & Sons, Inc., 2000;63.
Zhang Z, Chen K, Ni H, et al. Predictive value of lactate in unselected critically ill patients: an analysis using fractional polynomials. J Thorac Dis 2014;6:995-1003. [PubMed]
Zhang Z, Ni H. Normalized lactate load is associated with development of acute kidney injury in patients who underwent cardiopulmonary bypass surgery. PLoS One 2015;10:e0120466. [Crossref] [PubMed]
Zhang Z, Xu X. Lactate clearance is a useful biomarker for the prediction of all-cause mortality in critically ill patients: a systematic review and meta-analysis*. Crit Care Med 2014;42:2118-25. [Crossref] [PubMed]
Kabacoff R. R in action. Cherry Hill: Manning Publications Co; 2011.
Bendal RB, Afifi AA. Comparison of stopping rules in forward regression. Journal of the American Statistical Association 1977;72:46-53.
Mickey RM, Greenland S. The impact of confounder selection criteria on effect estimation. Am J Epidemiol 1989;129:125-37. [PubMed]
Royston P, Ambler G, Sauerbrei W. The use of fractional polynomials to model continuous risk variables in epidemiology. Int J Epidemiol 1999;28:964-74. [Crossref] [PubMed]
Royston P, Altman DG. Regression using fractional polynomials of continuous covariates: parsimonious parametric modelling. Applied Statistics 1994;43:429-67. [Crossref]
Hosmer DW, Hjort NL. Goodness-of-fit processes for logistic regression: simulation results. Stat Med 2002;21:2723-38. [Crossref] [PubMed]