临床大数据文献【6】|缺失值多重插补的高级方法介绍
欢迎来到医科研,这里是白介素2的读书笔记,跟我一起聊临床与科研的故事, 生物医学数据挖掘,R语言,TCGA、GEO, SEER数据挖掘。
临床大数据研究系列文献分享第6篇,由浙江大学章仲恒老师撰写的临床大数据系列专栏文章发表在 Annals of Translational杂志,这篇文章主要介绍的是介绍Logistic回归模型的构建策略。这里只做学习交流,版权归原作者所有。
摘要
多重插补(MI)是一种用于处理缺失值的高级技术。它优于单纯插补,因为它考虑了缺失值估算中的不确定性。但是,由于缺乏熟悉和计算上的挑战,医学文献中MI的利用不足。本文提供了通过使用链式方程式R多元归因(MICE)程序包执行MI的分步方法。该过程首先通过调用mice()函数推算m套完整的数据集。然后,可以通过调用with()函数在每个数据集中执行统计分析,例如单变量分析和回归模型。此功能设置统计分析的环境。最后,通过使用pool()函数将从每个分析获得的结果进行组合。
简介
多重插补(MI)是处理缺失值的高级方法。与单一插补相反,MI通过插补缺失值来创建许多数据集(用m表示)。也就是说,原始数据集中的一个缺失值将替换为m个合理的估算值。这些值考虑了插补的不确定性。从每个数据集中估算出感兴趣的统计数据,然后将其合并为最终的统计数据。尽管单一插补因其偏差(例如,对精度的高估)和对缺失值估算的不确定性而受到批评,但如果正确执行MI,则可以对实际结果进行准确估算(1)。但是,由于缺乏熟悉和计算上的挑战,医学文献中MI的利用不足。为了使临床医生熟悉MI,本文旨在提供分步教程,介绍如何使用R软件包对缺失值进行MI。在此之前,将简要介绍MI背后的基本思想。
参考文献
Donders AR, van der Heijden GJ, Stijnen T, et al. Review: a gentle introduction to imputation of missing values. J Clin Epidemiol 2006;59:1087-91. [PubMed]
Morris TP, White IR, Royston P. Tuning multiple imputation by predictive mean matching and local residual draws. BMC Med Res Methodol 2014;14:75. [PubMed]
White IR, Royston P, Wood AM. Multiple imputation using chained equations: Issues and guidance for practice. Stat Med 2011;30:377-99. [PubMed]
Moons KG, Donders RA, Stijnen T, et al. Using the outcome for imputation of missing predictor values was preferred. J Clin Epidemiol 2006;59:1092-101. [PubMed]
Zhang Z, Chen K, Ni H, et al. Predictive value of lactate in unselected critically ill patients: an analysis using fractional polynomials. J Thorac Dis 2014;6:995-1003. [PubMed]
Zhang Z. Accessing critical care big data: a step by step approach. J Thorac Dis 2015;7:238-42. [PubMed]
Buuren SV, Groothuis-Oudshoorn K. mice: Multivariate Imputation by Chained Equations in R. Journal of Statistical Software 2011;45:1-67.