临床大数据文献【6】|缺失值多重插补的高级方法介绍 / 四六文摘

欢迎来到医科研，这里是白介素2的读书笔记，跟我一起聊临床与科研的故事, 生物医学数据挖掘，R语言，TCGA、GEO, SEER数据挖掘。

临床大数据研究系列文献分享第6篇，由浙江大学章仲恒老师撰写的临床大数据系列专栏文章发表在 Annals of Translational杂志，这篇文章主要介绍的是介绍Logistic回归模型的构建策略。这里只做学习交流，版权归原作者所有。

摘要

多重插补（MI）是一种用于处理缺失值的高级技术。它优于单纯插补，因为它考虑了缺失值估算中的不确定性。但是，由于缺乏熟悉和计算上的挑战，医学文献中MI的利用不足。本文提供了通过使用链式方程式R多元归因（MICE）程序包执行MI的分步方法。该过程首先通过调用mice（）函数推算m套完整的数据集。然后，可以通过调用with（）函数在每个数据集中执行统计分析，例如单变量分析和回归模型。此功能设置统计分析的环境。最后，通过使用pool（）函数将从每个分析获得的结果进行组合。

简介

多重插补（MI）是处理缺失值的高级方法。与单一插补相反，MI通过插补缺失值来创建许多数据集（用m表示）。也就是说，原始数据集中的一个缺失值将替换为m个合理的估算值。这些值考虑了插补的不确定性。从每个数据集中估算出感兴趣的统计数据，然后将其合并为最终的统计数据。尽管单一插补因其偏差（例如，对精度的高估）和对缺失值估算的不确定性而受到批评，但如果正确执行MI，则可以对实际结果进行准确估算（1）。但是，由于缺乏熟悉和计算上的挑战，医学文献中MI的利用不足。为了使临床医生熟悉MI，本文旨在提供分步教程，介绍如何使用R软件包对缺失值进行MI。在此之前，将简要介绍MI背后的基本思想。

参考文献

Donders AR, van der Heijden GJ, Stijnen T, et al. Review: a gentle introduction to imputation of missing values. J Clin Epidemiol 2006;59:1087-91. [PubMed]
Morris TP, White IR, Royston P. Tuning multiple imputation by predictive mean matching and local residual draws. BMC Med Res Methodol 2014;14:75. [PubMed]
White IR, Royston P, Wood AM. Multiple imputation using chained equations: Issues and guidance for practice. Stat Med 2011;30:377-99. [PubMed]
Moons KG, Donders RA, Stijnen T, et al. Using the outcome for imputation of missing predictor values was preferred. J Clin Epidemiol 2006;59:1092-101. [PubMed]
Zhang Z, Chen K, Ni H, et al. Predictive value of lactate in unselected critically ill patients: an analysis using fractional polynomials. J Thorac Dis 2014;6:995-1003. [PubMed]
Zhang Z. Accessing critical care big data: a step by step approach. J Thorac Dis 2015;7:238-42. [PubMed]
Buuren SV, Groothuis-Oudshoorn K. mice: Multivariate Imputation by Chained Equations in R. Journal of Statistical Software 2011;45:1-67.

附上全文

临床大数据文献【6】|缺失值多重插补的高级方法介绍

摘要

简介

参考文献

附上全文

One more thing

相关推荐