构建预测模型的七大步骤简述
本文将通过以下步骤指导读者创建一个预测模型,步骤包括:
确定临床问题和预测模型类型; 数据收集和数据处理; 模型构建和变量筛选; 模型性能; 模型验证; 模型展示和报告; 影响评估。
最后,以建立终末期肾病(ESKD)患者ICU入院后90天死亡率的预测模型为例,说明预测模型的推导过程。
目 录
1. 介绍
2. 构建预测模型的例子
3. 建立预测模型的步骤
4. 确定临床问题和预测模型类型
4.1 预测模型的类型
4.2 预测模型与流行病学模型的区别
4.3 预测模型类型的选择
5. 数据收集与数据处理
5.1 数据的收集
5.2 数据的处理
6. 模型构建与变量筛选
6.1 基于临床知识和既往研究
6.2 逐步回归法
6.3 信息准则
6.4 其他筛选方法
6.5 统计假设
7. 模型性能
7.1 区分度
7.2 校准度
7.3 模型的比较
8. 模型验证
8.1 交叉验证法
8.2 bootstrapping法
8.3 外部验证
9. 模型的展示与报告
10. 影响评估
10.1 影响评估的研究设计
10.2 评估预测模型的证据强度
11. 结论
1. 介绍
风险预测模型可以根据模型中预测变量的值来评估预测个体出现某一疾病或结局的概率。在诊断、治疗、辅助预测和疾病严重程度分层方面,这些模型可以用来指导临床医生做出决策。
随着新技术的进步,大型医疗数据库的建立为预测模型的构建和验证提供了机会。在肾脏疾病领域,已经开发了很多预测模型用于临床实践,如预测ESKD风险的模型和国际IgA肾病预测模型。
本文阐述了构建风险预测模型所涉及的步骤,其中重点是模型的开发和验证,并举例进行说明。
2. 构建预测模型的例子
临床背景:1名55岁的男性ESKD患者,接受维持性血液透析治疗,在出现严重肺炎后被送入ICU。
临床问题:ESKD患者进入ICU后死亡风险是多少?
本研究使用这个例子来说明预测模型的开发,构建的模型可以预测ESKD伴透析患者在ICU入院后90天的死亡风险。
数据来自MIMIC-III数据集,该数据集来源于美国一家大型三级医院的综合ICU数据库,包含患者特征、临床观察、实验室结果、药物、液体平衡、诊断代码和生存数据。可以从http://mimic.physionet.org
网站获取该数据集信息。
本文所建立的模型仅作演示之用,不应用于临床实践。有关模型构建步骤的更多详细信息,请参见补充附录,以及R脚本的副本。
3. 建立预测模型的步骤
预测模型的建立可分为7个步骤:
确定临床问题和预测模型类型; 数据收集和数据处理; 模型构建和变量筛选; 模型性能; 模型验证; 模型展示和报告; 影响评估。
4. 确定临床问题和预测模型类型
4.1 预测模型的类型
临床预测模型的类型主要有两种:诊断模型和预后模型。
诊断模型用来估计患者发生某一疾病的风险,可以识别高风险患者,及早预防和治疗。
预后模型用来估计患者未来某一时间段发生某一结局的风险,对出院前的患者进行评估,识别出高风险患者,通过对高风险患者加强随访,可以改善患者预后。
4.2 预测模型与流行病学模型的区别
区分预测模型与流行病学模型是很重要的。预测模型追求对结局的最精确的预测,而不考虑其各个组成部分与结局之间的关联。
尽管预测模型和流行病学模型使用相同的统计工具,但它们的构建方式不同,在预测模型中,我们不应该得出因果性的结论,也不应该将预测模型的组成部分解释为结局的风险因素。
下表总结了预测模型和流行病学模型之间的差异。
特征 | 预测模型 | 流行病学模型 |
---|---|---|
模型目的 | 为了准确的预测结局,如预测特定患者群体发生疾病或结局的风险 | 评估变量与结局之间的流行病学或因果关系,如吸烟与肺癌之间的关系 |
变量 | 为预测模型提供信息来做出更准确预测的影响因素 | 根据模型结构,变量可以认为是结局的风险因素,或是变量和结局之间关系的混杂因素 |
变量筛选 | 基于改善预测模型性能的能力来筛选变量,这些变量不一定与结局存在生物学或流行病学关系,如婚姻状况和ICU死亡率 | 基于现有知识和变量与结局之间因果关系的假设来筛选变量,如年龄和性别可能是吸烟对CKD风险影响的混杂因素,因此包含在调整模型中 |
4.3 预测模型类型的选择
预测模型的类型取决于感兴趣的结局。
传统上logistic回归模型用于二分类结局,如有无疾病(如是否发生急性肾损伤),或确定时间段的结局事件(如30天死亡)。
Cox比例风险模型用于包含时间的数据(如进展到ESKD的时间)。
新的机器学习方法,如随机森林、k近邻、支持向量机和人工神经网络等,也越来越多地用于预测模型的开发。本系列的另一篇文章将介绍机器学习方法用于预测建模的更多细节。
在本文的例子中,因为感兴趣结局是二分类结局(ICU入院后90天是否死亡),所以我们可以使用logistic回归模型来构建预测模型。
5. 数据收集与数据处理
5.1 数据的收集
建立预测模型的数据可以重新收集,也可以来自现有的试验、队列研究、登记注册或管理的数据集。数据集应包括与预测模型的感兴趣人群相同的患者群体。数据集中样本量越大、患者信息越多,构建的预测模型就越准确。
在本研究中,MIMIC-III数据集包含了患者的基本特征(如年龄和性别),以及每个患者ICU入院期间生命体征和实验室结果的数据。我们使用患者的基本特征、首次获得的生命体征数据和在ICU入院48h内获得的基本实验室结果数据作为潜在的预测变量来开发预测模型。
5.2 数据的处理
在开始构建模型之前,要检查每个变量是否有缺失值、离群值或异常值,还应评估每个变量的分布。
根据缺失值的类型以及处理缺失值的方式,缺失值处理常可能导致统计分析出现偏倚。可以采取几种方法来处理缺失值,如删除缺失值后的完整病例分析或使用插补法。本系列的另一篇文章将详细介绍缺失值的处理。
除了缺失值外,协变量的编码和类型也是需要考虑的。协变量可以是分类变量,如男性/女性;也可以是连续变量,如年龄和血清钠水平;还可以是计数的离散型变量,如既往住院次数或合并症数量。
分类变量的每一个水平都应该有足够的观测对象。如果某一水平观测对象较少,可以合并观测对象较少的类别水平。一般来说,只有当变量的潜在价值很小时,连续变量和离散变量才应该转换成分类变量,其他情况下不建议这样做,因为这样做会减少变量的预测信息,并可能降低模型的预测能力。
在本研究中,使用ICD-9诊断代码来识别伴透析的ESKD患者,并使用相关变量的项目代码从数据集中提取协变量的信息。
其他的数据处理步骤包括:将所有温度值转换为相同单位(摄氏度),将入院类型、种族和婚姻状况变量进行重新分类。数据集中只存在少量的缺失值(每个变量<4%),因此可以进行完整病例分析。
6. 模型构建与变量筛选
在确定好临床问题和预测模型类型,并进行数据收集和处理后,预测模型开发的下一步是选择要纳入预测模型的变量。
变量筛选的目的是选择重要的协变量,这些协变量可以创建一个最准确地预测感兴趣结局的模型。
有几种方法可用于筛选预测变量。
6.1 基于临床知识和既往研究
第一步,可以根据临床知识和既往研究来选择具有预测性或与感兴趣结局有关的变量。然而,由于预测模型的目的是准确的预测感兴趣结局的发生风险,因此,只要这些变量提高了模型的预测精度,预测模型中包含的变量可以不一定是影响结局的生物学危险因素。
在本研究示例中,如婚姻状况等变量可能对ICU入院后的死亡率没有直接的生物学影响,但如果纳入这些变量能够更准确地预测结局,在创建预测模型时仍然可以考虑这些变量。
统计学方法也可以用来识别对感兴趣结局有重要意义的变量,如逐步回归法和正则化法。这些方法各有优缺点。
6.2 逐步回归法
传统的变量筛选方法是使用逐步回归来筛选变量,包括在每个步骤中逐步从模型中添加协变量(前进法)或从模型中移除潜在协变量(后退法),直至选择出最佳模型为止。
在后退法中,所有潜在的协变量都纳入到初始多变量模型中,基于P值将与感兴趣结局关联性最小的协变量从模型中逐一删除,直至模型中所有剩余的协变量达到了设定的统计显著性水平,通常P值<0.05。
在前进法筛选变量时,基于P值将与感兴趣结局关联性最显著的协变量添加到模型中,根据统计显著性水平逐一添加到多变量模型中。
如果在构建模型前测量了许多潜在的协变量,则可能无法拟合包含所有潜在协变量的初始多变量回归模型。潜在协变量的初始筛选可以根据单因素分析,比如说仅纳入单因素分析中p值<0.25的协变量进入初始多变量模型。然后使用前进法或者后退法来完善多变量模型。
作为多变量logistic回归或Cox比例风险模型的一般指南,模型中的观察病例数与协变量的比值应大于10:1。
6.3 信息准则
基于P值筛选变量的另一种方法是使用信息准则,如Akaike信息准则和贝叶斯信息准则。可以基于较低(即模型更好)的Akaike或贝叶斯信息准则的数值来选择包含不同协变量的模型。
6.4 其他筛选方法
还有一些其他变量筛选方法,如具有LASSO惩罚的正则回归法。正则化法同时将模型拟合和变量筛选结合在一起,在考虑大量潜在协变量(相对于样本量)的情况下可能特别有用。因此,对于正则化方法而言,不需要上面提到的有关变量初始筛选的步骤。
6.5 统计假设
作为构建模型的一部分,检查模型的统计假设是否得到满足也很重要,如连续变量的线性或函数形式。如在线性回归模型中,假设连续变量和结局有线性关系。类似的,在逻辑回归模型中(如二分类结局),假设连续变量与结局的对数存在线性关系。
不具有线性关系的连续变量可能需要使用不同的技术(如变量的对数转换)或者更复杂的方法进行建模。也可以使用更高级的方法来执行多变量模型中的线性检验。
在Cox生存模型中,该模型的一个重要假设是比例风险模型假设——即协变量对结局事件风险的影响随时间成比例。可以通过多种方式进行检验,如绘制KM生存曲线或基于Schoenfeld
残差的统计图和检验。
本研究中我们通过Akaike信息准则使用逐步后退法来构建最佳拟合模型,进行这一步后,纳入预测模型的变量包括:收缩压与舒张压、心率、温度、白细胞计数、血红蛋白、血细胞比容、钾、氯化物、性别、入院类型、种族和婚姻状况。
为了进行比较,还使用了LASSO的logistic回归拟合了模型,并选择了几个其他变量以包含在该模型中。LASSO模型的更多详细信息在补充附录中提供。
7. 模型性能
模型在构建好以后,需要评估预测模型的性能,查看预测感兴趣结局的效果如何。
预测模型的准确性有两个组成部分:区分度和校准度。
7.1 区分度
区分度是模型区分感兴趣结局的能力。与存活患者相比,死亡患者应该有更高的预测风险。
在二分类结局变量的模型中可以使用C统计量(一致性统计量)来检验区分度,C统计量可以扩展应用于包含时间数据的Cox回归模型。
在本研究中,结局变量为二分类变量,C统计量等于ROC曲线下面积,这为模型区分度的可视化提供了一种有用的方法。
C统计量的范围从0-1。
0.5表示没有判别能力; 1表示可以将发生感兴趣结局和不发生感兴趣结局的病例完美分开。 0.5-0.69表示判别能力较差; 0.70-0.79表示可以接受; 0.80-0.89表示优秀; 0.90以上表示判别能力很优秀。
7.2 校准度
模型性能评估的第二个组成部分是校准度:实际死亡风险与预测死亡风险的一致性(拟合优度)。
对于逻辑回归模型,可以通过绘制预测死亡风险(x轴上从0%到100%)和实际死亡风险(y轴上0为存活,1为死亡)的关系图来说明(图1)。
校准图通过将结局的实际概率与预测概率(蓝线)作图来评估两者的匹配程度。在45°的虚线表示完美校准,即预测概率等于实际概率。1和0处的红点表示数据集中有无结局事件(90天死亡率)的患者。
校准度还可以通过Hosmer-Lemeshow检验进一步评估。在此检验中,根据患者的预测风险将其分组,通常为10组,然后将观察到的每组中感兴趣结局的患者比例进行比较。
如果Hosmer-Lemeshow检验的P值很低,则预测概率和实际概率无法很好地吻合,模型的拟合度不是很好。但是Hosmer-Lemeshow检验存在局限性,因为检验结果可能会根据患者的分组方式和分组的数量而变化。
在基于事件时间数据的预测模型中,可以在固定时间点或通过对事件进行分组并比较这些组的预测和观察到的生存率来评估校准。
需要注意的是,校准度和区分度是评估模型性能的不同方面。校准度和区分度在预测模型中都很重要,但是这两个并不总是同时存在,因此模型不可能同时具有完美的区分度和校准度。例如模型可能具有良好的区分度(即与较低的风险相比,能够对高风险的人进行准确排名的能力),但校准度较差(即与实际风险相比,预测风险的准确性)。
一些作者认为,在模型开发阶段,区分度可能比校准度更重要。因为如果有外部数据集,则可以在模型验证阶段对模型进行重新校准(请参阅下面的步骤:模型验证)。
7.3 模型的比较
还可以比较两个不同模型之间的预测性能,如将新预测模型与现有模型进行比较,或者将更复杂的模型与更简单的模型进行比较。
净重新分类指数(NRI)和综合判别改善指数(IDI)是常用来报告的2种方法。
在将患者分类的模型中(如在90天内存活还是死亡),可以使用重新分类表对两个模型进行比较,该表显示了与旧模型相比,新模型中正确和错误重新分类的人数或比例(图2)。
总体NRI通过添加以下内容来衡量重新分类的程度:
(I)正确重新分类感兴趣事件的人群比例减去错误重新分类的比例(事件NRI);
(II)正确重新分类没有感兴趣事件的人员比例减去错误重新分类的比例(无事件NRI)。
对于连续性结局模型和事件时间模型,也存在NRI的变化。由于NRI要求使用阈值将预测划分为多个类别(如将患者分类为发生和不发生结局事件的预测风险的阈值为50%),因此IDI会评估所有可能分类阈值的重新分类程度。
在本研究ICU入院后90天死亡率的预测模型中,总的C统计量为0.71,表明区分度是可以接受的(图3)。因为这个C统计量是在构建模型的数据集中计算出来的,所以这个值可能被高估。
预测模型的校准(拟合优度)显示在图1的校准图中。校准图表明,预测模型中的预测概率与实际概率大致匹配,与较高概率值下的实际概率相比,预测概率仅稍低。对于此模型,Hosmer-Lemeshow检验的P值为0.71,没有证据表明模型拟合效果不好,也就是说,模型拟合效果看上去很好。
8. 模型验证
在构建好预测模型后,需要对其进行验证,以确保模型的稳定性以及对提供数据来源的人群能进行高质量的预测(内部有效性),并且可以适用于不同的人群(外部有效性)。
内部验证可以使用多种方法进行评估。
8.1 交叉验证法
交叉验证是一种常用的方法,该方法将数据集拆分为多个相等大小的子集,如10个(图4),然后重复进行包括变量筛选在内的模型构建步骤,并使用这些子集数据对模型性能进行多次检验:每次(迭代),每次选用其中的一个子集用于评估模型性能,其他所有的子集用来构建模型。
这种方法可以确保模型验证时使用的数据是模型拟合过程中未使用的数据,然后重复该过程,每次构建模型的训练数据集都保留不同的子集,直至所有的子集都用于模型验证为止。
评估模型性能的测量方法是计算每个检验子集获得的平均值。交叉验证也可以执行多次,每次将数据分为不同的(和随机的)子集,如10倍交叉验证就执行10次。同样,可以通过交叉验证样本中模型性能的平均值和交叉验证样本中的模型性能的值的范围来评估模型性能。
在本研究的预测模型中,使用10倍交叉验证重复10次,交叉验证样本的平均C统计量为0.67(范围为0.53-0.78;图5)。这低于我们前面计算出的总体模型C统计量0.71。正如讨论的那样,总体模型C统计量通常是对模型性能的更为乐观的评估,因为它是使用开发模型的数据集进行计算的,而内部验证方法试图将模型应用于新患者时估计模型的性能。
8.2 bootstrapping法
进行模型内部验证的另一种方法是bootstrapping法。
在这种方法中,原始数据集被随机抽样数百次(有放回)用来创建相同大小的多个数据集。既往研究表明,bootstrapping法可能是比交叉验证更有效的内部有效性评估方法。
内部验证之后,下一步是进行外部验证。
8.3 外部验证
外部验证就是将构建好的最佳预测模型在全新的数据集中进行评估,如来自不同卫生系统或国家的患者。这一步骤是在原始数据集之外的患者群体评估模型的通用性和预测性能。
如果模型在原始数据中过度拟合,那么它在其他群体中可能就表现的不是很好。可以对模型进行调整以提高预测模型在新数据集中的预测性能。
9. 模型的展示与报告
预测模型应该以一种对临床有帮助的方式进行展示,并且根据标准化指南进行报告。
展示模型的方式有几种,如报告统计模型的详细信息(数学方程式和系数,如图6),或者使用更加友好的方法,如基于Web的计算器或应用程序,基于得分的简单评分系统或者诺莫图。
使用适合目标群体的展示方法可以将预测模型的结果从研究领域转换到临床领域,并进行临床实践。
如果预测模型的目的是指导临床决策,则可以选择一个阈值对患者进行风险分层(即确定患者需不需要进行治疗)。如果给予治疗,则应根据受益和受害的可能性和严重性来确定该阈值。决策曲线可用于评估与不同治疗阈值相关的净收益。
最后,应根据TRIPOD声明来报告预测模型的开发和验证。
10. 影响评估
预测模型可以作为辅助性工具或是指导性工具用于临床实践。
若作为辅助性工具,允许临床医生根据他们的临床判断和偏好将预测模型整合到临床实践和患者管理中。
若作为指导性工具,预测模型需提供确定诊断或制定治疗决策的阈值。预测模型的指导性应用实例包括房颤抗凝的CHADS2VASC评分和心血管疾病一级预防的Framingham风险评分。
需要注意是,将预测模型引入临床实践可能并不总是带来临床益处,还可能会对某些患者造成伤害。
10.1 影响评估的研究设计
影响研究可以提供预测工具对患者预后的总体效果的信息。在影响研究中,实验组患者使用预测模型,对照组患者不使用预测模型,将两者的患者预后结果进行比较。
分组随机对照试验是首选的研究设计,临床医生或医院的分组被随机分配为使用/不使用预测模型,但是也可以使用其他设计,例如前后研究或阶梯式楔形设计。一般而言,预测模型将更多地提高医生对高危患者识别的特异性,因为他们会通过进一步地检查和治疗来减少误认为是高危患者的数量。
在本研究示例中,可能出现这样一种情况:住院医师决定使用预测模型来识别要从ICU早期出院的患者。一部分早期出院的低危患者可能会出现并发症,这些并发症本来可以在ICU内得到更好的处理,而其他标记为高风险的患者可能会不必要地留在ICU中。影响研究将提供预测模型的使用所带来的好处,坏处以及使用成本等信息。
10.2 评估预测模型的证据强度
不幸的是,预测模型开发的数量远远超过了影响研究的数量。在将新的预测模型纳入临床实践之前,临床医生必须评估证据的强度和预测模型的有效性。
Reilly和Evans确定了预测模型及其对临床实践影响的证据的5个水平:
推导预测模型; 预测模型狭义验证(有1个前瞻性研究); 预测模型广泛验证(各种临床环境下); 用作决策的预测模型的狭义影响分析(在1种环境中); 用作决策的预测模型的广泛影响分析(各种环境和患者中)。
根据此分类方案,本研究的预测模型已达到1级(预测模型的推导),目前还不能在临床实践中使用。
11. 结论
随着临床和生物学数据可用性的提高,预测模型可以在临床实践中发挥越来越重要的作用,包括疾病严重程度分层以及疾病风险和预后评估。
本研究描述的7个步骤概述了构建预测模型的过程,从模型开发到模型验证和影响评估。在收集和处理数据时要格外小心,确保使用准确的变量创建精确的预测模型。
可以采用各种策略来筛选预测变量,例如逐步变量选择和正则回归。
建立预测模型后,需要仔细评估预测模型的性能,以确保模型具有良好的区分度和校准度。内部验证和外部验证对模型稳定性和对新人群的推广具有重要意义。
预测模型也可以以各种不同的方式呈现来实现临床应用。
最后,应根据TRIPOD声明中的建议报告预测模型的开发和验证,并应彻底评估新的预测工具对临床实践和结局的影响。