临床预测模型:TRIPOD报告规范解读(下)
摘要:临床预测模型开发和验证过程的完整报告对于模型外部验证及临床应用至关重要。《个体预后或诊断的多变量预测模型透明报告》(Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis,TRIPOD)为规范化预测模型的报告过程及报告质量评价提供了指导。本文将采用例解的形式对TRIPOD报告规范各条目进行详细解读,便于临床预测模型领域的研究者更好地掌握及应用该报告规范,进而提高预测模型的报告质量。
《个体预后或诊断的多变量预测模型透明报告》(Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis,TRIPOD)作为规范预测模型报告过程的标准报告规范,含标题和摘要、前言、方法、结果、讨论和其他信息 6 个部分共 22个条目[1],在本文上篇中,作者以心血管疾病预测模型QRISK3为例,详解了TRIPOD报告规范中标题和摘要、前言、方法3部分内容,下篇主要围绕结果、讨论和其他信息3部分共10 个条目继续进行例解。
一、TRIPOD报告规范条目解读
1 结果
1.1 研究对象
条目13a:描述研究对象纳入研究的过程,包括有结局或无结局的研究对象数量以及随访情况(如果适用),建议制作流程图。[D;V]
了解研究对象纳入研究的过程便于读者判断模型适用的人群及范围。依据TRIPOD报告规范依从性标准,作者需报告从更大的初始群体中选定研究对象的过程,研究对象发生或未发生结局的例数(不适用于结局为连续型数据),若为预后且有随访的研究还需报告随访时间等信息[2]。
在例文“结果”中报告了研究对象的基本信息,首先从Qresearch数据库筛选符合纳入标准的全部数据集,再进一步排除“缺少居住信息”、“已诊断为心血管疾病”及“服用他汀类药物”的研究对象,最后形成用于模型开发及验证的数据集;然后在“心血管疾病发生率”这一小节和“表2”中报告了建模数据中的结局发生数据;最后报告了随访信息,即“建模数据集中位随访时间为4.4年,2 141 841例的随访时间为10年或以上;验模数据集中位随访时间为4.4年,728704例的随访时间为10年或以上。”例文在该条目的报告上还可以继续完善,一是可考虑采用流程图的形式展示研究对象纳入过程,更能清晰直观地反映整个研究流程;二是验模数据集结局发生数据也应报告。
条目13b:描述研究对象的特征(包括人口学资料、临床特征与可用的预测因素),以及缺失预测因素与结局指标的研究对象的数量。[D;V]
清晰描述研究对象基线数据基本上是所有研究性论文必须报告的内容之一。预测模型类研究要求描述一般人口统计学数据、所有预测因素、缺失预测因素的研究对象数量及缺失结局数据研究对象的数量[2]。
例文在“表1”中展示了研究对象年龄、性别、种族、疾病特征等数据,同时展示了体质量指数、收缩压、血胆固醇等6个指标记录完整性的数据;在“表2”中展示了结局数据,虽未在正文中体现结局指标缺失的信息,但作者强调了“在附录表3中展示了家庭医生诊疗数据中记录的发生了结局的研究对象数量及百分比”。例文的报告相对全面,如果仅单个或几个变量缺少观察结果,也可将相关信息作为表下方的备注内容,或总结为文本在结果中描述即可。
条目13c:比较模型验证数据集与模型开发数据集在重要变量上的分布差异,如人口学资料、预测因素和结局指标等。[V]
依据TRIPOD报告规范依从性标准,涵盖模型验证的研究需同时报告参与模型建立与模型验证研究对象的基线特征、预测因素及结局指标的分布情况,用于判断模型验证或应用的人群特征,但对于仅在新拟合模型中增加预测因素、不修订原始模型的增量研究中,则不适用[2]。
例文中,“表1”展示了建模、验模研究对象的基线特征,并且说明了建模与验模不同性别的基线特征值是类似的。一项系统综述的结果显示在78项外部验证的研究中,仅40%研究比较了建模与验模研究对象的基线特征[3],因此还需提高报告该条目的意识。
1.2 模型建立
条目14a:明确每个分析中的研究对象和结局事件的数量。[D]
预测模型类研究中的有效样本量是最后用于统计分析的样本量,研究对象结局发生数量与纳入模型的预测变量数量会直接影响模型的拟合。作者应全面描述每个模型开发中所涉及的研究对象数量及结局事件发生数量,若结局指标为连续型数据则不适用[2]。
在例文中报告了建模数据集为7, 889, 803例,结局发生数量为363,565例,但例文中构建了三个预测模型,不同模型利用的是否为同一组数据尚不清楚,作者有责任向读者说明每个模型建立所用数据集的具体信息。
条目14b:可报告每个候选预测因素与结局指标的未校正的关联程度。[D]
单因素分析能为了解某一因素从未校正到校正分析后其对结局预测能力的变化差异提供信息,若研究方法中提出要进行单因素分析,则结果中应报告每一变量的效应值;若存在缺失数据,还应报告每个单因素分析中所包括的研究对象数量[4]。
QRISK 3模型在开发过程中未进行单因素分析,在结果中呈现的也是校正后的变量数据。单变量分析只是可选项,并不是必选项,可由研究者根据研究设计自行设定。
1.3 模型详述
条目15a:提供可对个体进行预测的完整预测模型(如所有的回归系数、模型截距或既定时间点的基线生存率等)。[D]
预测模型应提供足够详细的信息,以便开展模型验证或应用实践,实现对个体或群体的预测。对于二分类logistic回归模型,需报告模型中每个预测因素的回归系数或比值比及其置信区间,以及模型截距项;对于基于Cox回归的模型,需逐一报告模型中各因素的回归系数、风险比及其置信区间,为评估个体在特定时间点结局发生概率,还应报告该时间点的基线累积风险;对于其余模型构建方法,均需报告效应值或相应的参数。
在例文“表3”、“表4”中,作者提供了QRISK 3 模型中预测因素的风险比及其置信区间,但由于未提供10年基础生存概率,读者缺乏相应公式用以计算某个体结局事件发生的概率,易导致模型的外部验证受限。目前诸多研究均未完整显示最终模型,也未提供至少一个时间点的基线累积风险[5],这些信息还需进一步加强阐明。
条目15b:解释如何使用预测模型。[D]
为促进预测模型的临床可用性和可解释性,研究者常将发生概率公式转化为简化评分规则、列线图或在线计算器等展示形式易于临床应用[6],作者需详实报告该预测模型的具体使用方法,让其他使用者能直接进行验证或实践。
在例文中,作者提供了在线计算工具,可以满足模型使用者单次的模型应用,但不利于使用者在模型验证中进行批量计算,因此建议提供完整的预测公式。
1.4 模型效能
条目16:报告预测模型的预测效果参数(及其可信区间)。[D;V]
与条目10d相对应,在方法中描述的区分度、校准度及其他模型性能指标均应在结果中报告。研究中若开发或验证了多个模型,每个模型的性能指标都应报告[2]。
在例文“表5”中,作者分别报告了将三个模型用于不同性别人群中的性能指标,区分度中的D统计量在2.26-2.49之间、C统计量在0.858-0.880之间,平均预测风险与观察到的风险之间存在密切的对应关系反映出模型具有较好的校准度,同时研究还报告了R2及净重分类改善度,结果中报告的指标与方法中的内容能完全对应。例文在该条目上报告得相对完整,但忽略了在建模数据库中应用的性能指标,最好同时报告建模及验模的性能指标便于让读者了解不同阶段模型的效果评价。
1.5 模型更新
条目17:如果有更新,报告模型的更新结果(即更新后的模型参数和模型预测效果)。[V]
与条目10e相对应,若在模型验证研究进行了模型更新,则应详细报告模型更新的方法,更新后模型中各预测因素的回归系数、截距或基线累积风险以及模型的区分度及校准度等参数信息[2]。
例文是重新构建了新的模型QRISK 3,属于模型开发类研究,故未描述该项内容。更新后的模型与原先的模型相异,故应提供更新模型的全部信息,以使读者能在进行模型验证或实践。
2 讨论
2.1 局限性
条目18:讨论研究的局限性(如非代表性样本、预测结局指标平均事件不足、缺失数据等)。[D;V]
研究中难以避免存在局限,研究设计、研究方法等原因都可能造成研究局限。依据TRIPOD报告规范依从性标准,作者应在讨论中清楚说明本研究存在的任何局限性[2],阐明局限是否会对模型开发或验证造成影响,是否会影响模型的可信性,适用性和可推广性。
在例文“讨论”部分指出本研究的局限性在于缺乏正式的疾病诊断、存在信息偏倚及数据缺失导致的潜在偏倚,同时作者也解释了研究采用的数据库相对全面,预测变量、结局指标的记录较为完整,能将偏倚影响降至最低。局限性的报告表明作者对所研究的主题极其了解,已充分考量过研究的不足之处更易让读者判断[4]。
2.2 解释
条目19a:讨论模型在模型验证数据集与模型开发数据集或与任何其他模型验证数据集中的预测效果的对比。[V]
对于模型验证的研究,应明确描述验证的模型与原先开发的模型之间的一致性或差异性,当验证的模型显示出(与模型开发时或其他验证研究中)不同的预测效果时还需分析可能的原因。
例文在“讨论”中写明将开发的模型应用于验证数据集时,模型也显示出较好的区分度和校准度,故未展开具体讨论。但若出现在验证数据集中模型的性能指标较差时,需详细探讨其原因及改善策略、提升模型适用性。
条目19b:结合研究目的、局限性、其他相似研究的结果和其他相关证据,对研究结果进行整体解释。[D;V]
对研究结果中展开全面的解释及讨论,需同既往研究结果进行比较分析,尤其是与作用于同一人群同一结局指标的不同预测模型的比较,进一步探讨本研究开发或验证的模型的优劣势。
例文在“讨论”部分详解了QRISK3模型中新增预测因素与既往研究对比的效应值数据及新增因素的临床价值,同时还分析了QRISK 3模型预测性能优于QRISK 2模型的可能原因。例文在该条目上的报告是合适的,TRIPOD报告规范并未对讨论的深入程度作出限定,重点强调需结合研究目的、局限性等进行全面的分析。
2.3 意义
条目20:讨论模型的潜在临床应用和对未来研究的启示。[D;V]
预测模型有助于临床诊疗决策、患者预后管理及卫生资源配置,其应用价值可能不仅在于临床实践,也可以是理论上的革新。作者有必要报告本研究中预测模型的潜在应用场景及应用条件,并结合当前研究的局限性、不足之处提出对未来研究的启示[2]。
在例文中,作者在“讨论”部分提出本次验证使用的数据集虽独立于模型开发所用的数据集,但两者来源于同一数据库中的实践记录,还需要进行更严格的外部验证。阐明潜在用途及未来研究方向能推进该模型在专业领域中的应用及促进该主题的深入研究。
3其他信息
3.1 补充信息
条目21:提供补充资料和信息,如研究方案、网页计算器和数据集。[D;V]
作者应提供足够详细的信息以便读者能直接验证或应用该模型,包括研究方案、网页计算器和数据集等补充材料。如果预测模型过于复杂难以完整报告或需要不断进行模型更新,则还需提供能计算预测概率的可访问的源代码。
在例文中,作者表明已经在QRISK网站(www.qrisk.org)上发布了源代码,并且提供了简易的在线计算器供使用者计算发病概率。若有相关补充材料可考虑提供,但并非强制要求。
3.2 资助
条目22:提供研究资金来源和资助方在本研究中的角色。[D;V]
研究资金来源和资助方角色能一定程度上反映研究中是否存在潜在利益冲突,作者应披露本研究所获得的所有资金来源,并说明资助者在研究过程中所起的作用,或明确说明未得到任何外部资助。
例文在“基金”部分注明本研究未得到外部资金支持,意味着可能不存在财务和其他利益冲突。虽然例文在该条目上的报告比较明确,但有研究显示仅27%的论文完整报告了资金信息[5],该条目还需得到充分报告。
二、结语
目前多个预测模型报告质量评价的研究中均显示报告的完整性较差[5, 7],遵循TRIPOD报告规范及依从性标准进行报告能有效改善预测模型的报告质量。TRIPOD报告规范作为研究报告指南,关注的是研究报告的完整性,并未具体描述如何进行预测模型的开发或验证,因此,不能用于指导研究设计、实施,也不能用于评价研究方法。对于预测模型方法学质量和偏倚风险的评价工具PROBAST将会在本系列文章中的下一篇中进行介绍和详解。
清楚报告模型开发或验证的关键细节便于其他研究人员对所有信息进行综合和严格评估,但TRIPOD专家协作组并不建议采用统一的报告结构,作者可不局限于TRIPOD报告规范的格式和顺序,按照自身研究特点合理叙述,体现出各要点内容即可。期刊编辑部可考虑将TRIPOD报告规范引入投稿要求,促进高质量研究报告的撰写。
参考文献
[1] Collins G S,Reitsma J B,Altman D G,et al. Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD): the TRIPOD statement[J]. BMJ, 2015, 350: g7594.
[2] Heus P,Damen J,Pajouheshnia R,et al. Uniformity in measuring adherence to reporting guidelines: the example of TRIPOD for assessing completeness of reporting of prediction model studies[J]. BMJ Open, 2019, 9(4): e25611.
…
[7] Sharabiani M,Clementel E,Andratschke N,et al. Generalizability assessment of head and neck cancer NTCP models based on the TRIPOD criteria[J]. Radiother Oncol, 2020, 146: 143-150.