临床预测模型:TRIPOD报告规范解读(上)

摘要:临床预测模型开发和验证过程的完整报告对于模型外部验证及临床应用至关重要。《个体预后或诊断的多变量预测模型透明报告》(Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis,TRIPOD)为规范化预测模型的报告过程及报告质量评价提供了指导。本文将采用例解的形式对TRIPOD报告规范各条目进行详细解读,便于临床预测模型领域的研究者更好地掌握及应用该报告规范,进而提高预测模型的报告质量。

预测疾病状态(诊断)或未来疾病进程(预后)的发生概率对开展个体化的精准诊疗尤为重要,临床预测模型的应用是促成临床研究转化为临床实践的有力途径。本系列前几篇文章中讨论了模型开发和验证中的注意事项,多次提到完整报告预测模型开发和验证过程对于模型外部验证及临床应用的重要性[1, 2],然而已发表的预测模型类论文的报告质量并不尽如人意。Bouwmeester等分析了6本高影响力期刊上刊载的所有预测模型研究,结果显示模型各方面信息的描述并不充份,报告规范性较为欠缺,严重影响了模型的可用性[3]。基于此,专家协作组于2015年公布了《个体预后或诊断的多变量预测模型透明报告》(Transparent Reporting of a Multivariable Prediction Model for Individual Prognosis or Diagnosis,TRIPOD),用以规范预测模型的报告过程[4];随后为进一步提高报告质量评价的客观性及一致性,于2019年公布了TRIPOD报告规范依从性评判标准,此标准也可作为提高研究报告准确性和完整性的指导文件[5]。

本文将结合TRIPOD报告规范依从性标准,以《开发和验证估计未来心血管疾病风险的QRISK3风险预测算法:前瞻性队列研究》 (Development and validation of QRISK3 risk prediction algorithms to estimate future risk of cardiovascular disease: prospective cohort study)[6]为例,采用例解的形式逐一对照及解读TRIPOD报告规范各条目,促进该规范的应用,进而提高预测模型的报告质量。

一、TRIPOD报告规范概述

从2011年开始,由统计学专家、流行病学专家等多学科团队组建的专家协作组通过文献检索及专家小组会议的形式,制定了专用于多变量预测模型开发或验证的TRIPOD报告规范,并于2015年1月在多本国际知名期刊上同时刊出[4],并配发了相应的说明和详述文件[7],为预测模型类文章提供了报告框架。TRIPOD报告规范包括标题和摘要、前言、方法、结果、讨论和其他信息 6 个部分,共 22个条目,适用于模型开发、验证、增量值等研究类别。国内学者也对TRIPOD进行了引入和介绍[8, 9],在TRIPOD 官方网站(https://www.tripod-statement.org/)中也提供了由中国学者制作的中文翻译版供研究者使用,本文作者也参与了这一官方翻译版本的修订工作。为促进TRIPOD报告规范应用的定量评价及评价结果的可比性,TRIPOD专家协作组发布了TRIPOD报告规范依从的系统性评价标准[5],针对规范中每一条目制定了相应的信息报告要求,以促进并确保在未来研究中衡量对TRIPOD依从的一致性。

二、TRIPOD报告规范条目解读

1 题目和摘要

1.1 题目

条目1:应明确研究为预测模型建立研究还是验证研究,研究目标人群和预测的结局指标。[D;V]

根据TRIPOD报告规范依从性标准[5],文章标题中应明确描述以下4方面信息:①根据研究类型,标注开发、验证、增量值等字样;②明确文章为预测模型类研究,需包含预测、预后、风险评分等字样;③明确研究目标人群;④注明主要预测结局。

例文的标题为《开发和验证未来心血管疾病风险的QRISK3风险预测算法:前瞻性队列研究》,“开发和验证”点明了本研究同时包括模型开发及验证,“风险预测算法”帮助读者快速确认这是一篇临床预测模型类文章,“心血管疾病风险”显示预测结局为发生心血管疾病。作者并未在标题中表明研究的目标人群,根据正文内容可知其目标人群为初级保健患者,无其他特殊限定,因此在标题中未单独列出该信息。整体而言,该例文标题基本涵盖了关键要素,可以借鉴参照。但若研究人群为罹患某一疾病或具备某一特征的人群,则应在标题中体现,能进一步反映出模型的适用范围和研究的临床价值。

1.2 摘要

条目2:概述研究目标、研究设计、研究设定、研究对象、样本量、预测因子,结局指标,统计分析方法,结果和结论。[D;V]

摘要是读者快速掌握文章主题及判断是否值得阅读全文的关键所在。为此TRIPOD协作组特别开发了《TRIPOD摘要》(TRIPOD for Abstracts)作为论文及会议摘要的报告规范,将于2020年正式发布。TRIPOD报告规范依从性标准对摘要报告要求比较严格[5]:摘要应为结构式,利用有限的字数传达足量信息,需简明清晰地描述条目中提到的每个要素,应注意的一是预测因子的描述,若预测因子数量较多难以全部列出,宽泛描述即可,如“患者疾病史及体检指标”;二是模型性能指标的描述,若研究同时包括模型建立及验证,应分别报告模型的性能指标。

例文在“目标”中写明本研究目的是开发和验证预测十年心血管疾病发病风险的模型;在“设计”中指出研究为前瞻性队列研究;“设定”指代的是研究场所或数据来源,写明利用的是英国QResarch数据库中的初级保健数据;“研究对象”中描述了研究对象的特点及建模、验模样本量;在“方法”中逐一列出预测因子,写明主要统计方法为Cox比例风险模型;预测结局指标、结果和结论也在摘要部分“主要结局指标”、“结果”及“结论”中得到详细阐述。条目2中的关键要素均能在例文中找到对应内容,例文的摘要结构化程度高,符合报告规范。

2 前言

条目3a:阐述研究的医学背景(包括是诊断还是预后)以及建立或验证多因素预测模型的理由,包括对现有模型的引用与参考。[D;V]

在预测模型类论文的前言中,除各类研究均需充分描述的研究现状、必要性等内容外,还需列出现有模型并给出验证、更新或开发新模型的原因。

在例文中,作者介绍了已经迭代形成了两个版本(QRISK1、QRISK2)的十年心血管疾病发病风险预测模型,QRISK2在指南中得到广泛推荐,然而QRISK2可能无法完全覆盖增加心血管疾病风险的诸多疾病,导致相关患者组的发病风险被低估。同时强调了最新研究中发现的与预测结局相关联的新指标尚未在模型中体现,进而引出本研究的科学问题,即需要开发新的模型。例文研究问题的引出逐步推进,逻辑分明,并且对模型的原理和潜在用途进行了清晰描述,符合报告标准。但对于纳入本次研究中的新指标描述过于简略,可对现有模型中拟增加的新指标进行进一步详细描述,以反映增加新指标的重要意义。

条目3b:详细说明研究目标,包括研究是建立模型还是验证模型,还是两者都有。[D;V]
研究目标是研究中要解决的特定目标或研究问题[10],本条目要求描述研究预测的目的,预测的结局及模型适用的人群,还应说明本研究是模型开发还是模型验证,或两者都有。

例文在前言背景描述中已充分说明需要构建新预测模型的必要性及重要性,随后在前言最后一句提出本研究的目的,即“开发并验证新版预测模型QRISK3,……,以改进某些患者组的心血管疾病风险预测。”

3 研究方法

3.1 数据来源

条目4a:描述研究设计或数据来源(如随机试验、队列研究或注册研究数据等),并分别描述建立或验证模型的数据集。[D;V]

预测模型类论文中要求应明确报告研究设计类型或数据来源。预测模型包括诊断模型和预后模型,对研究设计要求不同。诊断模型的预测因子与结局变量是在同一时点或很短时间窗内测量,可利用横断面研究数据;预后模型的预测因子与结局存在因果关系,可利用队列研究、随机试验、巢式病例对照等研究数据[1]。

在例文的研究方法中标明数据来自第41版的QResearch数据库,为初级保健日常诊疗数据。在建模过程中随机抽取3/4样本量作为建模数据,其余1/4作为验模数据,所以建模数据与验模数据来源一致。例文在该条目上的报告较为完整,对于验模数据来源不同于建模数据的研究,应注意还需报告验模数据的来源。

条目4b:详细描述关键研究日期,包括数据收集的开始时间、结束时间,如果适用还应有随访结束时间。[D;V]

预测模型类论文需详实描述数据收集(患者招募)的起始和结束时间,以及随访结束时间三个重要时间节点。诊断模型不涉及随访时间,预后模型需给出随访时长的计算方法和预测的时间范围。

例文中的三个时间节点非常明确,数据起止是从1998年1月1日至2015年12月31日,随访截止日期为2015年12月31日。随访时间定义为“直到确诊心血管疾病,死亡,在家庭医生处注销,最后一次上传数据或研究结束日期,即2015年12月31日”。文中指出,随访长度为15年,则预测时长不超过15年,QRISK3关注的是十年内心血管疾病发生风险。例文对于研究时间相关信息的报告很是全面,这些描述对于了解研究所处的时代背景、评价模型的可推广性是关键且必须的。

3.2 研究对象

条目5a:详细说明研究设定的关键信息(如初级医疗机构、二级医疗机构或普通人群),包括研究中心的数量和位置。[D;V]

预测模型很难直接在不同类型的临床场所中互通应用,研究设定的详细描述能便于判断模型的应用范围。在报告研究对象时,应报告研究中心信息,以及研究中心的数目和地理位置,这些特征决定了预测模型应用的目标人群[5]。

例文中写明利用的是QResearch数据库(www.qresearch.org),这是一个包括英国1500余所初级保健机构中2500万余人数据的大型医学研究数据库。由此可知该研究开发的QRISK3模型主要适用于初级保健机构中的人群,不能直接在二级医疗机构或急诊等场景中推广应用。例文虽未直接写明研究设定的详实内容,但能从提供的信息中推断出研究设定的关键信息也是可行的。

条目5b:描述研究对象的纳入标准。[D;V]

研究对象的描述除了报告其来源外,还需详实描述研究对象的纳入和排除标准。纳入标准是否合理会影响研究对象的纳入过程及模型的预测准确度,对模型的验证及应用也会造成困难。TRIPOD报告规范依从性标准指出,研究对象的纳入标准不应只在流程图中简略说明,而需作为单独的内容呈现[5]。

例文在研究方法中写明研究对象为25~84岁的人群,同时描述了将已存在心血管疾病或服用他汀类药物作为排除标准。例文关于该条目的描述是全面的,但如果研究中存在由于缺少数据而排除一些符合条件的参与者时,也应在文章中明确报告[7]。

条目5c:如相关,详述研究对象接收干预治疗的具体细节。[D;V]

对于预后模型,还应详细描述基线或随访期间所接受的治疗干预措施,因为这些干预措施可能会改变结局的发生,从而影响预测模型的准确性[7]。

例文中纳入的是初级保健人群,这类人群以疾病预防为主,可认为干预治疗与本研究相关性不大,故未描述研究对象接受干预治疗的具体内容。但若为二级医疗机构就诊的患者或源于随机对照试验的数据,则应详实描述其在研究期间所接受的干预措施。

3.3 结局指标

条目6a:清晰定义预测模型所要预测的结局指标,包括如何以及何时进行评估。[D;V]

结局指标报告重点在于三方面:①结局应明确定义,且需声明和引用该定义的权威出处;②结局的组成部分及其测量方法需清晰描述;③各指标测量时间及频率应有注明[5]。

在例文“结局”部分表明结局是发生心血管疾病,指出是“利用Read代码在就诊记录中确定心血管疾病病例”,病例诊断中出现有关心血管疾病的国际疾病分类编码则认定发生结局事件,死亡信息来源于Qresearch数据库链接的国家统计局数据。对于结局指标的评估时点,例文中写道“使用三个数据来源中任何一个的最早的心血管疾病记录日期作为结局日期。”QRISK3的开发是对Qresearch数据的二次分析,数据来源是日常诊疗数据,没有针对特定结局对患者进行有计划的随访。如果模型开发数据来自队列研究,最好能详细列出随访的时间和频率,使读者了解该结局指标是否在临床实践领域是准确且可重现的[11]。

条目6b:报告对预测结局指标盲法评价的所有细节。[D;V]

施行盲法的目的是防止结局判定过程中的偏倚,文章中应报告结局测评的盲法控制,虽然不是每项研究都适用盲法,但如果实施了盲法则需说明具体的实施策略[5]。

例文中没有对结局判定是否使用盲法进行描述。对于定义明确且不会受到主观影响的结局指标,例如结局指标为全因死亡,可以不用特意需描述盲法的策略,但如果结局指标判断容易受到预测因子或主观倾向影响,尤其是诊断模型的结局指标,则需报告盲法实施的策略。

3.4 预测因素

条目7a:清晰定义建立或验证多因素预测模型所使用的所有预测因素,包括如何以及何时测量。[D;V]

研究者需对所有预测变量进行充分定义,根据变量类型提供度量单位或分类类别,同时清晰描述各变量测量的方法及时间。需注意的是,对于模型开发研究,所有预测因素是指所有可能进入最终预测模型中的变量,即所有备选变量,而不仅仅是最终模型中包含的变量;而对于模型验证研究,所有预测因子则是指被评估模型中所包含的变量[5]。

例文“预测变量”中标明本次预测模型中拟纳入的变量包括QRISK2中已有的风险因素及文献中证实的新的潜在预测因素,也分别描述了各变量的提取过程及操作性定义,这些信息均可以在“文本框1:QRISK算法中用到变量”中找到。对预测因素的详实表述有助于读者复现研究过程,进一步应用或验证该预测模型。

条目7b:报告对预测因素指标盲法评价的任何细节。[D;V]

与条目6b相对应,如果预测因素的测量涉及研究对象或研究者的主观判断或评估,应采用盲法进行测量或评价,有效避免信息偏倚。预测因素的盲法报告需考虑两方面,一是预测因素与结局指标之间互盲,否则会人为增加预测因素与结局间的关联,二是预测因素之间也应避免可能出现主观判定的情况[5]。

例文中直接描述了预测因素的提取过程,由于列出的预测因素均是客观测评指标,且结局的判定发生在预测因素的测量之后,能保证预测因素的测量是盲于结局变量的。但例文未描述预测因素之间在收集过程中是否做到了盲法,如果能补充这部分信息则更完善。

3.5 样本量

条目8:解释研究样本量是如何确定的。[D;V]

在预测模型的研究中必须说明样本量是如何确定的,样本数量能体现出预测变量与结局之间的关联是否稳固、预测模型拟合是否合适、模型是否存在潜在过度拟合[12]。根据报告规范要求,文章中应说明样本量是如何确定的,是基于统计方法,还是基于现实考虑(比如使用现有数据)。

例文中写明采用的是现有的Qresearch数据库,模型开发样本量为789万例、验证样本量为267万例。这是基于现有数据确定的样本量,在数据集较大的情况下是可行的。对于样本量较小的回顾性研究,或者前瞻性数据的研究,则需提供规范的样本量计算的考量。

3.6 缺失数据

条目9:描述缺失数据的处理方法(如仅分析完整数据、单一插补和多重插补等),并详细说明插补方法。[D;V]

在研究者尽可能完善数据质量的前提下,临床研究仍易出现变量信息缺失。缺失数据对于研究结果的影响不容忽略,然而对缺失数据不恰当的处理方法将会引入更多偏倚[13]。研究者需明确报告本研究分析的数据是否存在缺失,若存在缺失应详细描述缺失数据的处理方法,包括具体插补的变量及插补次数[5]。

在例文“方法”部分“模型开发和验证”中,写明本研究预测因素存在缺失,通过多重插补来进行处理;插补次数为5次,插补模型中包括所有预测因素以及结局变量;在插补完成后,对插补数据的分析结果,根据Rubin规则进行合并。数据缺失在研究中难以避免,清晰透明地描述缺失数据的处理方法至关重要,方法的选择会影响研究结果及研究的可重复性。

3.7 统计分析方法

条目10a:描述预测因素在分析中是如何处理的。[D]

研究者需明确描述每个预测因素的处理方法,包括将连续变量转换为分类变量时的切点值界定方法,原始数据的转换方法,以及预测因素与结局之间的线性或非线性关系[5]。若模型为非线性回归模型,应报告采用的方法,如多项式回归或限制性立方样条;若为线性回归模型,建议报告预测因素与结局指标呈线性关系的假设[7]。

在例文数据处理部分,写明本研究采用多项式回归处理连续变量与结局的非线性关系。由于在该研究中一部分预测因素是已建成的QRISK2模型中的已有的因素,故未对这些因素的处理方法进行详细描述,对于拟增加的新变量也缺乏描述,若能补充这些信息,则报告更为完整。

条目10b:详细说明模型类型,建模过程(包括预测因素的选择)和内部验证方法。[D]

研究者需明确报告预测模型开发时所用的所有统计方法,应至少包括:①统计模型类型,如logistic模型、Cox模型等;②备选预测因素的选定:指在建模前所有潜在预测变量是通过什么方式选定的;③进入模型预测因素的筛选方法:指在建模中进入最终回归模型中的预测因素的筛选过程,如单因素分析、逐步回归等;④交互项的处理;⑤比例风险假设(对于Cox模型);⑥内部验证方法,如重抽样、交叉验证等。

在例文统计部分,作者介绍了QRISK 3模型是基于Cox模型建立的,备选预测因素来源于QRISK2模型中的变量及文献中论证的新的预测变量,预测因素效应量和显著性被用来作为模型中预测因素筛选的标准,考虑了年龄的交互项,利用随机拆分进行的内部验证。例文统计学方法方面报告较为完整,但未对Cox模型的比例风险假设进行检验。目前大多数模型在该条目上报告不足,研究者需注重统计学方法报告的完整,逐一描述各要点[14]。

条目10c:描述模型验证中预测值的计算方法。[V]
预测模型验证的论文中应准确描述个体结局发生概率预测值的计算方式,包括但不限于直接使用被评估预测模型公式或简化评分规则或列线图等[5]。

例文同时包括模型开发与验证,在模型开发中拟形成纳入不同类型预测因素的三种模型,并介绍了会采用每个变量的回归系数作为权重形成风险预测方程,在模型验证阶段会采用同样的方法计算预测值,故在模型验证阶段中未重复描述。若在一项模型开发研究中提出了多个模型或同一模型的多个表示形式,那进行模型验证的研究者应清晰描述本次评估验证的模型全部信息。

条目10d:详述评估模型预测效果(或比较不同预测模型)的所有方法。[D;V]

模型预测的性能评价主要包括区分度和校准度,所有预测模型均应报告这两者,也可增加R2、灵敏度、特异度、决策曲线等多维度反映模型性能,若要评价引入新预测因子后的预测效能增加值,也可使用综合区分改善度(IDI)及净重分类改善度(NRI)等指标[5]。

在例文中介绍了QRISK3模型开发与验证过程中均采用D统计量、C统计量评价模型的区分度,比较模型预测概率与实际发生率的差异评价模型的校准度,同时计算了净重分类改善度。区分度差、校准不良的模型会降低模型的临床实用性,甚至在某些情境下影响有效临床决策[15],因此必须报告模型的性能指标作为模型使用者的参考。

条目10e:如果有,描述验证模型后进行的任何模型的更新(如再校准等)。[V]

当在其他个体中验证或应用现有预测模型时,预测性能通常会变差,此时可考虑进行模型更新。在模型验证的论文中,若存在模型更新应详细描述更新的方法,如重新校准截距或回归系数、添加新的预测因子等。

例文是模型开发类研究,不是对QRISK2模型的验证和更新,故未提及该项内容。

3.8 风险分层

条目11:如果进行了风险分层,提供如何建立风险分层的细节。[D;V]

预测模型一般获得的是绝对风险值,即结局事件发生的概率,并不能直接指导临床决策,根据发生概率将研究对象划分为不同风险等级有助于临床实践[16]。风险分层的建立方法及划分的层数要求虽尚无明确共识,但若研究进行了风险分层,作者应详细描述风险分层的具体细节,包括风险阈值的界定、层数等信息;研究同时包括开发和验证时则应分别描述[7]。

例文中,作者依据NICE指南设定10年心血管疾病发病风险阈值为10%,将人群划分为2类,10年发病概率<10%的为低风险组,≥10%为高风险组,该分层方式被同时用于QRISK 3模型的开发与验证中。这些信息的报告能帮助读者全面了解模型的临床实用性。

3.9 建立与验证的比较

条目12:识别建模数据集与验模数据集在研究设定、纳入标准、结局指标和预测因素上的任何差异。[V]

模型验证是评价模型可推广性及可移植性的重要过程[13]。无论是内部验证还是外部验证,作者必须清楚地报告验证数据集的研究设定、研究对象的纳入标准、结局指标与预测因素的定义、测评方法及编码方法,且这些内容是否与建模数据库存在差异,应明确强调任何差异以及差异的处理方法[5]。

在例文中,作者将所有研究样本随机分为建模与验模数据集,由于两者数据集来源于同一整体,其研究设定、纳入标准、结局指标和预测因素的内容是一致的,这样的描述能让读者了解两组数据集的相似性。但对于不同空间、时间外部验证的数据集,作者需描述建模与验模数据集的差异,为模型结果的解读及适用范围提供信息。

以上内容为本文上篇,TRIPOD其余条目例解将在本文下篇中继续介绍。

参考文献

[1] 谷鸿秋,王俊峰,章仲恒,等. 临床预测模型:模型的建立[J]. 中国循证心血管医学杂志, 2019, 11(01): 14-16.
[2] 王俊峰,章仲恒,周支瑞,等. 临床预测模型:模型的验证[J]. 中国循证心血管医学杂志, 2019, 11(02): 141-144.

[16] Altman D G. Prognostic models: a methodological framework and review of models for breast cancer[J]. Cancer Invest, 2009, 27(3): 235-243.

(0)

相关推荐