图1-1 临床预测模型构建与评价流程图(一)临床问题确立与研究类型选择临床预测模型可回答疾病的病因、诊断、患者对治疗反应或预后相关问题,不同问题需采用不同的研究设计类型。例如,对于病因研究类问题,可以采用队列研究设计,根据潜在病因预测是否发生疾病;对于诊断准确性类问题,其预测因子与结局均在同一时点或很短的时间内,适合采用横断面研究设计;预测患者对治疗的反应可采用队列研究设计或者随机对照试验(randomized control trial,RCT);对于预后类问题,其预测因子与结局有纵向的时间逻辑,适合采用队列研究设计。评估病因的队列研究需要合理选择研究对象并控制混杂;诊断模型研究中,需要有“金标准”即参考标准来独立诊断疾病,且参考标准的诊断最好在盲法状态下进行,即参考标准的诊断不能借助预测模型中的预测因子信息,以避免诊断评估偏倚(diagnostic review bias)。评估患者对治疗反应属于干预性研究范畴,同样需要合理选择研究对象,控制非试验因素的干扰;预后模型研究中,预测因子与结局是纵向关系,且研究者通常希望获得自然状态下疾病的转归,因此前瞻性队列研究是预后模型最佳的研究设计类型,而回顾性队列研究更常见,主要原因是回顾性数据集获取更便利。(二)设计与实施方案制订,数据收集与质控良好的研究设计与实施方案是必需的,首先需要通过文献调查以确定拟构建预测模型数量:(1)目前有关某一特定临床问题没有预测模型,构建一个新的模型,一般需要训练集建模,验证集验证模型的预测能力。(2)目前已有某一特定临床问题预测模型,再构建全新的模型,训练集构建新预测模型,同一验证集分别验证已有模型与新模型的预测能力。(3)对已有模型进行更新,在同一验证数据集中对两个模型的预测能力进行验证。关于训练数据集与验证数据集的产生,可以前瞻性收集数据也可回顾性收集数据,前瞻性收集的数据集质量更高。对于建模人群,我们希望样本量尽量大。若为前瞻性临床研究,则应从研究方案、研究者操作手册、病例报告表、伦理批件等相关文件的准备开始,并进行数据收集的质控与管理;若为回顾性收集数据,也应对数据质量进行评估,对异常值进行识别,对缺失值进行适当的处理,比如填补或者删除等。最后根据实际情况确定用于建模的训练数据集,用于验证模型的验证数据集。有时,囿于各种现实情况,我们仅能在同一个数据集中进行建模、验证,这也是允许的,但模型的外部适用性会受到一定程度影响。(三)临床预测模型建立与评价建立预测模型前,应明确已知的、既往文献报道的预测变量,确定筛选预测变量的原则及方法,确定选用数学模型的类型。通常为Logistic回归模型或Cox回归模型等参数或半参数模型。有时也会用到机器学习的一些算法用于建立模型,这类机器学习模型算法构建的模型多半是非参数的,因为没有类似回归系数一样的参数(注:有专家提出,机器学习算法可以有参数模型),所以这类非参数模型的临床解释较困难。然后拟合模型、估算模型参数。需事先确定预测模型的呈现形式,目前比较常用的预测模型的形式有4种。(1)公式:直接使用数学公式作为预测模型工具。(2)列线图Nomogram:把回归模型的回归系数经过合适的数学运算转化变为分值,并绘制为列线图作为预测模型工具。(3)网页计算器:本质也是把回归模型的回归系数经过合适的数学运算转变为分值,并制作成网页形式,在线使用。(4)评分系统:把回归模型的回归系数经过合适的数学运算转化为可量化的评分系统。第一种形式主要是针对线性回归这种确定型回归的,后几种形式均是基于参数或者半参数模型的,其统计学本质都是模型参数的直观呈现,研究者可根据实际情况作出选择。模型构建完成后,如何评估模型的优劣?模型的评价与验证体现更高的统计分析技术含量。比如,对预测模型的区分度(discrimination)、校准度(calibration)、临床效用等指标进行评估,判断预测模型的性能。(四)临床预测模型验证预测模型的效果很有可能因场景、人群的改变而变化。因此,完整的预测模型研究应包括模型的验证。验证的内容包括模型的内部效度和外部效度。内部效度体现模型的可重复性(reproducibility),利用研究项目本身的数据通过交叉验证(cross-validation)、bootstrap等验证方法来回答;外部效度体现模型的普遍性(generalizability),需利用研究项目本身以外的数据,从时间上、地理上独立或者完全独立的数据集来回答。模型内验证与外验证是判断模型的稳定性与适用性的必需步骤。内验证数据集与外验证数据集既要有异质性,又不能达到一定程度。一般用本单位数据作为训练集建模或者随机选择一部分内部数据集作为内验证,选择外单位的数据集作为外部验证数据集。当然最好是做外部数据集验证。下面给大家介绍几个内部效度验证的方法。(1)半分法:把现有的数据随机分成两部分,一部分用于建立模型,另外一部分用来验证模型。通过半分法把数据分成两部分,进行“内验证”,但由于只有一半的数据用来建立模型,模型相对不稳定。对于样本量较小的研究不适合使用。(2)交叉验证法:这种方法是半分法的进一步演化,常见的有半折交叉验证法和十折交叉验证法。半折交叉验证法即将原数据分为两部分,两部分数据相互依次作为建立模型和验证模型的数据,互相验证。十折交叉验证法即把数据分成10部分,用其中9部分数据构建模型,另外1部分做验证,这样依次做10次模型构建和验证,可得到相对稳定的模型参数。(3)Bootstrap法:常规的Bootstrap内部效度分析的做法是在原数据集中随机可放回抽样一定的病例用于建立模型,再使用原数据集进行模型的验证;如此做500~1000次随机抽样、建立模型、验证模型的工作,可以得到500~1000个模型,总结模型的参数分布情况,确定最终的模型参数值。Bootstrap法是近年来发展较快的一种方法,该方法在计算机计算量提升的背景下出现。有研究证明,该方法得到模型稳定性高于前面两种方法,可以推广应用到预测模型的内部效度分析中。当然如果条件具备,我们还是尽可能对所有的预测模型做外部验证,以提高模型应用的外部适用性。(五)评估临床预测模型的临床效用临床预测模型的最终目的在于应用临床预测模型是否改变了患者的行为、改善了患者的结局或者成本效应,这也是临床预测模型的临床效应研究。从方法学角度,一般会根据预测模型对训练集与验证集按照新的模型进行划分。比如,对于预测二分类结局,要看预测模型是否具有较好的敏感度与特异度;对于预测生存结局,一般会看是否可以根据预测模型把患者划分为预后良好和预后不良,比如通过Nomogram计算每一个研究对象的得分,按照某个截断值把患者划分为预后良好和预后不良,然后绘制Kaplan-Meier生存曲线。决策曲线分析法(decision curve analysis,DCA)也是目前用于预测模型临床效用评估的一种常用方法。从预测模型构建的最终目的与试验设计角度讲,最好的临床效用评估需要设计随机对照试验,且通常为整群随机对照试验来评估使用或者不使用预测模型是否可以改善患者预后,降低医疗成本等终极评价指标。(六)临床预测模型的更新即便是经过良好验证的临床预测模型,由于疾病危险因素、未测量的危险因素、治疗措施以及治疗背景等随时间变化,模型性能也会因此下降,即校准度漂移(calibration drift)。因此,临床预测模型需要不断进化、动态更新。比如最常使用的恶性肿瘤TNM分期系统需要经常更新,就是这个缘故。五、从临床医生的角度看目前的临床预测模型类研究分类(1)运用传统的临床特征、病理学特征、物理检查结果、实验室检查结果等构建预测模型,这一类模型中的预测变量均是临床获得较为方便的特征,可行度大。(2)随着影像组学相关研究方法的成熟,越来越多的研究者意识到,影像学的某些表现或者参数代表着某种特定的生物学特点。利用这些海量的影像学参数,不管是彩超或是CT或是MR或是PET的参数联合临床特征构建预测模型往往能进一步提高预测模型的准确度。这一类的方法的特点是需要在筛选影像组学特征的基础上建模,前期工作量较第一种方法大很多,需要影像科与临床科室密切配合。(3)随着基因组学,蛋白组学等高通量生物技术的广泛应用,临床研究者试图从这些海量的生物信息里挖掘用于构建预测模型的特征生物标志物。这类预测模型,是基础医学向临床医学转化的一个很好的切入点,但这类研究需要较好的财力物力支撑,但科研的投入与产出是成正比的。舍得投入财力做组学分析的研究如果很好地转化于临床,一般发表的文章影响因子都很高。此外,必须获得生物样本,否则这类研究就是“无本之木,无源之水”。六、从临床医生角度看临床预测模型类研究开展的必要条件(1)数据库构建是核心竞争力。构建单病种的随访数据库,尽可能完备收集患者信息,包括但不局限于人口学特征、既往史、家族史、个人史等;疾病相关的信息,如治疗前重要的物理与实验室检查结果,疾病严重程度,临床分期,病理分期,组织学分级等;疾病治疗相关信息,比如手术方式,放化疗方案,剂量与强度等;患者治疗的转归,对于肿瘤患者来讲,临床转归是需要随访获得的,而且需要持之以恒的随访,这是一项极其艰巨和复杂的工作;其他信息,如果有也应该纳入数据库,比如基因检测信息等。(2)获得必要的数据集。从既往发表的预测模型文章看,大部分基于回顾性数据集,少部分基于前瞻性数据集。这类研究相较于RCT容易开展,属于现在谈论得比较多的真实世界研究范畴。真实世界研究与RCT研究,二者应该是临床研究王冠上的两颗明珠,交相辉映。以前过分强调RCT的重要性,忽视了真实世界数据的巨大价值。RCT数据质量无疑是最高的,但这是经过严格筛选的数据,证据外推受到限制;而真实世界数据来自日常的临床实践,更能全面反映临床干预的疗效,证据具有更好的外部适用性。但真实世界研究最大的问题是数据质量参差不齐,混杂因素多,而且不易识别,因此需要使用较为复杂的统计方法从纷繁复杂的混杂因素中寻找真相。披沙拣金不易,深厚的统计学功底犹如披沙拣金的筛子。我们需要明白,混杂因素是客观存在的,因为任何临床结局的发生不可能是单因素作用的结果。校正混杂因素有两个层面:一是在试验设计阶段校正,这是顶层的校正方法,比如通过对足够的样本量随机分组就能实现组间混杂因素的均衡,这也是为什么RCT大行其道的原因,只要样本量足够,随机化正确,后面一劳永逸;二是通过统计方法后效校正,这是后效的方法,显然不如RCT校正得彻底,但第二种情况更接近临床实践的真实情况。(3)样本量。正是由于这种真实研究的混杂因素较多,需要有一定的样本量才能达到足够的统计学效能去甄别混杂因素对结局的影响。通过多因素分析筛选变量,一个简便而可行的原则是,如果在多因素分析中考量一个变量,那应该有20个发生终点事件的样本,所谓1:20原则。(4)临床科研洞察力。临床预测模型构建是用来解决临床问题的,所以能够发现有价值的临床问题,这是一种广泛阅读文献并在临床实践过程中慢慢积累的洞察力。七、临床预测模型开发目前面临的问题(1)临床应用转化率低。预测模型的临床应用需要在两个方面做出平衡:模型的准确度与模型的简便性。大家试想一下,如果现在有一个模型和TNM分期一样运用简便,但比TNM分期预测更准确,大家会做出怎样的选择?(2)大部分临床预测模型基于回顾性数据集构建与验证,未在前瞻性数据中开展验证工作,模型预测结果的稳定性较差。(3)大部分临床预测模型的验证基于内部数据验证,多数文章只有一个数据集,或者即便两个数据集,一个建模一个验证,但这两个数据集往往来自研究中心内部。如果能把预测模型的验证工作进一步延伸到外单位的数据集,那模型的应用价值将得到大大拓展。这项工作的难度很大,需要多中心合作。而且国内绝大部分中心没有完善的数据库可供验证,这又回到前面讨论的有关“数据库重要性”的话题。八、讨论与总结临床预测模型的初衷是借助少量的、易收集的、检测成本低廉的预测因子来预测疾病的状态和预后。因此,大多数预测模型都是短小精炼型的。这在信息技术不发达,数据收集、存储、分析成本高的时代是科学而理性的。但随着经济的发展,技术的进步,数据的收集、存储成本大大降低,数据分析技术日益提高,临床预测模型也应突破固有的观念,采用更大量丰富的数据(大数据),复杂的模型和算法(机器学习、人工智能),以更精准的结果服务于医生、患者以及医疗决策者。此外,从一个临床医生开展临床科研的角度讲,开展临床预测模型类研究应该把握以下4点原则:(1)构建更好用的临床预测模型也是精准医学的内在要求。(2)如何获得高质量数据,数据库构建才是核心竞争力,预测模型只是技术手段。(3)RCT与真实世界研究同等重要,都是提供可靠临床证据的方式。(4)模型的验证需要临床研究中心内部、外部加强合作。因此,要强化中心内部科研合作,提高多中心科研合作意识。参考文献[1] Chow N,Gallo L,Busse JW. Evidence-based medicine and precision medicine: Complementary approaches to clinical decision-making[J]. Precision Clinical Medicine, 2018,1(2):60-64.[2] Ranstam J,Cook JA,Collins GS. Clinical prediction models[J]. Br J Surg,2016, 103(13):1886.[3] Collins GS,Reitsma JB,Altman DG,et al. Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD):the TRIPOD statement. The TRIPOD Group[J]. Circulation,2015,131(2):211-219.[4] Adams ST,Leveson SH. Clinical prediction rules [J]. BMJ,2012,344:d8312.[5] Moons KG,Royston P,Vergouwe Y,et al. Prognosis and prognostic research:what,why, and how?[J]. BMJ,2009,338:b375.[6] Kannel WB,McGee D,Gordon T. A general cardiovascular risk profile:the Framingham Study[J]. 1976,38(1):46-51.[7] Steyerberg EW,Vergouwe Y. Towards better clinical prediction models:seven steps for development and an ABCD for validation[J]. Eur Heart J,2014,35(29):1925-1931.[8] Lee YH,Bang H,Kim DJ. How to Establish Clinical Prediction Models[J]. Endocrinol Metab (Seoul),2016,31(1):38-44.[9] Han K,Song K,Choi B W. How to Develop,Validate,and Compare Clinical Prediction Models Involving Radiological Parameters:Study Design and Statistical Methods[J]. Korean J Radiol,2016,17(3):339-350.[10] Su TL,Jaki T,Hickey GL,et al. A review of statistical updating methods for clinical prediction models[ J]. Stat Methods Med Res,2018,27(1):185-197.[11] Woodward M,Tunstall-Pedoe H,Peters SA. Graphics and statistics for cardiology:clinical prediction rules[J]. Heart,2017,103(7):538-545.