科研 | Eur. Respir. J.: 识别系统性硬化中的早期肺动脉高压生物标志物:DETECT队列中蛋白质组学的机器学习
编译:彭翰林,编辑:Tracy、江舜尧。
原创微文,欢迎转发转载。
肺动脉高压(PAH)是系统性硬化症(SSc)的毁灭性并发症。在SSc中筛查PAH可提高检测率,允许早期治疗PAH并改善患者预后,能够可靠地识别有PAH风险或患有早期疾病的SSc患者的血液生物标记物将显著改善筛查,潜在地提高生存率,并提供检查早期疾病的新颖机制。本研究的主要目的是使用机器学习方法,鉴定区分有或没有PAH的SSc患者的蛋白质组生物标志物特征,并在外部队列中验证研究结果。从临床DETECT研究中随机选择SSc种患有PAH患者和无PH患者的血清样品,并使用由313种蛋白质组成的MYRIAD RBM平台进行蛋白质组学筛查。独立验证队列的样本是从英国谢菲尔德大学获得的。随机森林(RF)分析确定了八种蛋白质的新颖组合,包括胶原IV,内皮抑素,IGFBP-2,IGFBP-7,MMP-2,Neuropilin-1,NT-proBNP和RAGE。这种新颖的8蛋白生物标志物组具有改善SSc患者PAH早期检测的潜力,并可能为SSc背景下PAH的发病机理提供新颖的见解。DETECT算法包括循环生物标志物NT-proBNP和尿酸,证明了生物标志物支持SSc患者早期检测PAH的潜力。利用在DETECT研究期间收集的血清样本和临床数据,我们假设可以开发出更广泛的蛋白质组学特征,以将SSc患者分为有和没有PAH的患者。使用来自DETECT发现队列的157位随机患者的血清样本,我们确定了SSc-PAH患者的8个蛋白标记。我们还证明了某些蛋白质生物标记物可以根据DETECT算法来预测各个临床变量。
论文ID
实验设计
实验结果
1. 患者的特征,人口统计学和临床特征
流程图(图1)显示了DETECT发现和Sheffield确认队列的患者情况,总结了这两个队列的人口统计学和临床特征,并对两组进行了比较,分别如表1和表2所示。补充图1-9包含了这两个队列的比较,如预期所示,该比较证实了DETECT样本比从专业PH咨询中心收集的Sheffield样品的异质性稍差,且PAH比例较低。
图1 DETECT发现和Sheffield验证性队列
流程图显示a)DETECT发现队列和b)Sheffield确认队列的患者和分析物的数量。
表1 DETECT生物标志物衍生队列中PAH和非PH SScc患者的基线特征
表2 Sheffield验证性队列中PAH和非PH SScc患者的患者特征
使用Wilcoxon秩和检验对连续变量(以及将有序因子水平转换为1至4值后的“右心室泵的定性评估”)进行的PAH和非PH组的比较和Fisher精确检验 用于分类变量。
2. 使用随机森林进行蛋白质生物标志物选择
我们通过来自DETECT队列的PAH(n = 77)和非PH患者(n = 80)的血清样本分析在MYRIADRBM Discovery平台上鉴定出271种(补充表1),随机森林(RF)分析确定了可以区分出是否为PAH-SSc患者的蛋白质,其平均面积在曲线ROC-AUC值下为0.71。图2a显示了对区分PAH的重要性最高的前20个变量(蛋白质),图2b显示了在Sheffield队列中最重要的前20个变量(蛋白质)。
我们在DETECT和Sheffield队列中均一致地测量了238种常见分析物,将在DETECT队列中训练的RF应用于Sheffield队列时,观察到的准确性为86%。IV型胶原蛋白,内皮抑素,胰岛素样生长因子结合蛋白2(IGFBP-2),胰岛素样生长因子结合蛋白7(IGFBP-7),基质金属肽酶2(MMP-2),Neuropilin-1,N末端pro-脑钠素(NT-proBNP)和晚期糖基化终产物的受体(RAGE)被确定为常见的PAH生物标志物。因此,我们使用在DETECT和Sheffield队列中识别出的238种常见分析物,对DETECT发现队列数据集进行了新的RF分析,此RF分析的20个最重要的变量显示在图2c中。
在DETECT队列和Sheffield队列中,患PAH的SSc患者中的8种保守生物标记物的蛋白质水平明显高于非PH患者(图3)。
图2 对PAH进行分类的重要变量
a)DETECT发现队列,b)Sheffield确认队列和c)DETECT和Sheffield队列之间的238种常见蛋白质。该图显示了最重要的变量(y轴),通过基尼系数(x轴)的平均下降来评估。蛋白质从最重要到最不重要的顺序从上到下排列。所有分析中的8个公共变量以粗体显示。
图3 DETECT和Sheffield队列中8种分类蛋白的血清蛋白水平
在DETECT发现队列和Sheffield确证队列中预测PAH时,8个最佳表现蛋白和常见蛋白的血清浓度。方框图和晶须图表示四分位间距(方框),线表示中位数,晶须线表示整个数据范围。各个患者样品用点表示。左上角的值表示两个患者组之间的Wilcoxon秩和检验的p值。
3. 8个蛋白对PAH分类的性能
为了确定8种蛋白质生物标记物对来自SSc患者混合队列中对PAH进行分类的潜力,我们对鉴定出的8种生物标记物的所有255种可能的组合进行了进一步的RF分析,以确定表现最佳的组。通过重复交叉验证和包括RAGE,IGFBP-7,胶原IV,内皮抑素,MMP-2和IGFBP-2在内的6种生物标志物的亚组来评估小组的表现,DETECT队列ROC-AUC最好为0.751,敏感性为66.8%,特异性为71.4%(图4a)。接下来,我们在Sheffield队列中也评估了这6种蛋白质生物标志物组的性能,ROC-AUC为0.866(图4b),敏感性为54.5%,特异性为86.4%。
鉴于我们在Sheffield队列中使用6种蛋白生物标记物组观察到的敏感性降低,我们测试了是否添加回NT-proBNP或NTproBNP加Neuropilin-1(因为NT-proBNP已经是DETECT算法的一部分)会有一定的改善。正如我们之前的分析所预期的,当添加NT-proBNP(7个生物标志物面板,图4c)或NT-proBNP加Neuropilin1(8个生物标志物面板,图4d)时,DETECT队列的性能降低,结果分别为ROC -AUC0.741,对7种生物标志物的敏感性为65.2%,特异性为68.9%(图4c);ROC-AUC为0.741,对8种生物标志物的敏感性为65.1%,特异性为69.0%(图4d)。接下来,我们在Sheffield队列中测试了这7个蛋白和8个蛋白的检测结果。对于包含NT-proBNP的7种蛋白质,我们获得了0.77的平衡准确度,68.2%的灵敏度和86.4%的特异性,而在包括NT-proBNP和Neuropilin-1在内的8蛋白组中得到了稍微的改善,产生了0.81的平衡准确度,77.3%的灵敏度和86.5%的特异性,因此,虽然添加NT-proBNP和/或Neuropilin-1会稍微降低派生队列的敏感性和特异性,但是添加两种生物标记物可提高验证队列的准确性,敏感性和特异性。
图4 在DETECT和Sheffield队列中的6种常见蛋白质生物标志物组的性能
a)DETECT发现队列和b)Sheffield确认队列中PAH与非PH分类器的ROC曲线。6个选定的蛋白质是在DETECT队列中(ROC-AUC = 0.751)产生曲线下最佳区域(ROC-AUC)的8个常见蛋白质的一部分。
图5 PVR与6种常见生物标记蛋白的SPLS关联
该图表示每个个体生物标志物变量与肺血管阻力(PVR)的相关图。左上角的值是两个变量的对数之间的皮尔逊相关系数,右上角的值表示相应的p值。
4. 鉴定可预测与PAH相关的临床变量的生物标志物
血清生物标志物和临床变量的组合产生综合评分,已加强了SSc患者的常规诊断方法。鉴定可以预测与PAH相关的临床变量的NT-proBNP和尿酸以外的其他生物标记物将具有极大的优势,并减少了重复侵入性手术。为了调查所测量的蛋白质生物标记物是否可以准确预测任何已记录的临床变量,我们对DETECT队列应用了稀疏的偏最小二乘回归分析。在测试的临床变量中(表1),与我们的生物标志物复合评估板的关联通常较弱,肺血管阻力(PVR)提供了最佳的R2:NT-proBNP,RAGE,IGFBP-7,cFib,VCAM-1和SP-D(图5)。PVR的最高相关性是通过NT-proBNP(cor = 0.46),RAGE(cor= 0.43)和IGFBP-7(cor = 0.41)获得的。为了验证已识别变量的相关性,我们应用了随机森林分析作为稀疏PLS分析的替代方法。根据随机森林方法,稀疏PLS选择的RAGE,NT-proBNP,IGFBP-7,SP-D和VCAM-1也是预测PVR的最重要特征。
讨论
PAH导致的右心衰竭是导致SSc患者的主要死亡原因之一,占死亡的26%,SSc-PAH占欧洲所有形式PAH的15-20%,1年死亡率为30%,它是系统性硬化症的毁灭性并发症,有证据表明早期发现和治疗可以改善预后。目前已有使用多种方法开发的筛查工具,包括血液生物标志物,影像学,运动测试等,以减少PAH患者从首次出现症状到诊断的时间。Humbert及其同事的研究数据表明,在SSc高危人群中进行PAH筛查有助于早期诊断,并导致生存率的显著提高。为此,已开发出DETECT算法,并提出了在部分PAH早期SSc患者中经胸超声心动图(TTE)诊断的措施。DETECT算法是用于SSc患者PAH检测的常用筛选模型。它包含八个变量,包括来自多个测试的临床变量和两个循环生物标记物NT-proBNP和血清尿酸,均反映心脏功能障碍。使用DETECT检测PAH的灵敏度高(96%),但特异性相对较低(48%)。因此,目前在寻找诊断性生物标志物方面科研这们付出了很多努力,以准确、无创地预测SSc患者和其他处于危险中的PAH人群。
在这项研究中,我们使用了DETECT研究中的血清样本和无偏高通量测定平台,以发现具有潜在筛查和诊断潜力的新型蛋白质生物标志物。我们已经鉴定并验证了有8个生物标志物组成的小组:RAGE,IGFBP-7,胶原IV,内皮抑素,MMP-2,IGFBP-2,NTproBNP和Neuropilin-1具有从SSc混合人群中区分出PAH患者的潜力。
先前已发现鉴定出的几种蛋白质在肺血管重构(RAGE,MMP-2),血管生成,细胞生长(胶原IV,内皮抑素,IGFBP-2,神经菌素-1)和心脏功能障碍(NTproBNP,IGFBP)中起重要作用。RAGE在细胞外基质(ECM)蛋白质的积累中尤其是在血管重构中起着重要作用。在我们的研究中,调整年龄后RAGE的诊断价值得以保持(数据未显示)。基质金属蛋白2(MMP-2)是血管重塑的另一种标志物,是一种金属蛋白酶,参与ECM和IV型胶原的分解,并有助于基底膜的降解。有趣的是,缺氧可以减弱出生后MMP-2表达的增加,从而影响肺泡的发育和相关的肺动脉重构。在缺氧的小鼠模型中,MMP-2的抑制作用阻止了PH的发展和肺动脉内皮细胞(PAEC)的增殖。
胰岛素样生长因子结合蛋白7(IGFBP-7),在我们的研究组中排名第二,与细胞衰老和心脏功能障碍有关,并有可能有补充NT-proBNP的作用,从而建立心脏应激指标。内皮抑素(胶原蛋白XVIII)和胶原IV,是我们研究组的第3和第4位,也是细胞外血管基底膜分离的重要组成部分,内皮抑素以前被报道为PAH的潜在生物标志物,可以预测不良结果;尽管胶原蛋白IV在PAH中的作用尚未具体描述,但胶原蛋白IV的合成可以通过NO的产生来促进,并且胶原蛋白IV的增加可促进肺血管生成。Neuropilin-1是另一个参与血管生成的分子,它与血管内皮生长因子(VEGF)家族成员相互作用,刺激内皮细胞中的血管生成,因此,这些不同的血管生成标记物直接参与了PAH的病理学,并且可能与SSc患者PAH的早期发展有关。
Rice等人的先前研究发现Midkine(MDK)和Follistatin-like 3(FSTL3)是两种可以作为SSc-PAH生物标志物的蛋白质,尽管是在一个只有13名患者的小型发现队列中进行的研究。我们的研究在DETECT队列中纳入了具有弥漫性,局限性和混合性SSc的患者,这更能反映风湿病学背景下的患者人群。然而,这两种蛋白质都不在MYRIAD平台之内,因此我们无法确定这些蛋白质是否可以在这两个队列中对PAH进行分类。
我们当前研究的局限性是缺乏纵向数据,测试蛋白质面板是否响应治疗和疾病进展的改变是重要的下一步,这不仅与PAH特异性疗法有关,而且与许多这类患者将要接受的背景免疫抑制疗法有关。我们研究的另一个显著局限性是PAH和非PH队列人数相匹配,而理想的模型是SSc-PAH:SSc-No PH=1:10的比例。我们承认,我们的患者队列不能完全反映SSc患者人群,但是,这项研究提供了重要的概念,即将机器学习工具应用于蛋白质组学数据可以识别蛋白质生物标志物,以帮助筛查患有PAH风险的患者。尽管此处未进行直接测试,但在SSc的背景下,在PAH上开发的这种蛋白组很有可能在其他形式的PAH中有用,或可以鉴定其他非PAH队列中具有肺血管重塑的患者。
这项研究的最终目的是确定一种蛋白组,该蛋白组可以并入DETECT算法的未来迭代中,以增强当前DETECT算法的敏感性和特异性。显然,在实现这一目标之前,当前的蛋白质研究小组将需要在风湿病学背景下进行进一步的验证和调整,尽管未来将面临一些挑战,但将蛋白质组学分析整合到现有的筛查程序(如DETECT)中应该不会太困难。