4+非肿瘤机器学习+热点通路,导师也对你赞不绝口!
导语
今天给同学们分享一篇关于炎症机制在妊娠期糖尿病(GDM)中的潜在作用的生信文章 “Placenta inflammation is closely associated with gestational diabetes mellitus” ,这篇文章于今年5月份发表在American Journal of Translational Research杂志上,IF=4.06。本研究旨在通过探讨胎盘炎症在GDM中的作用,运用机器学习方法进一步鉴定关键基因作为GDM患者的诊断生物标志物,这可能有助于GDM的诊断和治疗。
1.差异表达分析和蛋白质相互作用分析
通过在R中使用“limma”包,在P<0.05的标准下,GSE70493数据集的GDM和非GDM之间获得了705个差异基因。为了从差异基因中筛选出IRG,作者进一步取了705个差异基因和2499个IRG的交集,得到了79个DIRG(图2A)。然后,使用String11.0研究了79种化合物的功能相互作用。然后通过Cytoscape 3.8.0构建蛋白质-蛋白质相互作用(PPI)网络,如图2B所示。
图2.差异表达分析和蛋白质相互作用分析
2.GO与KEGG富集通路分析
为了进一步探索79个DIRG的富集通路和功能,将这些基因导入到DAVID数据库中,并使用R中的“ggplot2”包进一步可视化富集结果。这些基因主要是细胞因子产生的正调控,位于膜侧,主要表现为受体配体活性和受体调节活性(图3A)。KEGG富集分析表明,79个DIRG主要参与细胞因子-细胞因子受体相互作用、病毒蛋白与细胞因子和细胞因子受体的相互作用(图3B)。这些结果表明GDM与炎症密切相关,胎盘炎症可能在GDM中起重要作用。
图3.GO和KEGG富集通路分析
3.RF、GLM和SVM模型的构建与评价
为了进一步缩小关键免疫相关基因的范围,建立了三个模型。从76个DIRG中选择6个基因(DKK1、ILRL1、CXCL9、HLA-DQA2、CXCL10和FABP4)作为构建三个模型的关键基因。在训练GSE70493数据集的基础上,分别建立了随机森林模型(RF)、支持向量机模型(SVM)和广义线性模型(GLM)。然后利用R中“DALEX”软件包的解释特征对上述3个模型进行分析,并绘制残差分布图,以获得基于测试集的最佳模型。如图4A和图4所示4B、4B、RF模型被认为是最合适的模型,因为它具有最小的样品残留量。然后,从RF模型中选择四个解释变量(DKK1、ILRL1、FABP4和CXCL10)进行进一步分析(图4C)。
图4.RF、GLM和SVM模型的构建和评估
4.四个重要IRG的进一步分析
然后,选择RF模型中四个最重要的解释变量(DKK1、ILRL1、FABP4和CXCL10)进行进一步分析。图5B显示了DKK1、ILRL1、FABP4和CXCL10的染色体位置。DKK1、CXCL10和IL1RL1在GDM胎盘中的表达低于非GDM胎盘。然而,GDM胎盘中FABP4的表达高于非GDM胎盘(图5A,5C)。作为图5D中的主成分分析结果,上述四个基因可以清楚地区分GDM和非GDM,这表明它们可能在GDM的诊断中发挥关键作用。如图6所示,还分析了这些基因的相关性。作者发现HLA.DQA2和CXCL9与其他四个基因(DKK1、ILRL1、FABP4和CXCL10)具有较高的相关系数,这表明这两个基因与其他四个基因具有较高的功能相似性。因此,在选择GDM诊断生物标志物时,可以排除HLA、DQA2和CXCL9。
图5.关键基因的表达水平
图6.选定免疫相关基因之间的相关性
5.GDM诊断诺模图模型的构建与评价
“Rms”软件包用于根据四个DIRG(DKK1、ILRL1、FABP4和CXCL10)建立GDM诊断的列线图模型(图7A)。然后,使用校准曲线评估诺模图模型的预测能力。校准曲线表明,实际GDM风险与预测风险之间的误差非常小,表明列线图模型具有预测GDM的高精度(图7B)。决策曲线分析(DCA)表明,“列线图”曲线高于灰色线、“DKK1”曲线、“ILRL1”曲线、“FABP4”曲线和“CXCL10”曲线,表明患者可以在0到1的高风险阈值下受益于列线图模型,列线图模型的临床效益高于对照组“DKK1”“ILRL1”“FABP4”“CXCL10”曲线(图7C)。为了更直观地评估列线图模型的临床效果,在DCA曲线的基础上绘制了临床影响曲线。“高风险数量”曲线与“高风险事件数量”曲线非常接近高风险阈值曲线从0.3到1,这表明列线图模型具有非凡的预测能力(图7D)。这些结果在某些方面也表明这四个基因可能在GDM的过程中发挥关键作用。
图7.基于训练集的GDM诊断列线图模型的构建和验证
6.免疫细胞在胎盘组织中的分布
为了更好地了解炎症和GDM之间的关系,计算了每个样本中22种免疫细胞类型的相对比例。然后,作者比较了非GDM和GDM样本之间的22个免疫细胞浸润情况,并使用热图和直方图显示结果。作者发现GDM样本中M0巨噬细胞、M1巨噬细胞和中性粒细胞的浸润丰度高于非GDM样本,而M2巨噬细胞的浸润丰度低于GDM样本。其他免疫细胞的浸润丰度没有统计学差异(图8A和图8b)。
图8.胎盘中免疫细胞的分布
小结
总之,作者通过机器学习研究了胎盘炎症与GDM发生之间的潜在相关性,并发现了它们之间的紧密关系。一些免疫相关基因,如DKK1、ILRL1、FABP4和CXCL10,在GDM胎盘中高度表达。与对照组相比,GDM胎盘的M1巨噬细胞比率更高。因此,胎盘炎症可能在GDM中起重要作用。对机器学习联合炎症/免疫/焦亡等思路感兴趣的老师,欢迎扫码咨询。
生信分析定制服务
请扫描下方二维码