如何筛选基因加上简单分析就能3+分?
Identification of Genes Related to Clinicopathological Characteristics and Prognosis of Patients with Colorectal Cancer结直肠癌临床病理特征及预后相关基因的鉴定
一、研究背景
结肠直肠癌(CRC)是世界性的重大公共卫生问题,CRC发生发展的分子机制尚未完全阐明。因此,有必要进一步研究大肠癌的相关基因和途径,这不仅有助于了解CRC发生发展的分子机制,而且有助于指导诊断、预后生物标志物的开发和最佳治疗策略的开发。
微阵列和高通量测序技术在生物医学领域的广泛应用促进了诊断的发展以及预后标志物和诊断靶点的选择。同时,公开数据库中存储了大量癌症有关的信息,对这些数据的再分析有利于发现更多的生物信息学价值。在这项研究中,作者重新分析了来自GEO和TCGA数据库的基因表达谱,并基于生物信息学方法确定了与CRC相关的基因和途径。此外,作者还开发了一个预测结直肠癌患者1年、3年和5年总生存率的临床模型。
二、分析流程
三、结果解读
1、DEGs的鉴定和分析
图1 火山图和热图显示了CRC中差异表达的基因
作者使用使用GEO2R工具,对GSE32323数据集中癌组织与非癌组织之间进行DEGs鉴定。(截断值:log2|FC|> 2 &adjusted p-value <0.05) 共获得CRC中117个上调基因和236个下调基因。火山图显示,FOXQ1, LGR5, CLDN1, KRT23 和 DPEP1是前五位上调基因,GCG, ADH1B, SLC4A4, ZG16和CLCA4是前五位下调基因(图1a)。热图显示前五位上调和下调基因的表达水平(图1b)。上调和下调的前五位基因将用于后续的深入分析。
表1 GO富集分析结果
为了理解DEGs的生物学意义,作者随后进行了GO富集分析。DEGs在这9个GO项目中富集(表1):①细胞增殖负调控②细胞外间隙 ③蛋白质细胞外基质 ④细胞外外泌体 ⑤细胞外区域 ⑥质膜组成成分 ⑦顶端质膜 ⑧CXCR趋化因子受体结合 ⑨趋化因子活性。其中细胞外间隙、蛋白质细胞外基质两个功能的FDR最低,即这两个功能显著富集于DEGs。
表2 KEGG通路富集分析结果
KEGG通路富集分析:DEGs在50个通路中富集(表2)。p值越小,富集程度越显著。DEGs显著富集的前五位通路:①细胞因子-细胞因子-受体相互作用 ②矿物质吸收 ③氮代谢 ④胰腺分泌 ⑤补体和凝血级联反应。此外,这50种富集通路中有些是与癌症有关的经典通路,如PI3K-AKT、TGF-beta通路,表明靶向这些途径的效应物可能是一种有前途的治疗方法。以上GO和KEGG富集分析结果有利于指导进一步深入细致的实验研究。
2、CRC中基因表达水平的验证和分析
图2 基于TCGA数据集鉴定的CRC中前五位上调和下调基因的表达水平
使用GEO数据鉴定出前五位上调和下调的DEGs后,作者随之使用TCGA数据库用于DEGs验证。FOXQ1、LGR5、CLDN1、KRT23和DPEP1在CRC组织中的表达水平上调,而GCG、ADH1B、SLC4A4、ZG16和CLCA4的表达水平下调。本结果与GSE32323数据集的结果一致。
表3 基因表达水平对CRC临床病理特征的影响
此外,Logstic回归分析了前五位上调和下调的基因与CRC患者的临床病理特征的相关性(表3)。KRT23的表达上调可显著影响肿瘤分期(OR=1.005, 95% CI=1.000–1.009, p=0.03)。KRT23还可以显著影响区域淋巴结转移。FOXQ1的表达上调可显著影响肿瘤远端转移。
之前的研究有提出,KRT23可能通过激活人端粒酶逆转录酶的表达,从而作为一种重要的细胞因子促进CRC进展。本研究表明,CRC组织中高表达KRT23可增加肿瘤向晚期发展和区域淋巴结转移的风险。
表4 CRC中与患者OS有关的因素
单因素cox回归分析识别得出,由于HR<1,p<0.05,SLC4A4的表达是预后良好的因素(表4)。上文提及SLC4A4属于一个前五位的下调DEGs,即可推断,SLC4A4下调与OS缩短相关。(HR=0.872, 95% CI=0.762–0.999, p=0.048)。在校正BRAF突变状态后,SLC4A4的表达仍然会影响CRC患者的OS。(HR=0.87, 95% CI=0.75–0.99, p=0.041)
3、CRC患者预后预测模型的建立与评估
图3 CRC患者预后预测模型的列线图和ROC曲线分析
由于表3所示,年龄、肿瘤分期和SLC4A4与患者OS有显著的相关性,因此作者采用这三个因素建立预后预测模型。图3a的列线图定量预测患者的生存率。该预后模型的C-指数为0.737,表明该模型具有中等辨别能力。1、3、5年OS的ROC曲线下面积分别为:0.741, 0.773, 0.790,这些数据表明预后预测模型有中等的敏感性和准确度。这将帮助临床医生做出更好的临床决策和跟踪监测。
图4 高低危组CRC患者生存分析
根据预后预测模型,患者分为高风险和低风险两组。与低风险患者相比,高风险患者的预后更差(图4a。p=2.121e-12)。散点图表明,高风险组的死亡率显著高于低风险组(图4b。29%对6.5%,p<0.001)。
4、DEGs与微卫星不稳定性(MSI)
图5 前五位上调和下调基因表达水平与CRC患者MSI状态的关系
基于TCGA数据库,作者对前五位上调和下调的DEGs进一步深入分析。FOXQ1、LGR5、CLDN1、KRT23、DPEP1(5个上调DEGs)、GCG、SLC4A4和CLCA4(3个下调DEGs)的表达水平与CRC患者的MSI状态有显著的相关性。其中:MSI患者的FOXQ1、LGR5、CLDN1、KRT23和DPEP1的表达水平显著低于无MSI的患者(这5个基因为CRC组织中高表达的DEGs);MSI患者的GCG、SLC4A4和CLCA4的表达水平显著高于无MSI的患者(这3个基因为CRC组织中低表达的DEGs)。
小结
作者从GSE32323数据集中筛选出差异基因,选择上调和下调的前五位基因进行深入分析。作者通过GO和KEGG富集分析,鉴定了富集的9个GO项目和50个通路。作者使用TCGA数据库对差异基因表达水平进行验证,结果与GSE32323一致。随后作者进行基因与临床病理特征相关性分析,观察到年龄、肿瘤分期和SLC4A4的表达与CRC患者的OS有关;KRT23与肿瘤分期和淋巴结转移有关;FOXQ1与远端转移有关。作者还评估了DEGs与MSI的相关性。最后作者根据年龄、分期和SLC4A4建立了CRC患者预后预测模型,该模型具有中等的敏感度和准确度。本研究不仅为CRC提供了新的诊断标志物和治疗靶点,而且为CRC患者提供了一个很有前途的预后指标。
局限性:全身性治疗和其他已知的预后因素不包括在生存分析中,预后模型有待进一步完善。