多数据库玩出新花样,3+分新套路!
Identification of Prognostic Dosage-Sensitive Genes in Colorectal Cancer Based on Multi-Omics
基于多组学的大肠癌预后剂量敏感基因的鉴定
一、研究背景
大肠癌(CRC)是世界上与癌症相关的死亡的第三大主要原因,发病率和病死率均较高。研究表明体细胞拷贝数改变(SCNA)是CRC中最常见,最重要的结构突变之一,SCNA基因通常被认为是癌症发展的驱动基因,也是CRC进展的重要因素,因此,SCNA基因被认为可能是CRC患者的预后指标。
二、分析思路
三、结果解读
1、CRC中的预后剂量敏感基因(PDSGs)的鉴定
在TCGA数据库中获取448个带有SCNA和RNA-seq数据的CRC样本,以获取生存信息。总共有22752个基因,其中有17442个蛋白质编码基因,14688个差异表达基因。
以FDR<0.1,FC>0.2为cut-off,6,814个基因在体细胞拷贝数扩增样品(CNAS)中的表达上调。25个基因在体细胞拷贝数缺失样品(CNDS)中的表达下调。
应用Cox回归分析计算SCNA与生存时间之间的关系,共获得214个(剔除1个)与SCNA显著相关的预后敏感基因(PSGs)
接下来,以0.02的梯度将SCNA的阈值从0.1提高到0.5。对于每个阈值,将样本分为CNNS,CNAS,CNDS,分别进行时序检验(图1)共有15个基因在10个以上的阈值中表现出稳定预后分类,表明这15个基因可以被认为是CRC预后分类的稳定标记
图1:基因预后的分类稳定性
计算这15个基因的拷贝数与相应表达水平之间的Pearson相关系数。最后,筛选出六个基因(NDUFB4,WDR5B,IQCB1,KPNA1,GTF2E1和SEC22A),它们是稳定的PDSGs(图2)
图2:六个PDSGs的剂量敏感性
Kaplan-Meier生存曲线分析显示六个PDSGs在不同的SCNA阈值中有着相似的结果。图3A-C表示0.1阈值下的结果,图3D表示0.3阈值下的结果,图3E-F表示0.5阈值下的结果。
图3:不同阈值的KM生存曲线
2、在CCLE中测试PDSGs的剂量效应
为了验证六个PDSGs的拷贝数是否对来自53个细胞系样本的细胞系的数据具有剂量敏感性,作者在CCLE中计算了这六种PDSGs的剂量效应相关系数,得到的结果与TCGA的结果一致(图4)。Pearson相关系数为1,表明在不同的CRC数据集中基因剂量效应是稳定的。
图4:CCLE和TCGA的剂量效应相关系数
3、六个PDSGs在CRC中共同改变
为了进一步测试这六个PDSGs的生存曲线之间的相似性,作者将它们定位到染色体上,发现它们都位于3q13.33–3q21.1上。通过计算两对基因的拷贝数之间的相关系数,观察到平均值为0.9967(图5)。这表明这六个PDSGs在改变期间彼此高度一致。
为了确定这6个PDSGs附近区域中是否存在断点,作者将其定位到人类染色体脆性部位的数据库中(HumCFS)。结果,发现FRA3D(3q25.32)和FRA3C接近六个PDSGs。因此,作者推断脆性部位(fragile sites)中的断点(breakpoints)可以解释附近区域和相似的SCNA。
图5:相关系数的热图
4、PDSG共表达网络的构建与分析
为了进一步探索这六个PDSGs是否也可以影响CRC中其他基因的表达,作者计算了不同样本中CNAS和CNNS基因之间的共表达差异,观察到总共234个共表达的基因对,并鉴定了涉及差异共表达网络的215个基因(图6A)
网络中的每个PDSG至少与13个基因相关,而22个基因与一个以上PDSG相关。PDSG相关基因在肿瘤抑制数据库(TSGene)上的定位揭示了16个TSG.(图6A三角形部分)
作者发现,几个与PDSGs有关的基因也与结肠癌(COAD)相关。在CNAS中激活了GTF2E1-WNT8B的共表达(R = 0.59)。WNT8B --WNT信号的一个成员在COAD中差异表达。除此之外,在将PDSGs相关基因定位到DriverDB的驱动基因列表后,发现了三个基因(C8orf33,LAPTM4B,PTP4A3)(图6B)
图6A:差异共表达网络的构建
图6B:基因共表达曲线
为了进一步探索这六个PDSGs的可能功能,作者提取了相关基因并进行了基因本体功能富集分析。与NDUFB4基因相关的基因(图6C)主要富集于“跨膜受体”,“跨膜转运”,“肽受体”,“ G蛋白偶联受体”,“转化生长因子”等功能。
与基因GTF2E1相关的基因主要富集于“细胞周期蛋白依赖性蛋白酶”,“ ATP合酶转运质子“等相关功能。(图6D)
图6C、D:基因功能富集分析的结果
小结
在这篇文章中,作者从公共数据库中获取相关数据,建立了筛选CRC预后敏感基因的方法。通过检测CRC拷贝数的剂量敏感性筛选稳定的预后标志物,并得到了六种预后剂量敏感性基因(NDUFB4,WDR5B,IQCB1,KPNA1,GTF2E1和SEC22A),通过CCLE中的细胞系数据验证了它们的剂量敏感性,构建了差异共表达网络并进行相关的功能富集分析。该分析有助于增进对SCNA预后基因价值的了解,并为进一步分析奠定基础。
科研菌学术讨论群,在群内可以用自己的昵称,广告一律踢;其他公众号的宣传也不发,就算是要发,提前和小编商量和确认,不然也是一律踢哈。