如何用好公开数据库多种组学数据?
Multi-omics analysis based on integrated genomics, epigenomics and transcriptomics in pancreatic cancer基于整合基因组学、表观基因组学和转录组学的胰腺癌多组学分析
一.研究背景
最近,对多种癌症的多组学分析为癌症的基因组学,表观基因组学和转录组学失调提供了新的视角。由DNA拷贝数变异(CNV)和单核苷酸变异(SNV)引起的基因组异常在胰腺癌的发生和发展过程中很常见。对基因组学、表观基因组学、转录组学和临床信息的综合分析有助于鉴定特定的分子亚组并发现胰腺癌的新生物标志物。
二.分析流程
三.结果解读
1.CNVcor和METcor基因数据集之间的比较
作者从TCGA收集了CNV,DNA MET、RNA-Seq(HTSeq计数类型)以及SNV数据,用于进一步分析。
为了建立CNVcor和METcor基因,作者分别计算了每个基因与CNV / MET数据之间的Pearson相关系数,总共获得了2445个CNVcor基因和3729个METcor基因。
从Z值分布情况来看:CNVcor基因的相关性向右移动,而METcor基因的相关性向左移动(图1A)。
由于CNVcor和METcor数据集中的基因数量众多,作者仅在每个数据集中选择与OS显著相关的基因。最终获得了201个CNVcor基因和295个METcor基因用于进一步分析。
CNVcor和METcor之间没有明显的交集,只有34个基因重叠(图1B)。
CNVcor基因的染色体分布表明CNVcor基因在chr12,chr8和chr17上最为丰富(图1C和表1)。
METcor基因主要分布在chr1,chr2,chr3,chr7,chr11,chr12和chr17上,但在chr18上几乎没有分布(图1D和表2)。
METcor基因的主要功能是蛋白质编码(图1E),且主要位于CpG岛区域(图1 F)。
图1.胰腺癌中CNVcor和METcor基因的特征
表1.基于Fisher检验的CNVcor基因在不同染色体上的分布
表2. 基于Fisher检验的METcor基因在不同染色体上的分布
2.鉴定CNVcor和METcor基因数据集亚型
作者使用NMF(非负矩阵分解)对CNVcor和METcor数据集进行聚类,并使用NMF的“ brunet”方法进行了50次迭代。经分析,两者最佳聚类数都为4(CNVcor:图2A;METcor:图2B)。
图2C:CNVcor数据集的四个亚型在OS上显示出显著差异。
图2D:在METcor数据集的四个亚型中,OS也存在显著差异。
图2E-F:观察到CNVcor亚型和METcor亚型之间存在明显的重叠。
图2.基于CNVcor和METcor数据集确定的分子亚型
3.基于CNV,MET和EXP数据的整合鉴定了胰腺癌样本四个亚组
图3A-B:作者基于CNVcor 、 METcor基因和EXP(mRNA表达)数据,使用R包 iCluster将收集到的胰腺癌样本聚类。所有样本被分为四组,包括iC1(18个样本),iC2(48个样本), iC3(48个样本)和iC4(53个样本)。
图3C:KM分析表明,四个亚组之间OS存在显著差异。
图3D:OS预后最好的iC1与其他三个亚组之间的进一步KM分析表明,iC1和iC4之间的差异最为显著。
图3E:四个亚组之间的PFS也显示出部分差异。
图3根据DNA拷贝数变异,甲基化和mRNA表达数据的整合鉴定出的四个独特的胰腺癌亚组
4.CNV和MET变化之间的相关性
为了研究CNV与MET畸变之间的关系,将CNV数据分为CNV gain(β值> 0.3)和CNV loss(β值<-0.3),并将MET数据分为高甲基化(MetHyper,β -值> 0.8)和低甲基化(MetHypo,β值<0.2)。分别记录每个样品的CNV gain值、CNV loss值以及MetHyper、MetHypo。
图4A:CNV gain与CNV loss之间存在显著的正相关性;
图4B:CNV gain与MetHyper正相关;
图4C:但CNV gain与MetHypo之间的相关性不显著;
图4D:CNV loss与MetHyper之间的相关性也呈显著正相关;
图4E:但是,CNV loss与MetHypo之间没有显著相关性;
图4F:MetHyper和MetHypo具有显著的负相关性。
图4.胰腺癌中DNA拷贝数变异与甲基化异常频率之间的相关性
5.胰腺癌亚群的临床病理特征和免疫评分
作者进一步分析了iC1和iC2 / iC3 / iC4亚组之间的临床病理信息。在iC1和iC2 / iC3 / iC4之间观察到年龄和酒精暴露的显著差异(表3)。
表3. iC1和iC2 / iC3 / iC4亚组之间临床特征的比较
接下来,作者使用TIMER工具来计算四个亚组的免疫评分。
图5A-B:除CD8 T细胞外,iC1亚组B细胞CD4 T细胞,嗜中性粒细胞,巨噬细胞和树突状细胞中的免疫评分均显著高于的其他三个亚组。
图5C:免疫特征分析还显示,与其他三组相比,iC1亚组在巨噬细胞调节,淋巴细胞浸润特征,IFN-γ反应和TGF-β反应方面得分更高。
以上结果表明iC1亚组可能处于免疫增强状态,可能在一定程度上有助于iC1亚组的预后。
表3. iC1和iC2 / iC3 / iC4亚组之间临床特征的比较
6.胰腺癌亚组分子特征的比较
为了分析四个亚组之间的不同分子特征,作者分别计算了iC1和iC2 / iC3 / iC4之间的差异表达基因(DEGs),最终获得了817个DEGs。
接着作GO富集分析发现,T细胞活化,淋巴细胞活化调节,免疫应答调节细胞表面受体信号传导途径等显著富集(图6D)。
然后,将DEGs的CNV数据分为CNV gain,CNV loss和CNV normal。将DEG的MET数据也分为三类,包括MetHyper,MetHypo和MET normal。
图6A:iC2和iC4的CNV异常显著高于iC1和iC3,这表明CNV可能对胰腺癌的预后有一定影响;
图6B:但是,未观察到甲基化的显著差异。
图6C:从基因表达与甲基化和CNV之间的相关性分析,发现具有MetHypo的DEGs的基因表达水平更高,但在CNV之间未观察到类似的关系。基于这些结果,推测甲基化水平可能比CNV水平对DEGs的基因表达影响更大。
图6. iC1和其他三个亚组之间的817个共同差异表达基因以及四个亚组之间差异表达基因的CNV和MET变异特征
7.CNV,MET与基因表达之间的关系
为了进一步分析CNV,MET和基因表达之间的关系,作者对817个DEGs进行了单变量生存分析,并确定和选择了与预后显著相关的35个DEGs。使用来自GEO数据库的外部GSE21501和GSE71729数据集来验证结果。
最后,在外部和内部数据集中选择了三个与胰腺癌预后相关的基因(GRAP2,ICAM3和A2ML1)。
GRAP2(HR <1)和ICAM3(HR <1)是有利的预后因素,而A2ML1(HR> 1)是不利的预后因素(图7:C&D,G&H,K&L)。在三个基因中均观察到了基因表达与MET之间的显著负相关(图7:A&B,E&F,I&J),但与CNV没有观察到显著相关。
图7. 鉴定三个预后相关基因(GRAP2,ICAM3和A2ML1)及其与DNA拷贝数变异和甲基化的相关性
8.胰腺癌亚组突变谱的比较
作者进一步分析了iCluster聚类的四个亚组的突变谱。确定了一组在iC1和iC2 / iC3 / iC4亚组之间具有显著差异的基因,并根据Fisher检验p值的排名选择了前50个基因进行展示(图8A)。预后较差的iC2 / iC3 / iC4亚组中KRAS,CDKN2A和SMAD4基因的突变频率显著高于iC1亚组(p <0.05)。
图8B:iC1亚组的沉默突变,非沉默突变和SNV新抗原的数量显著少于iC2 / iC3 / iC4亚组。
图8C:至于CNV gain和CNV loss数据,观察到类似的趋势,即与iC2 / iC3 / iC4子组相比,iC1拥有更少的CNV突变;尽管四个亚组之间的MetHyper和MetHypo存在显著差异,但未观察到iC1和iC2 / iC3 / iC4亚组之间的显著差异。
以上结果表明,基因组不稳定对胰腺癌的预后有重要影响,突变率高和CNV异常可能导致预后不良。
图8.在iC1和iC2 / iC3 / iC4亚组之间具有显著差异的前50个突变基因
小结
在文章中作者分析了161例胰腺癌样本的CNV、MET、RNA-Seq(mRNA)表达水平以及相应的临床信息。基于每个基因与CNV和MET之间的相关性,鉴定了两个基因数据集:CNVcor和METcor基因。表明CNV和MET畸变对转录组学产生了调控作用。随后,作者通过对CNVcor和METcor基因的整合分析,确定了与生存相关的四个胰腺癌分子亚组。亚组之间的进一步比较分析为胰腺癌提供了三个新的靶标或生物标志物:GRAP2,ICAM3和A2ML1。
由于尚无文献报道,作者将在进一步研究中研究这三个新靶标(GRAP2,ICAM3和A2ML1)在胰腺癌中的生物学和临床功能。