如果你觉得发三分都困难!可以试试这样分析发这个4+分杂志
Identification three LncRNA prognostic signature of ovarian cancer based on genome-wide copy number variation
基于全基因组拷贝数变异的卵巢癌中3个lncRNA预后标志物的构建
一、研究背景
卵巢癌是女性生殖系统的三大恶性肿瘤之一,具有高复发率和高死亡率的特点,卵巢上皮恶性肿瘤是最常见的病理类型,占卵巢恶性肿瘤的80%–95%。lncRNA是最近发现的长度超过200 bp的非编码RNA,对发育,分化和代谢很重要,最近的研究表明,lncRNA不仅在组织发育中起重要作用,而且还通过调节基因表达和核转录在癌细胞的增殖和转移中发挥重要作用。拷贝数变异(CNV)在人类基因组中十分普遍,包括缺失,插入,重复和复杂的多位点变异,研究表明CNV与生存有紧密联系。
二、分析思路
三、结果解读
1、基于多组学的六种分子亚型的预后分析
作者分别分析了预后与PCGs,CNV和甲基化之间的关系,使用iClusterPlus包进行多组学分析,使用sigclust聚类显著性分析,每个亚型的样本数如表1所示。
表1:每个亚型的样本数
如图1A所示,作者借助KM曲线进一步分析了这6种亚型的预后差异,通过KM曲线可以看出,C5亚型的预后情况明显差于其他亚型。这表明基于基因表达,甲基化和CNVs表达谱的卵巢癌分子亚型可以预测卵巢癌患者的预后。
此外,作者计算了不同亚型中基因突变的比例,在每个亚型中选取突变比例最高的10个基因,鉴定出了39个基因(有一些基因重叠)。在提取每个亚型中这39个基因的突变比例之后,作者进行了层次聚类分析(如图1B所示),横轴表示不同的亚群,纵轴为39个基因,从中可以看到39个基因中每个亚型的突变频率有明显差异。其中,C5亚型的预后较差,该亚型的MGA,WDFY3,ARID4A和FRA1的突变明显高于其他亚型,这些基因可以作为该种亚型的预后标志物。
图1A:KM曲线分析预后差异 1B:层次聚类分析结果
2、分子亚型的通路分析
作者利用R包GSVA计算了每个样本的富集得分,使用t检验进一步比较了每个亚型通路的富集得分的差异,选择p值<0.01作为识别特定通路的阈值,筛选出60条通路,如图2A所示(x轴代表亚型,y轴代表涉及的信号通路)从图中可以看到,每个亚型都对应着不同的异常通路,作者推测这也是每个亚型具有不同临床表型的原因。作者还比较了先前基于TCGA数据报道的四种分子亚型和六种分子亚型之间的关系,如图2B所示。结果表明:C1,C2和C4的分化比例高于其他三组,而C3,C5和C6的免疫反应比例高于其他三组,然而,间充质和增生在每种亚型的分布上没有显著差异。
图2:分子亚型的通路分析
3、不同亚群差异表达lncRNA的分析和基因富集分析
作者首先使用R包DEseq2消除表达谱中平均计数小于1的基因(此步的目的是去除表达量过少的基因,减少接下来的计算量),以log2FC>1,FDR<0.05为阈值筛选每个亚型中不同的lncRNA和编码基因,表2列出了每种亚型的差异。
表2:不同亚型之间差异的统计数据
图3A-F列出了每个亚群的lncRNA的火山图,从图中不难看出总体上上调的lncRNA数比下调的lncRNA数要小,在这一步中,作者总共鉴定出了889个差异表达的lncRNA作者随后进一步分析,从LncRNA Disease以及Lnc2Cancer数据库中获取了611个与疾病密切相关的lncRNA,与之前鉴定的889个差异表达lncRNA比较,发现了89个与疾病密切相关的差异表达lncRNA(图3G以Venn图的形式进行了展示)
图3:不同亚群差异表达lncRNA的情况以及与疾病相关的差异表达lncRNA
在得到差异表达lncRNA后,作者对其进行了功能富集分析。在这篇文章中,作者选用了GSEA的方法(图4A-F)可以看出,筛选的差异表达lncRNA的大部分差异倍数集中在高表达倍数的区域。作者还使用R包UpsetR分析了六个亚型之间的lncRNA的交集,结果如图4G所示,从图4G可以看到,上端柱状图高的组别对应的黑点较少(黑点代表该位置有数据),所以大多数的差异表达lncRNA只在一种分子亚型中富集。
图4:A-F:GSEA分析的结果 G:差异表达lncRNA六个亚型的交集
4、卵巢癌中lncRNA拷贝数的概况
在简介中作者提到过,拷贝数改变(CNA)在肿瘤的发生和发展中有着重要的意义,所以接下来作者就把目光投向了CNA和卵巢癌之间的关系。GISTIC是一种用于识别更可能触发癌症发病机制的变异区域的算法,作者利用这种算法进行了分析。作者使用GISTIC软件分析了从TCGA下载的564种卵巢癌的拷贝数数据,首先从lncRNA中提取了拷贝数谱,以大于1的拷贝数作为拷贝扩增的阈值,将小于-1的拷贝数作为拷贝缺失的阈值,计算了每个lncRNA的拷贝扩增和缺失的比率,并观察了它们在基因组中的分布(图5A)以及lncRNA表达谱与拷贝数之间的相关性分布(图5B)图5A表明拷贝缺失数少于拷贝扩增数;图5B可以看出lncRNA的表达情况和拷贝数改变有强相关(灰色代表随机条件下的分布,粉红色代表实际条件下的分布)
图5A-B
作者还使用GISTIC算法确定了卵巢癌基因组中频繁变化的区域,如图5C–D所示,lncRNA复制缺失的频率大于复制扩增的频率。这表明lncRNA拷贝缺失可能与卵巢癌的发生和发展有关。(C图为扩增,D图为缺失)
图5C-D
5、基于LncRNA-CNV的OV患者预后生物标志物
为了研究拷贝数缺失或扩增调控的lncRNA表达是否影响卵巢癌患者的生存状态,作者选择每个样本中CNV比率大于5%且lncRNA与CNV之间的相关系数大于0.1的28个lncRNA,使用单因素生存分析根据lncRNA表达的中位数将样品分为高表达组和低表达组,对28个lncRNA中的每一个进行了生存分析,最终获得了3个预后显著的lncRNA,如表3所示。
表3:预后显著的3个lncRNA
这三个lncRNA的表达情况与CNV之间的相关性显示在图6A-C中,可以看出,随着拷贝数的增加,lncRNA的表达呈上升趋势。通过将样品分为低表达组和高表达组,作者绘制了如图6D-F所示的生存曲线,可以看出,LOC101927151的表达越低,卵巢癌患者的预后越差,而LINC00861和LEMD1-AS1的表达越高,则患者的预后越差。
图6:相关性情况和KM生存曲线
6、差异表达lncRNA的功能和通路分析
作者使用相关性分析(双侧Pearson相关)数和z检验检验了LINC00861,LEMD1-AS1,LOC101927151的表达水平与每种蛋白编码基因(PCGs)的相关性。与这些lncRNA的表达呈正相关的PCG被视为lncRNA-related PCG,随后作者将这些基因输入到Metascape数据库(基因功能分析网站)中,以进行功能和通路富集分析。
结果发现,LINC00861调控的靶基因主要富集于肿瘤相关途径,如淋巴细胞活化,T细胞活化和适应性免疫反应;LEMD1-AS1的靶基因主要在mRNA加工,纤毛组装和其他途径中富集;LOC101927151调控的靶基因主要富集于SA PRO-GRAMMED细胞死亡,小细胞肺癌和其他信号传导通路。
7、LINC00861中的通路和蛋白质-蛋白质相互作用富集分析
为了进一步分析LINC00861涉及的蛋白质-蛋白质相互作用情况,作者使用Cytoscape可视化网络,每一个节点代表一个富集的term,且节点先由其p值(图7A)着色,然后由聚类的ID着色(图7B)。使用BioGrid,InWeb_IM,OmniPath数据库进行了蛋白质-蛋白质相互作用富集分析,收集了针对单个基因列表识别的MCODE网络,如图7C-D所示。通路和过程富集分析已独立应用于每个MCODE部分,并且保留了按p值划分的三个最佳得分项作为相应部分的功能描述,如图7E中的表格所示。
图7:通路和蛋白质相互作用的富集分析
小结
在这篇文章中,作者聚焦于寻找由CNV异常引起的转录失调lncRNA,并筛选卵巢癌中与CNV相关的lncRNA预后生物标志物,基于包括PCG,CNV和甲基化在内的多组数据,确定了与卵巢癌患者预后相关的六种分子亚型,其中亚型5的预后最差。最后得出结论,即拷贝数变异引发的lncRNA失控会导致卵巢癌预后不良。这篇文章的不足之处在于缺少大量的卵巢癌多组学数据和临床数据,所以预测的精准性和可靠性有待商榷,此外,筛选得到的lncRNA的功能实验有待于下一步的验证。