TCGA的28篇教程-数据挖掘三板斧之ceRNA
长期更新列表:
使用R语言的cgdsr包获取TCGA数据(cBioPortal)TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)TCGA的28篇教程- 使用R语言的RTCGAToolbox包获取TCGA数据 (FireBrowse portal)TCGA的28篇教程- 批量下载TCGA所有数据 ( UCSC的 XENA)TCGA的28篇教程- 数据下载就到此为止吧TCGA的28篇教程- 指定癌症查看感兴趣基因的表达量TCGA的28篇教程- 对TCGA数据库的任意癌症中任意基因做生存分析TCGA的28篇教程-整理GDC下载的xml格式的临床资料
TCGA的28篇教程-风险因子关联图-一个价值1000但是迟到的答案
通过前面的学习我们掌握了TCGA数据库的下载技巧以及初步探索技巧,但是距离一个完整的数据挖掘故事还有一点路,本教程首先介绍数据挖掘三板斧之ceRNA。
内容有点多,我会首先分享我们生信文献俱乐部的小伙伴的文献阅读笔记,最后附上ceRNA演讲的PPT。
ceRNA在线工具LncmiRSRN
Abstract
Motivation: 目前一些计算方法都是基于2011年的那个ceRNAs假设,研究lncRNAs和miRNA靶mRNAs之间的竞争关系。但是,当mRNAs脱离miRNAs的控制之后,海绵lncRNAs如何影响这些mRNAs的表达水平还不是很清楚。
Results: 所以,本篇文章作者提出一个新的方法用来构建lncRNA related miRNA sponge regulatory networks (LncmiRSRNs)。然后基于这个方法,作者对4个人类癌症分别建立了调控网络,最后对这些网络进行了分析。
Introduction
提出问题:
首先看一下作者的论题是怎么提出来的,我们知道miRNA海绵与mRNAs竞争吸引miRNAs的结合,缩减了miRNA转录本的数量。这些miRNA海绵从靶mRNAs竞争性的扣押了miRNAs,因此mRNAs脱离了miRNAs的控制。当mRNAs从miRNAs的控制中被释放出来,一个需要考虑的问题是这些被释放的mRNAs的表达水平是怎样被激活的,也就是说它们是怎么恢复翻译的。
一个可能的解释是释放的mRNAs的表达水平通常由其自身激活,并且原则上可以被翻译,这个解释是ceRNA假说的一个隐含的推论。另外,如果释放的mRNAs仍然处于一个未激活状态,那么它们的表达水平是如何被激活的呢? 先前的研究表明lncRNAs可以增加mRNA的稳定性并因此调控mRNA的表达。因此,另一个可能的解释是这些释放的mRNAs的表达水平是被它们竞争伙伴激活的,例如海绵lncRNAs。
提出假设:
所以,在这篇文章中作者做出的假设是,lncRNAs作为潜在的调控者激活脱离miRNA控制的mRNAs的表达水平。因此,这篇文章的目的也就是探索lncRNAs和释放的mRNAs之间的调控关系。作者的方法区别于目前存在的一些方法,那些方法仅仅在于识别lncRNA相关的海绵网络。
创新之处:
现存的方法都是基于统计相关性来研究海绵lncRNAs和mRNAs之间竞争关系,然而根据假设,海绵lncRNAs和mRNAs之间存在因果关系,所以作者提出了一个基于因果的计算方法。
然后我去查了一下这个所谓的因果关系,现在对大数据分析的传统方法是我们熟知的做统计性的关联、聚类和分类等分析,注重的是数据的关联性,但是如果A和B具有相关性,则只能反映A和B在取值时相互影响,并不能告诉我们具体谁影响谁。所以传统的统计方法不能检测出这种因果关系,而因果关系很大程度上阐释了事物间的本质联系,所以研究者们为了从观测数据中推断相关事物可能存在的因果关系,开发了一些新的计算方法。这里作者用的是IDA、PC算法,有兴趣的可以具体了解一下算法的原理。
Data sources
Matched lncRNA and mRNA expression profiles of human cancers
从(DU et al.,2013)文章中获取全基因组匹配的人类癌症lncRNA和mRNA表达谱数据,预处理如下:
移除没有gene symbols的lncRNAs和mRNAs微阵列数据;
同一个lncRNAs或mRNAs的多个探针取平均值;
从451个GBM、113个LSCC、585个OcCa和150个PrCa样本中共取得了9704个lncRNAs和18282个mRNAs的表达谱;
从TCGA和MSKCC数据库中获取这些样本的临床信息。
Du,Z. et al. (2013) Integrative genomic analyses reveal clinically relevant long noncoding RNAs in human cancer. Nat. Struct. Mol. Biol., 20, 908–913.
Putative miRNA-target interactions
从miRTarBase和TarBase 中收集了9318个实验验证的miRNA-mRNA互作关系;
从NPInter和LncBase中收集了173468个有实验证据的miRNA-lncRNA互作关系;
Overview of LncmiRSRN
作者提出的方法主要包括以下几个步骤:
推断lncRNA相关的miRNA海绵互作 ;
给定假设的miRNA-target互作,候选的lncRNA-mRNA对要满足两个条件:
lncRNA和mRNA具有显著共享的miRNAs;
这里作者设定至少共享3个miRNAs,然后BH调整过的超几何检验P-value<0.01;
lncRNA和mRNA表达显著正相关;
使用表达谱数据计算Pearson相关系数,设置BH调整后的P-value<0.01。
评估海绵lncRNAs对mRNAs的因果效应 ;
首先提取上一步得到的海绵lncRNA-mRNA对的表达谱数据,然后使用IDA计算海绵lncRNAs对mRNAs的因果效应,该方法包括两步:
第一步:使用ParallelPC包实施一个PC算法,得到两个变量(lncRNAs、mRNAs)之间的因果结构;
第二步:基于学到的因果结构和表达谱数据使用IDA方法评估每一个海绵lncRNA对所有mRNAs的因果效应;
构建lncRNA相关的miRNA海绵调控网络 ;
使用WGCNA的corPvalueFisher,基于上一步计算的因果效应,评估海绵lncRNA-mRNA互作的力度,BH调整后的P-value<0.05的被看作是海绵lncRNA-mRNA调控关系。组合这些关系就得到了调控网络。
基于这个流程,作者分别对四种癌症构建了4个调控网络;
Subsequent analysis
Topological properties of the LncmiRSRNs
这一步分析主要是针对网络的物理特性,包括对网络节点度的分布和网络相似性两个方面;
我们知道图论中度的定义是与某节点相连的边的数量,有研究已经证明生物网络的一个最重要的特性就是无尺度化,无尺度网络其实就是指具有某个度的节点的个数与这个度成减函数,通俗的讲就是度越大,节点数越少,更精确的讲就是网络中度的分布遵守幂律分布;
接下来作者把前20%具有最高度的lncRNAs作为hub lncRNAs,然后将hub lncRNAs 和海绵lncRNA-mRNA调控关系分为两类:
保守的:至少存在于两个癌症的LncmiRSRNs;
差异的:仅存在与一个癌症的LncmiRSRNs;
另外,使用下面的公式计算网络的相似性:
Survival and enrichment analysis for LncmiRSRN network modules
生存分析
在对每个LncmiRSRNs做生存分析和富集分析之前,作者首先利用R包ProNet实施Markov Clustering Algorithm (MCL) ,识别LncmiRSRNs中的模块,对于每一个模块,要求海绵lncRNAs和mRNAs的数量都至少为两个;
然后使用R包survival和survcomp对识别的模块执行生存分析。
功能富集分析
为了进一步理解这些模块相关的潜在的生物学进程和通路,使用R包clusterProfiler进行功能富集分析。GO条目和KEGG通路设置的阈值为BH调整后P-value<0.05;
另外,作者从LncRNADisease和MNDR 这些与疾病相关的数据库中收集了与这4种癌症相关的lncRNAs;从DisGeNET中收集了与这4种癌症相关的mRNAs。
Results
The LncmiRSRNs in human cancers
图A是4个癌症中调控网络的节点度的分布,所有的分布均符合幂律分布,R2>0.95,表明这四个LncmiRSRNs都是无尺度的,复合大规模的真正的生物学网络;
图B是统计的海绵lncRNAs对mRNAs的因果效应,在四个癌症中正调控对都远超于负调控对,表明大多数海绵lncRNAs对mRNAa的表达水平都是积极的影响,反过来讲,就是mRNAs通常受海绵lncRNAs的上调;
图C和图D分别四个癌症中海绵lncRNA-mRNA调控关系和hub lncRNAs的交集,下面的是相似矩阵。 图中可以看到很小的一部分是在四个癌症共有的,大部分都是癌症特异的,说明调控关系在不同癌症中大都是重布线的。
Network analysis reveals rewired and pivotal LncmiRSRNs across human cancers
接下来作者拿出差异的和保守的海绵lncRNA-mRNA调控关系子网进一步分析;
图A是子网的节点度分布,也都复合幂律分布,属于无尺度网络;
为了评估四个癌症中是否存在一个共同的核心调控关系,作者重点探究了保守的调控子网。图B是在四个人类癌症中都存在的调控网络,查询到了其中5个lncRNAs和14个mRNAs是在在现有的癌症相关的数据库中描述为为与这四种癌症至少其中一个是有关的;
图C是在GBM癌症数据中做的生存分析,使用保守的调控子网中的lncRNAs和mRNAs作为协变量建立多因素Cox风险比例模型,然后根据计算出的风险得分将样本分为高风险群体和低风险群体,然后计算群体之间的风险比例Hazard Ratio(HR),最后进行log-rank test,产生这个Kaplan Meier曲线。图C风险比例为2.28,检验P值为0,表明保守子网的这些lncRNAs和mRNAs可以作为预后基因用来区分GBN患者的转移风险;
这四张图都表明保守的调控子网可以作为人类癌症之间共同的调控枢纽。
Differential and conserved hub lncRNAs are potential cancer drivers
结果的第三块,作者分析了找到的hub lncRNA。这里作者共找到69个差异的和70个保守的hub lncRNAs,其中2个差异的、9个保守的hub lncRNAs可查询至少与四个癌症中的一个有关系(图A),表明这些hub lncRNAs可能是癌症的驱动者;
然后作者还是重点关注保守的hub lncRNAs,图4B是用它们做的生存分析得到的风险比例和检验P值,表明这些hub lncRNAs可以显著的区分这四个癌症的转移风险;
图4C描述的是这些保守的hub lncRNAs它们对应的调控关系在四个癌症中的分布情况,可以看出大部分的调控关系倾向于是癌症特异的,表明保守的hub lncRNAs在不同癌症的生物学进程中调控不同的靶标;
Functional annotation of differential and conserved LncmiRSRN network modules
结果的第四部分是对保守的和差异的网络模块进行功能注释。作者总共识别的差异和保守的模块分别为55个和29个。功能富集分析显示52个差异模块和28个保守模块至少富集有1个GO条目和KEGG通路。将癌症相关的基因map到这些模块,结果发现所有的模块都包含至少与一个癌症有关的基因。结果表明这些差异和保守的模块可以作为癌症相关的模块。
Differential and conserved LncmiRSRN network modules can distinguish metastasis risks of human cancers
结果第五部分,作者用差异和保守的模块做生存分析,寻找HR不<1.5,P<0.05的模块作为模块生物标记,用来预测这四个癌症患者的转移风险。最后对应于四种癌症,分别有14,28,13,15个差异的模块,3,14,2,10个保守的模块。
PPT分享
ceRNA点读