lncRNA与甲基化碰撞,5分 发文思路
题目:Pan-cancer characterization of long non-coding RNA and DNA methylation mediated transcriptional dysregulation
泛癌的lncRNA和DNA甲基化介导的转录失调研究
摘要
背景:DNA甲基化扰乱(DNAm)是癌症的关键特征之一,然而癌症中DNA甲基化调控的机制还不是十分清楚。
流程图
结果
1. 数据的获取和整理
从TCGA下载RNA-seq数据和DNAm数据,分析癌症包括BLCA,BRCA,CESC, CHOL,COAD,ESCA,HNSC,KIRC,KIRP,LIHC,LUAD,LUSC,PAAD,PRAD,READ,THCA和UCEC。
2. 全面分析癌症的多组学数据
首先,作者从TCGA数据库下载18种癌症的RNA-seq数据,DNA甲基化数据和拷贝数数据并分析。乳腺癌的相关性热图分析显示,顶部的数据与激素受体状态相关性较强。作者将乳腺癌样本分为两组,分别为ER+(雌激素受体阳性)和ER-(雌激素受体阴性)。同时,作者对每种癌症的lncRNA进行分析,共鉴定到14325个lncRNA,每种癌症的lncRNA数量在10438到14013之间,lncRNA和编码蛋白基因表达水平分析研究发现lncRNA的表达量较低。
3. 18种癌症的DNA甲基化介导的lncRNA调控情况
整合分析不同癌症的Exp-DNAm-CNV和lncRNA-基因调控(图1a)。作者首先鉴定每种癌症的差异表达基因和差异甲基化基因,随后作者鉴定基因水平以来甲基化水平的转录调控回路。使用多元回归模型鉴定癌症中高甲基化启动子和低表达基因以及低甲基化启动子和过表达基因(图1b)。此外,作者得到与启动子甲基化和编码蛋白基因表达有关的lncRNA调控因子(图1c)。使用这种方法,作者鉴定18种癌症中lncRNA介导的甲基化失调(图1d)。分析lncRNA调控因子的特征(图1e)。
图1 泛癌lncRNA介导DNA甲基化扰动分析流程图
4. 甲基化介导的lncRNA调控网络的性质
作者首先分析了癌症中MeLncTRN的拓扑特征(图2a),lncRNA调控网络具有无尺度的特征。结果表明,大部分节点间没有相互作用,仅有少部分节点具有相互作用(图2b)。此外,作者发现degree高的lncRNA与启动子甲基化和靶基因表达相关性更强(图2c和2d)。这些结果表明,lncRNA靶基因越多则调控作用越强。
图2 全面分析癌症中lncRNA-基因的相互作用
5. 保守的lncRNA调控因子在癌症中具有重要作用
作者首先计算存在lncRNA调控的癌症数量,大部分lncRNA调控发生在特定癌症类型中,仅有一小部分在泛癌中发生(图3a)。对于lncRNA调控因子仅有17%发生在一种癌症中,有89.8%lncRNA-基因互作发生在特定癌症类型中。组织特异性的lncRNA调控因子和靶点主要存在在肾癌中(图3b)。作者进一步根据lncRNA调控因子发生癌症中的数量分为三类:癌症特异性(仅发生在一种癌症中),中度(发生在2-14种癌症类型中)和泛癌(发生在15种癌症中)。lncRNA调控因子的作用程度分析发现,泛癌的调控因子的表达水平较高(图3c)。随后,作者根据lncRNA调控因子在正常组织中的表达水平计算组织特异性指数,作者发现泛癌的调控因子组织特异性较低(图3d)。GTEx的数据结果与之一致(图3e)。此外,作者发现泛癌的lncRNA调控因子在启动子区的序列保守性较高(图3f)。
图3 lncRNA调控因子分类和癌症中的调控特征分析
6. 相似组织的癌症的lncRNA介导的甲基化失调类似
大量研究表明,相似组织的癌症的基因,miRNA和lncRNA表达水平类似。作者根据lncRNA,基因和lncRNA-基因情况,计算癌症之间的Jaccard指数以确定癌症之间的相似性(图4a-4c)。作者发现相似组织的癌症可能具有相同的lncRNA调控因子。这一结果表明,来源相似的组织的癌症可能具有相似的调控机制。对相同组织的癌症中的lncRNA调控因子的靶基因进行GO分析(图4d)。
图4 全面比较泛癌lncRNA调控网络
7. 异常表达的lncRNA调控因子具有生物医学意义
作者在泛癌的表达水平分析lncRNA调控因子的异常调控模式。作者发现大量lncRNA调控因子在癌症中的表达模式不同(图5a)。lncRNA调控因子的分布发现,有2160个lncRNA调控因子在一种癌症中差异表达,7043个lncRNA调控因子在少于5种癌症中差异表达,仅有219个lncRNA调控因子在多于10种癌症中差异表达(图5b)。作者在多于12种癌症中鉴定到共有的差异表达lncRNA141个,这141个lncRNA在泛癌中的调控因子显著富集(图5d)。此外,作者发现lncRNA调控因子在特定癌症中起到关键作用。ENSG00000227036 (LINC00673/LINC00511)在14种癌症中上调表达,生存分析表明ENSG00000227036 (LINC00673/LINC00511)的表达与KIRC预后不良有关(图5e)。ENSG00000203499 (FAM83H-AS1)可以调控多种癌症的表达且在18种癌症中差异表达,ENSG00000203499 (FAM83H-AS1)上调与PAAD预后不良有关(图5f)。
图5 lncRNA调控因子的表达分析
8. 不同癌症的保守网络核心的功能不同
接下来,作者研究网络中的核心以确定他们是否在癌症中发挥重要作用。作者选择网络中排名前10的lncRNA和基因,共有2823个lncRNA和920个蛋白编码基因(图6a和6b)。随后,作者研究核心lncRNA和非核心lncRNA的表达模式。在大部分癌症中,核心lncRNA的表达水平较高(图6c)。其中,ADAMTS9-AS2是10种癌症的核心lncRNA,在不同癌症中调控的靶基因不同,NKAPL为共有靶基因(图6d)。功能分析表明ADAMTS9-AS2在癌症中具有不同功能(图6e和6f)。
图6 甲基化介导lncRNA调控网络的核心分析
9. 临床相关的lncRNA网络模块可以作为预后标志物
作者整合生存信息筛选预后相关的lncRNA调控因子。作者将每类癌症数据随机分为训练集和验证集,使用cox回归分析鉴定网络中生存相关的lncRNA/基因。作者鉴定到5.32%的lncRNA/基因与生存相关(图7a)。不同lncRNA调控因子的临床相关性差异分析表明甲基化相关的lncRNA调控网络对预后十分重要(图7b)。随后作者计算每个网络的风险打分,共有2061个模块可以根据生存期将癌症样本分开(图7c)。其中涉及lncRNA CRNDE(图7d)的模块与患者生存有关(图7e和f)。
图7 lncRNA调控网络的临床分析
10. 可用于研究甲基化相关的lncRNA调控扰动的数据库
为便于用户研究癌症中甲基化介导的lncRNA调控模式和相关的靶基因转录失调,作者搭建了在线数据库MeLncTRN(http://compgenelab.info/MeLncTRN/)。该数据库可以查询lncRNA或靶基因在癌症中的相互作用并提供下载功能。
结论
作者根据18种癌症的RNA-seq数据和DNA甲基化数据构建甲基化介导的lncRNA调控网络并搭建了相关数据库。本文的局限性在于预测的lncRNA调控因子需要进一步的实验和计算研究。