急性髓系白血病的lncRNAs表观遗传图谱
咱们《生信技能树》的B站有一个lncRNA数据分析实战,缺乏配套笔记,所以我们安排了100个lncRNA组装案例文献分享,以及这个流程会用到的100个软件的实战笔记教程!
标题:Epigenetic landscape analysis of lncRNAs in acute myeloid leukemia with DNMT3A mutations
标题:DNMT3A突变急性髓系白血病的lncRNAs表观遗传图谱分析
杂志:Annals of T ranslational Medicine(2020)
通讯作者:戴钰俊
机构:中山大学肿瘤中心血液肿瘤科
文章链接:http://dx.doi.org/10.21037/apm.2020.02.143
摘要:
背景:急性髓系白血病(AML)是由一组高度异质性的血液系统恶性肿瘤组成的一种癌症。DNA甲基转移酶3A(DNMT3A)突变的AML患者预后较差。据报道,一些长的非编码RNA(LncRNAs)可以提高治疗敏感性,从而影响细胞遗传正常的晚期急性髓系白血病(CN-AML)患者的总体生存率,但关于DNMT3A突变的AML中的lncRNA特征的研究很少。
方法:建立DNMT3A R878H条件性敲入小鼠模型,采用Cuff比较法检测DNMT3A突变的lncRNAs。用顺式和反式调节网络预测候选基因。用博德研究所肿瘤细胞系百科全书(CCLE)和OncoLnc数据库分析白血病细胞系的表达水平和这些候选基因的预后指数。使用GraphPad Prism对每个样本的数据进行统计分析。
结果:本研究应用DNMT3A R878H条件性敲入小鼠模型,采用卡夫比较法研究了DNMT3A突变的lncRNA表观遗传格局。在 Dnmt3a^R878H/WT^Mx1-Cre^+^ 小鼠中发现了53个差异表达的LncRNAs。接下来,我们通过顺式和反式调控网络预测了这些lncRNAs调控的下游靶基因,发现124个候选基因与这些lncRNAs相关。在对124个基因的进一步分析中,我们发现 interleukin 1 receptor type 2 (IL1R2)、Krüppel-like factor 13 (KLF13),、A TPase H+转运V1亚单位A(ATP6V1A)、蛋白酶体26S亚单位、非A TPase 3(PSMD3)和吡咯啉-5-羧酸还原酶2(PYCR2)的mRNA表达水平升高与AML预后不良相关。功能分析表明,在Dnmt3a^R878H^/WTMx1-CRE^+^小鼠中,参与自噬、细胞周期和造血干细胞分化的通路更加丰富。
结论:本研究首次利用DNMT3A R878H条件性敲入小鼠模型预测AML中受DNMT3A突变调控的特异性lncRNA。有6个候选基因与DNMT3A突变相关,预后差。我们的研究结果为这种疾病提供了一种可能的治疗策略。
关键词:lncRNA;DNMT3A R878H;敲入小鼠;RNA-seq
材料方法
Dnmt3a^R878H/WT^Mx1-Cre^+^ 和 Dnmt3a^WT/WT^Mx1-Cre^+^ 小鼠的脊髓
DNMT3A由3个主要结构域组成:PWWP结构域、ADD结构域和C-末端催化域,绝大多数突变主要发生在C-末端催化域。
为了进一步探讨驱动错义突变DNMT3A-R882H的作用机制,我们利用先前报道的小鼠模型,通过Cre介导的内源性剪接表达了突变的DNMT3A R878H。
将在造血系统中特异表达的干扰素诱导Mx1启动子(Mx1Cre)的小鼠与DNMT3A突变小鼠杂交,然后用pIpC取代内源性DNMT3A外显子23,诱导DNMT3A R878H的表达。
2.RNA测序
测序平台:Illumina MiSeq 200-bp paired-end
3.lncRNA预测
比对:TopHat
组装:cufflinks
筛选:
长度≥200bp,外显子数量≥2 ORF<300bp Pfam,CPC ,CNCI去除具有蛋白编码能力的转录本 转录本类型:i u x
4.lncRNA靶基因预测
选择距离小于10kb的不含lncRNA的基因作为顺式调控的靶基因。
5.生存分析
主要是依赖于公共数据库
结果
1.DNMT3A基因在急性髓系白血病中的遗传图谱
为了探索DNMT3A在急性髓系白血病中的遗传图谱,我们利用cBioPortal对急性髓系白血病患者的DNMT3A改变进行了分析。531名患者中有114个样本DNMT3A改变, 并且主要是错义突变(p.R882驱动)和截断突变(putative driver),还包含一个意义未知的的整码突变和15个意义未知的错义突变。
p.R882 高频点突变,是预后不良的分子标志。
图B.四种不同突变类型换这个DNMT3A图变数。
图C.分析DNMT3A突变的详细癌症类型;NPM1最多。
2.RNA-sequence of Dnmt3a R878H mice
可以看到是6只小鼠的转录组测序数据,它们可以分成两个泾渭分明的不同组:
结果表明,小鼠样本间的相似性较高,相关系数均在0.9以上,说明样本选择的实验可靠性和合理性。
3.小鼠新lncRNA的预测结果
使用cuffdiff鉴定到23个差异表达的lncRNA。这个差异分析比较容易复现,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可;
解读GEO数据存放规律及下载,一文就够 解读SRA数据库规律一文就够 从GEO数据库下载得到表达矩阵 一文就够 GSEA分析一文就够(单机版+R语言版) 根据分组信息做差异分析- 这个一文不够的 差异分析得到的结果注释一文就够
接着去预测差异表达的lncRNA的靶基因。大量lncRNA的功能是未知的,但是它们主要是cis-regulators,所以可以根据它们临近的蛋白编码基因功能来近似推断,然后表达量的相关性也可以类推到。
根据位置关系推断 使用bedtools等工具!
表达量的相关性, 比如杂志Cancer Medicine, 2020的文章《 Genome-wide DNA methylation analysis by MethylRad and the transcriptome profiles reveal the potential cancer-related lncRNAs in colon cancer》,在进行结直肠癌相关lncRNA的功能富集分析,就是采用LncRN2Target v2.0和StarBase分析与15个lncRNA共表达的蛋白编码基因,其中lncRNA HULC和ZNF667-AS1分别鉴定到28个、9个共表达的蛋白编码基因!
研究者通过分析 找到11个顺式调控候选基因。113个反式调控候选基因。
在Dnmt3a^R878H/WT^Mx1-Cre^+^ 和 Dnmt3a^WT/WT^Mx1-Cre^+^间分析了这些候选基因的表达水平差异。这里使用EdgeR进行分析。
对差异基因的预后分析,发现了13个与急性髓系白血病预后密切相关的基因。
4.急性髓系白血病候选基因的功能分析及预后
IL1R2(P=0.0022)、KLF13(P=0.0134)、ATP6V1A(P=0.0295)、PSMD3(P=0.0165)和PYCR2mRNA水平升高与急性髓系白血病患者的总生存期(OS)显著相关(图6A)。
接下来,作者选择了两个细胞株OCI-AML3(含有DNMT3A R882C突变和NPM1突变)和OCI-AML2(含有DNMT3A R635W突变),试图探讨这些基因在具有NPM1和/或DNMT3A突变的AML患者细胞系中的表达水平。基于CCLE的结果显示,与OCI-AML2细胞相比,这些异常基因在OCI-AML3细胞中表现出更高的表达。
通过差异lncRNA预测调控的靶基因,然后分析差异表达的靶基因,进而发现与预后相关基因。
我在生信技能树多次分享过生存分析的细节;
人人都可以学会生存分析(学徒数据挖掘) 学徒数据挖掘之谁说生存分析一定要按照表达量中位值或者平均值分组呢? 基因表达量高低分组的cox和连续变量cox回归计算的HR值差异太大? 学徒作业-两个基因突变联合看生存效应 TCGA数据库里面你的基因生存分析不显著那就TMA吧 对“不同数据来源的生存分析比较”的补充说明 批量cox生存分析结果也可以火山图可视化 既然可以看感兴趣基因的生存情况,当然就可以批量做完全部基因的生存分析 多测试几个数据集生存效应应该是可以找到统计学显著的! 我不相信kmplot这个网页工具的结果(生存分析免费做) 为什么不用TCGA数据库来看感兴趣基因的生存情况 200块的代码我的学徒免费送给你,GSVA和生存分析 集思广益-生存分析可以随心所欲根据表达量分组吗 生存分析时间点问题 寻找生存分析的最佳基因表达分组阈值 apply家族函数和for循环还是有区别的(批量生存分析出图bug) TCGA数据库生存分析的网页工具哪家强 KM生存曲线经logRNA检验后也可以计算HR值
生存分析是目前肿瘤等疾病研究领域的点睛之笔!
文末友情推荐
与十万人一起学生信,你值得拥有下面的学习班: