数据不够思路来凑:非肿瘤生信反向操作预测ncRNA和TF
导语
今天和大家分享的是2019年5月份发表在AGING 杂志上的一篇文章“Analysis of transcription factor- and ncRNA-mediated potential pathogenic gene modules in Alzheimer’s disease ”(IF=4.831)。文章中作者基于阿尔茨海默氏病患者(AD)和健康个体之间差异表达的基因构建了PPI网络,挖掘目标基因以及调控它们的ncRNA和TF的功能模块,为进一步研究AD发病机制提供了候选靶点。
Analysis of transcription factor- and ncRNA-mediated potential pathogenic gene modules in Alzheimer’s disease
转录因子和ncRNA在阿尔茨海默氏病中介导的潜在致病模块分析
一、研究背景
随着全球人口的老龄化,阿尔茨海默氏病(AD)的患病率和相关死亡率不断增加,这给患者家庭带来了巨大压力好负担。AD患者中最常见的症状包括抑郁,认知障碍,尿失禁和炎症。这种疾病的特征是存在淀粉样蛋白β斑块和神经原纤维缠结,几个基因已经与AD的风险很高,包括CR1,CD33和TREM2有关。一些非编码RNA(ncRNA)和转录因子(TF)在疾病中也起着重要的调节作用,包括microRNA-200a,microRNA-200a-3p ,MALAT1 和microRNA-186。AD是涉及多个基因和信号级联的复杂疾病。
二、研究思路
三、结果解读
用于鉴定AD中差异表达基因的数据集GSE110226的临床信息如表1所示:
表1:数据集GSE110226的临床信息
1、基因集富集分析
该分析表明,AD样品在与蛋白质调节相关的生物学过程(例如“蛋白质成熟的负调节”和“蛋白质自磷酸化”)中显着丰富。KEGG通路分析表明,AD样品在神经营养通路(例如磷脂酰肌醇和神经营养蛋白信号传导)中大量富集。
图1. GSEA,差异分析和聚类分析
2、差异表达基因和聚类分析
在GSE110226数据集中共鉴定了4239个差异表达基因(DEG),其中2542个上调而1697个下调。使用前100个上调的DEG和下调的DEG进行聚类分析。聚类分析表明,这200个DEG的表达模式可以准确区分AD与对照样品(图1D)。
3、PPI网络及其模块化分析
使用STRING v10数据库,构建了具有3861个基因节点和268363个边缘的PPI网络。网络中具有最高W值的基因节点为SLC11A1,SERPINE1,EFCAB3,PIM1,IL6,BCL6,RND3,ZBTB16,LRG1和RASL10B。这些被认为是中心基因。使用ClusterONE插件内聚引导算法,挖掘了包含1730个相关基因的20个功能模块。
图2. 基因模块的功能富集
为了探索功能模块在AD发病机理中的作用,对每个模块进行了GO功能和KEGG通路富集分析。GO功能富集的结果显示了2114个生物过程,296个细胞成分和393个分子功能的GO术语,而通路富集分析则确定了1203条KEGG通路。发现六个模块在线粒体内膜和线粒体基质的GO方面显着丰富。图2D显示了涉及八个以上模块的KEGG途径。这20个功能模块中的任何一个或几个都可以一起发挥作用,以形成AD疾病网络。
4、模块相关的ncRNA和TF
超几何分布预测了706个ncRNA参与1198对ncRNA和目标功能模块。MicroRNA-32-5p可能调控八个功能模块,MALAT1可能调控七个功能模块,而let-7d-5p,TUG1,microRNA-136-5p和microRNA-181c-5p可能调控六个功能模块(图3A)。
图3. 基因相关的ncRNA / TF的模块化网络调控图
超几何分布预测涉及77对TF和目标功能模块的TF。这些TF在AD中差异表达的程度不同。预测PPARA调节三个功能模块,而预测ABL1,SP1,STAT6和TBP调节两个功能模块。
这些结果表明,六个ncRNA和五个TF可能与AD发病机理密切相关。为了减少假阳性,对五个TF与目标基因进行了相关性分析,并使用由此产生的显着相关性来构建网络。将该网络与KEGG富集分析相结合,能够构建与AD相关的ncRNA / TF靶基因-途径整合的调控网络,如上图。
5、验证差异表达和ROC分析
使用GSE33000数据集验证了具有前10个W值和上述五个TF的基因的表达。10个基因中的八个(BCL6,EFCAB3,IL6,LRG1,PIM1,SERPINE1,SLC11A1,ZBTB16)和两个TF(PPARA和STAT6)在AD中显着上调(p <0.05),与GSE110226。ROC曲线分析表明,这些分子可能是AD诊断的潜在生物标志物。对于GSE110226数据集(AUC=0.976)和GSE33000数据集(AUC=0.905)的BCL6尤其显著。
图4. 8个差异表达基因和两个转录因子的差异表达验证和ROC分析
四、小结
在这项研究中,作者从GEO收集了GSE110226中AD的基因表达谱和正常人对照,确定了AD 和健康对照之间差异表达的基因并构建PPI网络,然后进行富集分析,使用超几何分布预测了与AD相关的功能模块中涉及的潜在ncRNA和TF调节因子,确定了70个差异表达的TF,另一个数据集验证了PPI网络中的10个基因和5个TF的最高W值,从而确定了与AD相关的功能基因模块以及调控它们的ncRNA和TF,有助于进一步研究AD。