筛完miRNA以后要怎样补分析?
Identification and functional analysis of specific MS risk miRNAs and their target genes特异性MS风险miRNA及其靶基因的鉴定与功能分析
一、研究背景
多发性硬化症(MS)是一种慢性自身免疫性疾病,与中枢神经系统(CNS)白质脱髓鞘有关。目前,多发性硬化症的诊断主要依靠其临床表现和MRI图像,所以难免会出现诊断上的错误。因此,我们需要在血液中寻找可靠的生物标志物。已有研究表明miRNAs与MS之间存在着相关性,miRNAs在人体液体中也呈现出很高的稳定性,miRNAs在血液中的可检测性也比在细胞中的可检测性高得多,所以,细胞外miRNAs有望作为MS的潜在诊断和预后生物标志物。
二、分析流程
三、结果解读
1. 筛选文献
首先,需要筛选包含miRNA的MS的文章。作者于是从PubMed、Web of Science和Google Scholar数据库中查阅了104篇文章来筛选与MS有关的miRNA,最终确定了9篇符合条件的文章(表1)。
筛选标准为:(以后大家筛选文献也可以效仿这个标准来筛)
样本来自人类血浆或血清(所需要的样本来源的组织)
病例组和对照组的样本量应分别不低于10个(样本量要尽可能高)
排除了报道MS患者接受药物逻辑治疗的研究(排除其他因素干扰)
miRNA表达前驱必须经过PCR实验验证(实验要严谨)
表1. 符合条件的9篇文章
2. 从文献中获取与MS有关的miRNA及其在人类染色体上的位置
然后需要从已得到的文献中筛选miRNA,筛选的标准为:
排除重复的miRNA
排除在这些文献中表达不一致的miRNA,筛选在所有文献中表达上调和下调都一致的miRNA
作者从符合上述标准的文献中筛选出28个差异表达的miRNA(表2)。作者发现:
let-7家族成员(let-7a、let-7d和let-7f)紧密位于人类chr 9中,并且在MS中具有相同的表达模式(上调);
miR-24-3p、miR-23a、miR150和miR-181c均位于人19号染色体上,并且miR-24-3p和miR-23a在染色体上的位置非常靠近。
表2. 与MS有关的miRNA及其在人类染色体上的位置
3. 通过GO分析获取miRNA下游的靶基因并得到其功能
接下来需要寻找miRNA的靶基因并探究其功能。
作者利用miRSystem和miRTarbase数据库找到了数千个靶基因。接着进行GO富集分析,发现889个基因富集在已知的免疫相关通路,于是把这些基因作为探索集基因。此外,作者还列举了GO分析的结果(图1):
细胞成分(CC)方面,200多种免疫相关基因编码的蛋白主要位于膜封闭腔和细胞器腔。其他位于核腔、胞内细胞器腔、胞液和核质。
分子功能(MF)方面,大多数基因在转录中起调节作用(约250个基因)。
此外,作者还将这些基因与MS相关的miRNAs的匹配结果列举了出来(图2),发现:
miR-181a拥有最多的MS相关基因(176个),说明miR-181a是MS相关基因表达的关键调控因子。
miR-223、miR-128-3p、miR-24-3p和let-7a的下游靶基因数目也比较多,值得进一步深入研究。
图1. GO分析结果,细胞成分(左)和分子功能(右)
图2. 通过靶基因数目的多少来判断miRNA在预测MS中的重要性
4. KEGG富集分析确定与MS有关的通路
作者使用KEGG富集分析,确定了60条与MS相关的重要通路(表3)。其中,HSA04010(MAPK信号通路)、HSA04722(神经营养素信号通路)、HSA04660(T细胞受体信号通路)、HSA04210(细胞凋亡通路)、HSA04012(ErbB信号通路)、HSA04662(B细胞受体信号通路)和HSA04664(Fc epsilon RI信号通路)为前7条MS风险通路。
表3. KEGG富集分析结果
5. 确定枢纽基因并构建PPI网络
作者使用Cytoscape软件构建了通过KEGG富集分析筛选到的7个MS通路与这些通路的富集基因之间的网络(图3)。结果作者通过该网络确定了3个枢纽基因:
PIK3R2:受miR-30e和miR-93调控
PIK3R1:受miR-128-3p和miR-155调控
PIK3CA:受miR-155调控
图3. MS风险通路和富集基因之间的网络(绿色节点代表7条MS风险通路,蓝色节点代表各信号级联中的靶基因,红色节点代表枢纽基因)
作者使用STRING数据库和上面已经筛选得到的889个基因建立PPI网络,并使用Cytoscape软件将结果可视化(图4):网络一共有37个节点,其中中心性最高的枢纽基因是MAPK8。
图4. PPI网络(蓝色节点代表富集基因,红色节点代表枢纽基因)
根据上面构建的MS风险通路-基因网络以及PPI网络分析的结果综合得到MS的枢纽基因是PIK3R2、 PIK3R1、PIK3CA和MAPK8。
6. 使用高通量转录组数据集对靶基因进行评估
最后一步就是对上述实验所得结果的验证(至关重要)。
作者从GEO数据集中选择了6组高通量转录组数据集,使用limma包对差异表达基因DEGs进行筛选,并将MS相关基因(这里指的是上面那富集到889个免疫相关通路的基因)与每组的差异表达基因进行了比较(表4),发现枢纽基因PIK3CA在GSE21942(fold change= 0.81,p = 0.0035)和GSE117935(fold change= 1.29,p = 0.019)中差异表达,而PIK3R1、PIK3R2和MAPK8无统计学意义。
表4. 6个用于验证的转录组数据集
小结
文章到这里已经介绍完了,作者首先在网络上筛选与MS有关的文献,并从中找到与MS有关的miRNA;接着作者进行GO分析来寻找miRNA下游的免疫相关基因;然后作者利用KEGG富集分析和PPI网络分析筛选枢纽基因并利用GEO数据库对结果进行验证。