【科研】转录组测序数据分析
引言
前面两期主要为各位简单介绍了转录组测序以及转录组测序的方法,相信各位对转录组测序有了一定的了解。那么测序后进行数据分析,具体包含哪些分析内容呢?本文就详细为各位介绍一下。
分析内容
mRNA是具有编码蛋白的功能RNA,mRNA测序(mRNA-seq)是通过Illumina测序得到某一物种特定细胞或组织在某一状态下的几乎所有mRNA,来衡定基因的表达水平。可鉴定多个样本中有哪些基因(or转录本)表达,不同样本(不同处理组)中哪些基因表达量具有差异。找到具有显著性表达差异的基因,研究基因功能、结构、可变剪接、新转录本预测、GO功能富集,KEGG通路分析,找到与表型、疾病、生理等变化相关的分子机制。
壹
比对物种参考基因组
1)mRNA可变剪切分析
根据前面与基因组的比对结果,我们使用rMATs软件进行可变剪切分析,该软件可分析单样本的可变剪切,也可同时分析样本之间的差异可变剪切,主要包括SE、RI、MXE、A5SS、A3SS五种可变剪接事件。对于表达差异显著性的可变剪接事件,进行可视化展示。
2)变异分析
变异位点分析是RNA-seq结构分析的重要内容,主要包括先天变异位点和后天体细胞突变位点的检测,对肿瘤等研究具有重要意义。使用GATK软件对样本数据进行变异位点分析,并对变异位点进行注释。变异位点注释包括变异位点信息,变异位点所在基因信息,变异危害分析,各类公共数据库注释,致病变异参考文献注释(HGMD、ClinVar等)等。
3)融合基因分析
融合基因是指两个基因的全部或部分序列融合而成的嵌合基因,一般由染色体易位、缺失等原因所致。
融合基因产生原因示意图
4)检测新转录本
使用 StringTie 软件将每个样本与基因组的比对结果进行潜在转录本的预测,内容包括新预测转录本所属基因、染色体编号、起始&终止位置、长度、外显子数等。
贰
基因表达量分析
基因的表达定量分析分为 Gene Level 和 Transcript Level两个级别,表达量用FPKM表示,根据FPKM≥0情况对表达基因数目及表达转录本数目、详情进行统计分析。
1)基因差异表达分析
差异表达分析重点在于找出样本之间显著差异表达的基因,并对这些基因进行深入挖掘分析。利用火山图(Volcano Plot)可以对不同样本组间差异表达基因进行图形化展示。
MA 图主要应用在基因组数据可视化方面,实现数据分布情况的展示。可利用MA 图对高通量测序数据中基因差异表达分析结果进行展示。
2)基因功能分析
GO (Gene Ontology)是描述基因功能的综合性数据库,可分为分子功能(Molecular Function),生物过程(biological process)和细胞组成(cellular component)三个部分。从GO富集分析结果中,选取每个部分最显著的Term绘制散点图进行展示。
KEGG(Kyoto Encyclopedia of Genes and Genomes)是整合了基因组、化学和系统功能信息的综合性数据库。从KEGG富集结果中,选取最显著的通路绘制柱状图进行展示。
结语
除mRNA的数据分析外,对于lncRNA、circRNA、miRNA的数据分析均有其特殊的数据分析方法。这是本期介绍的全部内容,下一期将对转录组测序的应用进行介绍,敬请期待~