RNA-seq老司机领读转录组结题报告
生信技能树之前有参组学异同点的视频讲座受到了不少朋友的欢迎,那次讲解主要是从原理来说明各种组学的测序位置和测序深度,并没有涉及到后续的数据处理。如果还想看视屏内容,可以在微信公众号后台回复”视频“查看获取方式。
其实大家更关心的是数据处理问题,为此我们在前期已经推送过两篇相关内容,如果还没看过的朋友可别落下。
WGS,WES,RNA-seq组与ChIP-seq之间的异同(点击查看原文)
做过1000遍RNA-seq的老司机告诉你如何翻车(点击查看原文)
因为做了多年NGS组学数据处理,看了不少业内知名公司有参转录组结题,再结合自己的一些经验, 生信技能树公众号将系统整理多种组学分析流程和大家分享,如果不想错过就关注我们的公众号然后置顶吧~
RNA-seq的分析流程
这一次我们首先了解RNA-seq的分析流程
总的来说,各种有参组学分析要点大同小异,利用主流分析软件结合数据库来解释分析结果。一份报告可以出近百张花花绿绿的figures,我们先看看大致内容。
标配内容:(不可能没有的)
测序数据的一些统计及过滤
比对情况的说明及统计
基因表达信息的统计
差异分析表达富集分析(GO/KEGG等数据库注释)
常见内容:(基于不同需求基本都有的)
基于转录本的可变剪切统计
新转录本探索及注释
转录本结果优化
融合基因分析
SNP分析
lncRNA分析
蛋白互作网络分析
转录因子相关分析
说明:如果专门针对lncRNA进行深入分析,对建库方式和测序深度都有不同的要求。
下图就是一个最常见基本的解题报告目录
下面针对一些内容进行具体说明。
测序数据的一些统计及过滤
不管是什么NGS组学数据,首先结题报告要秀的就是自己给客户的测序数据如何如何的好,无非就是fastqc或者fastx-toolkit等软件对fastq文件的简单处理再整理成表格图形展示。包括phred值、碱基组成,GC含量,接头以及Duplication level等内容,这就需要过滤掉低质量的测序数据,过滤前后都需要可视化图表给客户做对比。还可以简单做一个测序饱和度分析,还有随机性分析等。
比对情况的说明及统计
选择好物种,参考基因组版本后可以比对到参考基因组和参考转录组,都给出比对统计信息,一般如下:
Total Reads : 总的reads数量
Unmapped Reads : 未比对上参考基因组的reads数及占总数的比例
Unique Mapped Reads : 唯一比对上参考基因组的reads数及占总数的比例
Multiple Mapped Reads : 多处比对上参考基因组的reads数及占总数的比例
比对不仅仅是看测序数据的利用率,还要分析参考基因组本身被测的情况:
All Reference Genes : 参考基因组的基因总数
Known Gene Num : 检测到的已知基因数目 (比率=已知基因数目/参考基因组的基因总数)
New Gene Num : 检测到的新基因数目
还可以用一些RNA-seq专用QC软件看看reads的5~3覆盖情况,reads在不同的genomic feature(intron,exon,UTR,TSS,TTS,intergenic)的分布。
基因表达相关套路分析及展现
这个里面包含好几个步骤,适用于任何表达矩阵数据,可以是芯片得到的,也可以是测序得到的。
首先要对比对好的bam文件根据基因组注释文件拿到基因的表达量矩阵,根据分组做差异表达分析。
针对这个流程开发的软件非常多,主要有6个组合,如下:
Tophat-Cufflink-Cuffdiff
Subread-featureCounts-DESeq2
STAR-RSEM-EBSeq
Bowtie-eXpress-edgeR
kallisto-sleuth
HISAT-StringTie-Ballgown
表达量得到后也有一些QC,包括表达丰度统计,重复性检验,相关性等。结题报告能给用户的就是表达矩阵以及差异分析结果表格,差异分析的火山图,热图等信息。
有了差异分析结果,就需要对上调下调基因进行一系列注释。
这样就有3个基因集合,分别是上调的几百个基因,下调的几百个基因,还有上下调合起来的近千个基因。
一般的GO/KEGG注释,都是超几何分布检验,所以这个分析跟前面的表达矩阵已经没有什么关系了。
结题报告能给用户的就是GO/KEGG注释的P值,一般用户需要关心的,也就是显著部分。但不得不提的是GSEA是针对表达量矩阵进行富集分析,有点区别。
基于转录本的套路分析
主要就是可变剪切统计,新转录本探索及注释,转录本结构优化等内容。
这些也有标准的软件来做,公司的工作就是把流程搭建好,跑个标准分析即可。
比如可以用ASprofile 软件对 Cufflinks 预测的转录本的可变剪切事件进行分类统计,常见可变剪切事件如下所示:
AE: Alternative exon ends (5' , 3' , or both) ----- 可变 5' 或3' 端剪切
XAE: Approximate AE (5' , 3' , or both) ----- 近似可变 5' 或3' 端剪切
IR: Intron retention ----- 单内含子保留
XIR: Approximate IR ----- 近似单内含子保留
MIR: Multi-IR ----- 多内含子保留
XMIR: Approximate MIR ----- 近似多内含子保留
TSS: Alternative 5' first exon ----- 第一个外显子可变剪切
TTS: Alternative 3' last exon ----- 最后一个外显子可变剪切
SKIP: Skipped exon ----- 单外显子跨跃
XSKIP: Approximate SKIP ----- 近似单外显子跨跃
MSKIP: Multi-exon SKIP ----- 多外显子跨跃
XMSKIP: Approximate MSKIP ----- 近似多外显子跨跃
可以将Length >= 200bp 且 exon number >=2 作为可靠的新基因的转录本筛选条件,新基因的转录本需要做Nr, KEGG的数据库注释。
至于基因结构优化,对于人、小鼠、拟南芥等模式生物来说,基因注释相对完整,但对于研究没那么透彻的其他物种,我们可以用reads来优化基因结构,从而完善它们的基因注释信息。
Reads比对参考基因组后,我们用Cufflink软件对reads进行转录本重构,将重构结果与参考转录本序列进行比较,重构出来的转录本可能会延长基因注释的5’或3’端,由此实现优化基因结构的目的。
融合基因分析
这个分析做的公司并不多,基因融合现象发生在很多致命疾病中,如果是癌症等疾病的融合基因分析可以使用defuse软件, 利用reads的基因跨越以及一对reads的相对距离进行基因融合查找,当然,也可以使用BGI的SOAP系列,生信菜鸟团博客里面有详细描述软件的安装以及示例数据的测试使用。
结题报告能给用户的就是软件找到的可能的融合基因表格,表格里面可能有下面的内容:
SNP分析
SNP分析其实跟转录组分析关系不大,只要是测序数据都可以找SNP,当然,一般是WGS和WES这样的测序才会重点关注。
结题报告能给用户的就是找到的变异位点VCF格式记录文件,当然,流程化的做一些基本的注释也是必不可少的。
lncRNA分析
研究lncRNA其实有专门的lncRNA测序,主要分析点是lncRNA的调控功能,跟其它细胞体内的各种调控分子的关系等,如下图所示。
以上内容就是转录组报告中必有和最常见的一些内容,后续的分析还可以更多样化和个性化,但是公司的结题报告一般就到此为止了,而且很多公司就是给一个PDF文件以及一堆图表文件。