RNA-seq老司机领读转录组结题报告

生信技能树之前有参组学异同点的视频讲座受到了不少朋友的欢迎,那次讲解主要是从原理来说明各种组学的测序位置和测序深度,并没有涉及到后续的数据处理。如果还想看视屏内容,可以在微信公众号后台回复”视频“查看获取方式。

其实大家更关心的是数据处理问题,为此我们在前期已经推送过两篇相关内容,如果还没看过的朋友可别落下。

WGS,WES,RNA-seq组与ChIP-seq之间的异同(点击查看原文)

做过1000遍RNA-seq的老司机告诉你如何翻车(点击查看原文)

因为做了多年NGS组学数据处理看了不少业内知名公司有参转录组结题再结合自己的一些经验, 生信技能树公众号将系统整理多种组学分析流程和大家分享,如果不想错过就关注我们的公众号然后置顶吧~


RNA-seq的分析流程

这一次我们首先了解RNA-seq的分析流程

总的来说,各种有参组学分析要点大同小异,利用主流分析软件结合数据库来解释分析结果。一份报告可以出近百张花花绿绿的figures,我们先看看大致内容。

标配内容:(不可能没有的)

  • 测序数据的一些统计及过滤

  • 比对情况的说明及统计

  • 基因表达信息的统计

  • 差异分析表达富集分析(GO/KEGG等数据库注释)

常见内容:(基于不同需求基本都有的)

  • 基于转录本的可变剪切统计

  • 新转录本探索及注释

  • 转录本结果优化

  • 融合基因分析

  • SNP分析

  • lncRNA分析

  • 蛋白互作网络分析

  • 转录因子相关分析

说明:如果专门针对lncRNA进行深入分析,对建库方式和测序深度都有不同的要求。

下图就是一个最常见基本的解题报告目录


下面针对一些内容进行具体说明。

测序数据的一些统计及过滤

不管是什么NGS组学数据,首先结题报告要秀的就是自己给客户的测序数据如何如何的好,无非就是fastqc或者fastx-toolkit等软件对fastq文件的简单处理再整理成表格图形展示。包括phred值、碱基组成,GC含量,接头以及Duplication level等内容,这就需要过滤掉低质量的测序数据,过滤前后都需要可视化图表给客户做对比。还可以简单做一个测序饱和度分析,还有随机性分析等。

比对情况的说明及统计

选择好物种,参考基因组版本后可以比对到参考基因组和参考转录组,都给出比对统计信息,一般如下:

  • Total Reads : 总的reads数量

  • Unmapped Reads : 未比对上参考基因组的reads数及占总数的比例

  • Unique Mapped Reads : 唯一比对上参考基因组的reads数及占总数的比例

  • Multiple Mapped Reads : 多处比对上参考基因组的reads数及占总数的比例

比对不仅仅是看测序数据的利用率,还要分析参考基因组本身被测的情况:

  • All Reference Genes : 参考基因组的基因总数

  • Known Gene Num : 检测到的已知基因数目 (比率=已知基因数目/参考基因组的基因总数)

  • New Gene Num : 检测到的新基因数目

还可以用一些RNA-seq专用QC软件看看reads的5~3覆盖情况,reads在不同的genomic feature(intron,exon,UTR,TSS,TTS,intergenic)的分布。

基因表达相关套路分析及展现

这个里面包含好几个步骤,适用于任何表达矩阵数据,可以是芯片得到的,也可以是测序得到的。

首先要对比对好的bam文件根据基因组注释文件拿到基因的表达量矩阵,根据分组做差异表达分析。

针对这个流程开发的软件非常多,主要有6个组合,如下:

  • Tophat-Cufflink-Cuffdiff

  • Subread-featureCounts-DESeq2

  • STAR-RSEM-EBSeq

  • Bowtie-eXpress-edgeR

  • kallisto-sleuth

  • HISAT-StringTie-Ballgown

表达量得到后也有一些QC,包括表达丰度统计,重复性检验,相关性等。结题报告能给用户的就是表达矩阵以及差异分析结果表格,差异分析的火山图,热图等信息。

有了差异分析结果,就需要对上调下调基因进行一系列注释。

这样就有3个基因集合,分别是上调的几百个基因下调的几百个基因,还有上下调合起来的近千个基因

一般的GO/KEGG注释,都是超几何分布检验,所以这个分析跟前面的表达矩阵已经没有什么关系了。

结题报告能给用户的就是GO/KEGG注释的P值,一般用户需要关心的,也就是显著部分。但不得不提的是GSEA是针对表达量矩阵进行富集分析,有点区别。

基于转录本的套路分析

主要就是可变剪切统计,新转录本探索及注释,转录本结构优化等内容。

这些也有标准的软件来做,公司的工作就是把流程搭建好,跑个标准分析即可。

比如可以用ASprofile 软件对 Cufflinks 预测的转录本的可变剪切事件进行分类统计,常见可变剪切事件如下所示:

  • AE: Alternative exon ends (5' , 3' , or both) ----- 可变 5' 或3' 端剪切

  • XAE: Approximate AE (5' , 3' , or both) ----- 近似可变 5' 或3' 端剪切

  • IR: Intron retention ----- 单内含子保留

  • XIR: Approximate IR ----- 近似单内含子保留

  • MIR: Multi-IR ----- 多内含子保留

  • XMIR: Approximate MIR ----- 近似多内含子保留

  • TSS: Alternative 5' first exon ----- 第一个外显子可变剪切

  • TTS: Alternative 3' last exon ----- 最后一个外显子可变剪切

  • SKIP: Skipped exon ----- 单外显子跨跃

  • XSKIP: Approximate SKIP ----- 近似单外显子跨跃

  • MSKIP: Multi-exon SKIP ----- 多外显子跨跃

  • XMSKIP: Approximate MSKIP ----- 近似多外显子跨跃

可以将Length >= 200bp 且 exon number >=2 作为可靠的新基因的转录本筛选条件,新基因的转录本需要做Nr, KEGG的数据库注释。

至于基因结构优化,对于人、小鼠、拟南芥等模式生物来说,基因注释相对完整,但对于研究没那么透彻的其他物种,我们可以用reads来优化基因结构,从而完善它们的基因注释信息。

Reads比对参考基因组后,我们用Cufflink软件对reads进行转录本重构,将重构结果与参考转录本序列进行比较,重构出来的转录本可能会延长基因注释的5’或3’端,由此实现优化基因结构的目的。

融合基因分析

这个分析做的公司并不多,基因融合现象发生在很多致命疾病中,如果是癌症等疾病的融合基因分析可以使用defuse软件, 利用reads的基因跨越以及一对reads的相对距离进行基因融合查找,当然,也可以使用BGI的SOAP系列,生信菜鸟团博客里面有详细描述软件的安装以及示例数据的测试使用。

结题报告能给用户的就是软件找到的可能的融合基因表格,表格里面可能有下面的内容:

SNP分析

SNP分析其实跟转录组分析关系不大,只要是测序数据都可以找SNP,当然,一般是WGS和WES这样的测序才会重点关注。

结题报告能给用户的就是找到的变异位点VCF格式记录文件,当然,流程化的做一些基本的注释也是必不可少的。

lncRNA分析

研究lncRNA其实有专门的lncRNA测序,主要分析点是lncRNA的调控功能,跟其它细胞体内的各种调控分子的关系等,如下图所示。

以上内容就是转录组报告中必有和最常见的一些内容,后续的分析还可以更多样化和个性化,但是公司的结题报告一般就到此为止了,而且很多公司就是给一个PDF文件以及一堆图表文件。

(0)

相关推荐

  • RNA-seq数据分析最佳策略

    转录组测序技术 (RNA-seq) 具有广泛的应用,RNA-seq数据分析主要步骤包括实验设计,质量控制,reads比对,基因和转录水平的定量,差异基因表达,可变剪接,功能分析,基因融合检测和eQTL ...

  • 来给lncRNA找一个新的研究方向

    我们知道,在lncRNA的研究当中,传统的lncRNA相关的ceRNA网络已经算是比较老的研究套路了.那如果在lncRNA这个老树上找到新的方向呢?今天就介绍一个可以预测lncRNA可变剪切的数据库 ...

  • 《读说对中年级学生写作能力影响的研究》 结题报告

    我校<读说对中年级学生写作能力影响的研究>课题于2019年7月经广东省教育学会立项正式启动.两年来,得到了学校领导的关心和大力支持,我们课题组通过业务学习和观摩相关教学视频,对该课题进行了 ...

  • 科研课题结题报告编写

    科研课题结题报告编写

  • 结题报告撰写超详细教程

    一.结题报告的类型及主要结构 结题报告是一种专门用于科研课题结题验收的实用性报告类文体.它是研究者在课题研究结束后对科研课题研究过程和研究成果进行客观.全面.实事求是的描述,是课题研究所有材料中最主要 ...

  • 《利用“班班通”促进农村教师教研研究》课题研究报告(结题报告)

    现阶段的"班班通"功能强大,在实现信息技术与学科课程教学整合的突破过程中起到很大的作用,充分发掘和拓展"班班通"应有的功能,才能真正实现信息技术对教育教学的革命 ...

  • 16S结题报告 | 16S专题

    编前语 从上节<16S简介>,我们可以推测得到,选择16S测序,往往是为了了解样品的微生物的群落多样性.那么16S rDNA测序解题报告主要包括哪些内容呢? 我们先来看看一般的16S结题报 ...

  • 怎样写课题研究结题报告

    结题报告是课题实验研究的最后环节,是课题实验研究工作全过程的缩影,是研究结果的文字记载.也是针对某种教育现象,某一教育课题或某种教育理论进行调查研究.实验或论证后所得出的新的教育观点.新的教育思想.新 ...

  • 结题申请书和结题报告是不是一样

    结题申请书和结题报告一样吗?不一样.结题申请书和结题报告,都是课题结题要提交的书面材料.结题申请书是课题组向主办方申请结题的文件.结题报告是一种专门用于课题结题验收的实用性报告类文体. 首先,结题申请 ...

  • 结题报告是什么?怎么写?

    这是金灿灿的第34篇原创文章 有小伙伴问,结题报告是什么,该怎么写呢? 幸亏大学专业学的生物,整天做实验,写项目实验报告,有点基础.今天来唠唠这个问题 结题报告是一种专门用于科研课题结题验收的实用性报 ...

  • 课题研究结题报告

    结题报告是课题实验研究的最后环节,是课题实验研究工作全过程的缩影,是研究结果的文字记载.也是针对某种教育现象,某一教育课题或某种教育理论进行调查研究.实验或论证后所得出的新的教育观点.新的教育思想.新 ...