点点点!完成 RNAseq 数据分析,从 测序原始数据 到 差异表达基因

写在前面

大体用了半年(实际上 gap 了五个月),通过实现一系列插件,让所有人都可以在笔记本上完成基本的 RNAseq 数据分析。大体设计到的插件如下:

八步走

  1. SRA 数据查询与整理:SRA XML to Table,见推文:挖掘SRA的辅助小工具(NCBI高通量测序数据收录库) - 公开插件

  2. SRA 数据链接获取:SRA XML to Table 和 SRA Number to ENA Info. 前者已经包括了 NCBI 和 DDBJ 数据下载链接,后者主要作为补充,附加 ENA 下载链接(更为稳点)。详细见:公开可获取~没有下载不到的测序原始数据! - 公开插件

  3. Ascp GUI Wrapper:个人实测,每天清晨通过 FTP 链接下载测序原始数据,速度可以达到 10Mb/s。但更多时候数据只有不到 300Kb/s。网络合适的情况下,可以使用 Aspera ,速度可以达到 30Mb/s。于是写了并公开释放了这个插件,详细见:插件 | 人人-点点点-光速下载 NCBI/ENA NGS原始数据  - 公开插件

  4. SRAtoFastq,sra 是 NCBI 定义的二代数据存储格式,文件大小比fastq.gz下,考虑网络带宽的情况下,下载 sra 数据更方便。下载后需要进行转换,于是有了插件,详细见:SRAtoFastq | 任何人都能自主分析测序原始数据  - 众筹插件

  5. FastQC,无论是NCBI SRA等数据库下载,还是公司返还的测序数据,多少还是要看下测序质量,确保质量OK 或者不要有样品降解,严重污染云云,于是有插件,详细见:插件FastQC | 点点点,人人看看测序数据质量  - 众筹插件

  6. Trimmomatic,无论转换得到,或者是公司测序后返还的 Fastq.gz 数据往往是原始数据,通过 FastQC 可以判断,随后进行质量控制,如去除接头和低质量碱基,于是有插件,详细见:Trimmomatic | 点点点,测序原始数据质控,技能get   - 众筹插件

  7. Kallisto,RNAseq 数据的基本分析和目的,就是获得基因表达量矩阵。在普通笔记本上,如 4G 内存云云,那么 Kallisto 是最好的选择,于是有插件,详细见:
    Kallisto | 点点点,从 测序数据 到 基因表达量矩阵 人人都可以!  - 众筹插件

  8. Trans Value Sum,Kallisto 分析结果是转录本水平的表达量或Counts矩阵,但很多人感兴趣的是基因水平的,于是,公开释放了功能,详细见:汇总 | 转录本表达矩阵 到 基因表达矩阵 -公开功能

  9. Differential Gene Expression Analysis - DESeq2,可以批量完成多组两两比较的差异表达分析(注,也可用 利虎 的 Batch DEGs,更方便) Differential Gene Expression Analysis - DESeq2- 公开插件

注:公开插件 和 众筹插件,均可以在 TBtools 的插件商店或高速插件商店中获取,具体前者直接下载可用,后者需要授权,参考前述推文。

Plugin | 高速版插件商店!我又有一个绝妙的 idea

写在最后

今天是周一,祝大伙本周科研顺利,该 accepted 的 paper 就 accepted。

(0)

相关推荐

  • 二代测序技术中生物信息学的应用

    随着科学技术的巨大进步,产生了大量的"组学"数据.理解生物系统各个层次产生的大量序列和结构数据是关键,由此产生了"生物信息学". "生物信息学&quo ...

  • Trimmomatic | 点点点,测序原始数据质控,技能√get

    写在前面 悔恨的眼泪犹如滔滔江水,绵延不绝!早知今日,何必当初. 约莫半个月前,我说过要让所有人都可以分析公共测序数据(SRA测序原始数据 - 到 - 基因表达量).说得通俗一点:无论是在Window ...

  • 超实用干货贴 | 转录组测序原始数据如何上传到NCBI数据库?

    转录组测序(RNA-Seq)是当下生物医学科研领域的热点技术,在SCI论文中频频亮相.但是无论是以RNA-Seq为试验主体的论文,还是以RNA-Seq为分析辅助手段的论文,在发表之前总是绕不开一个问题 ...

  • RNA-seq数据分析指南

    五月份看了一篇2016年的RNA-Seq文献综述,那篇文献特别长,花了三四天时间才看完.当时为了做组会文献报告做了一些许总结,以ppt的形式呈现出来. 内容 前言 各位同学/老师,大家好,现在由我给大 ...

  • 拖后腿学徒居然也完成作业,理解RNA-seq数据分析结果

    前面我出了一个学徒作业,下载表达矩阵后绘制PCA图及热图,然后理解作者给出的RPM和raw_counts的差异,详见:理解RNA-seq表达矩阵的两个形式 很意外,12月学徒肖一僧居然吭哧吭哧的完成了 ...

  • RNA-Seq数据分析上下游打通

    下面是温州医科大硕士"何物昂"的笔记 数据 数据集为GSE149638, 2x101 bp paired-end RNA-seq,Illumina HiSeq 2500 with ...

  • 单细胞RNA-seq数据分析最佳实践(上)

    男, 一个长大了才会遇到的帅哥, 稳健,潇洒,大方,靠谱. 一段生信缘,一棵技能树, 一枚大型测序工厂的螺丝钉, 一个随机森林中提灯觅食的津门旅客. 文章信息 Luecken MD, Theis FJ ...

  • 单细胞RNA-seq数据分析最佳实践(中)

    男, 一个长大了才会遇到的帅哥, 稳健,潇洒,大方,靠谱. 一段生信缘,一棵技能树, 一枚大型测序工厂的螺丝钉, 一个随机森林中提灯觅食的津门旅客. 文章信息 Luecken MD, Theis FJ ...

  • 单细胞RNA-seq数据分析最佳实践(下)

    男, 一个长大了才会遇到的帅哥, 稳健,潇洒,大方,靠谱. 一段生信缘,一棵技能树, 一枚大型测序工厂的螺丝钉, 一个随机森林中提灯觅食的津门旅客. 文章信息 Luecken MD, Theis FJ ...

  • 改造IGV - 基于RNAseq测序数据 - 人工进行基因结构注释矫正

    写在前面 课题组目前做一些基因组相关工作.了解基因组的朋友应该明白,基因结构注释错误几乎遍布所有基因组,包括我们目前看到的大多数即使是发表在顶级期刊的工作.生物是复杂的,而算法是存在局限的.所以人工矫 ...