点点点!完成 RNAseq 数据分析,从 测序原始数据 到 差异表达基因
写在前面
大体用了半年(实际上 gap 了五个月),通过实现一系列插件,让所有人都可以在笔记本上完成基本的 RNAseq 数据分析。大体设计到的插件如下:
八步走
SRA 数据查询与整理:SRA XML to Table,见推文:挖掘SRA的辅助小工具(NCBI高通量测序数据收录库) - 公开插件
SRA 数据链接获取:SRA XML to Table 和 SRA Number to ENA Info. 前者已经包括了 NCBI 和 DDBJ 数据下载链接,后者主要作为补充,附加 ENA 下载链接(更为稳点)。详细见:公开可获取~没有下载不到的测序原始数据! - 公开插件
Ascp GUI Wrapper:个人实测,每天清晨通过 FTP 链接下载测序原始数据,速度可以达到 10Mb/s。但更多时候数据只有不到 300Kb/s。网络合适的情况下,可以使用 Aspera ,速度可以达到 30Mb/s。于是写了并公开释放了这个插件,详细见:插件 | 人人-点点点-光速下载 NCBI/ENA NGS原始数据 - 公开插件
SRAtoFastq,sra 是 NCBI 定义的二代数据存储格式,文件大小比fastq.gz下,考虑网络带宽的情况下,下载 sra 数据更方便。下载后需要进行转换,于是有了插件,详细见:SRAtoFastq | 任何人都能自主分析测序原始数据 - 众筹插件
FastQC,无论是NCBI SRA等数据库下载,还是公司返还的测序数据,多少还是要看下测序质量,确保质量OK 或者不要有样品降解,严重污染云云,于是有插件,详细见:插件FastQC | 点点点,人人看看测序数据质量 - 众筹插件
Trimmomatic,无论转换得到,或者是公司测序后返还的 Fastq.gz 数据往往是原始数据,通过 FastQC 可以判断,随后进行质量控制,如去除接头和低质量碱基,于是有插件,详细见:Trimmomatic | 点点点,测序原始数据质控,技能get - 众筹插件
Kallisto,RNAseq 数据的基本分析和目的,就是获得基因表达量矩阵。在普通笔记本上,如 4G 内存云云,那么 Kallisto 是最好的选择,于是有插件,详细见:
Kallisto | 点点点,从 测序数据 到 基因表达量矩阵 人人都可以! - 众筹插件Trans Value Sum,Kallisto 分析结果是转录本水平的表达量或Counts矩阵,但很多人感兴趣的是基因水平的,于是,公开释放了功能,详细见:汇总 | 转录本表达矩阵 到 基因表达矩阵 -公开功能
Differential Gene Expression Analysis - DESeq2,可以批量完成多组两两比较的差异表达分析(注,也可用 利虎 的 Batch DEGs,更方便) Differential Gene Expression Analysis - DESeq2- 公开插件
注:公开插件 和 众筹插件,均可以在 TBtools 的插件商店或高速插件商店中获取,具体前者直接下载可用,后者需要授权,参考前述推文。
Plugin | 高速版插件商店!我又有一个绝妙的 idea
写在最后
今天是周一,祝大伙本周科研顺利,该 accepted 的 paper 就 accepted。