插件 | 点点点,基因差异表达分析~几分钟就掌握了

于是,TBtools - RNAseq 全家桶到位!

写在前面

很久很久以前,TBtools 解决了 RNAseq 数据分析中几个常见问题:

  1. 基因功能注释,NR,SWISSPROT,GO注释等

  2. 基因集功能富集分析,GO和KEGG

去年,通过插件众筹,我们完成了:

  1. 公开可获取测序数据 SRA 的信息整理

  2. Ascp Wrapper,高速下载测序原始数据

  3. SRAtoFastq 格式转换

  4. FastQC 测序质量评估

  5. Trimmomatics 测序数据清洗

  6. Kallisto Wrapper 读段计数与基因表达量估计

仔细观察其中,以前和去年做的事情,中间还差一个东西,那就是基因差异表达分析。

新插件 DESeq2 Wrapper

这几天,协助师弟们完成一些合作课题(....挺多合作的,希望他们得到锻炼的同时,也多少拿个共同作者吧...对我来说没啥用)。其中,让一个师弟尝试跑了下之前我写的差异表达分析流程,报错~~~。查了查,输入文件 ID 的大小写问题。伤心。很久很久以前,我就看差异表达分析这块很不爽。于是,Emmm... 一边等着听课,另一边我就优化了以前的 R 脚本,顺手几分钟就打了一个 TBtools R plugin。以后,这些什么差异表达分析,我就直接本地做了。能点点点,我还搞命令行干啥?

目前该插件已经上传到 TBtools Plugin Store(插件商店),所有用户选中该插件Differential Gene Expression Analysis-DESeq2 Wrapper,点击 Install Selected Plugin即可完成插件安装。(注意:之前推文提到的 Rserver Plugin 需要先安装,不了解的具体翻历史推文)

界面介绍

大体给大家画一画,其实比较简单,就 三个输入文件。

首先是第一个输入文件Counts矩阵,几乎所有读段计数软件,比如HTseq,featureCounts,StringTie,Kallisto等,都可以输出并得到Counts矩阵,大体放到 Excel 长这样。

其次是一个样品归组信息,比如做了一个实验,对香蕉做了低温处理,那么会有 对到和低温两个分组的数据,分别有 3 个生物学重复,那么样品分组信息大体可以长下面这个样子。

注意是三列,尽管第二列看起来其实没啥用,但请还是保留。而第一行,注意到,必须是 #开头,或者直接删掉这一行。
完全可以想象,如果你样品足够多,那么可以有 N 个 Condition,就一直列下去就可以了。一定要注释的是 Sample 名字,比如 sample1,sample2,。。。这些必须大小写都跟上述 Counts 矩阵的列名对应。

而最后则是一个比较信息,我们做基因差异表达分析,肯定是某个条件跟某个条件的两两比较,针对上述只有一个处理和一个对照,那么这个文件就很简单,如下

注意到,支持做 N 中比较组合,只要你的 conditions 数目够多。比如某个课题可能会是多个时间点,大体或许是:

# Sample1 Sample20days 3days3days 5days5days 7days

等等。

具体示例

我写这个插件的时候,随手找了一组数据,并打包成 Demo Data,随着插件分发。所以大伙应该任何一个人都能重复下述分析。把示例数据都放到 TBtools 之后,应该是这个样子。

第一次运行,这个插件会调用 TBtools 的 Rserver 插件,下载并安装DESeq2,需要网络也需要一点时间;但此后每一次运行应该都很快。
运行完成,对于每两个样品的基因差异表达分析,会输出三个文件,如下

分别是

  1. 一个MAplot,大体可以看看差异表达分析结果是否存在异常,绝大多数时候,看都不用看

  2. 所有经过差异表达显著性检验的基因的检验结果,未经过foldchange 和 pvalue或padjust筛选的表格,这个表格常用

  3. 自动筛选的,差异表达显著的基因,筛选标准为|log2fc|>=1 and padjust<=0.05

具体值截取一部分给大伙看看

写在最后

Emmmm,看来 RNAseq 套装,要重见天日了。

(0)

相关推荐