开年工作第一天phyloseq介绍
春节过去了,远在家乡,但是心中的一团火是不会熄灭地。
基于基于扩增子的生物信息学习总算进入到整合和开发阶段了,宏基因组的学习正如火如荼。不到两周内,ubuntu出现难以修复的故障,终于系统崩溃了。2T的移动硬盘莫名其妙的坏了。正要去南京,正好大雪封了高速公路,抢票也抢不到。这两周过的真精彩。
我们如今面临分析扩增子数据的工具,已经到了眼花缭乱的阶段了,实验室进行内部各种工具的整合,服务网站的构建已经被各大实验室争相进行或者完成了。公开的整合扩增子数据处理和分析流程的我认为phyloseq很不错。依托R语言,整合了:dada2, phyloseq, DESeq2, ggplot2 and vegan等当下十分流行的数据分析和可视化包。如果我们做扩增子群落分析,依托phyloseq构建自己的分析体系,无需进行各种复杂的包的单独学习,上手应该很快。
phyloseq具体功能如下:
从流行的Denoising / OTU集群管道导入丰度和相来自去噪 或者一下OTU聚类流程的结果(DADA2,UPARSE,QIIME,mothur,BIOM,PyroTagger,RDP等);
打包了了微生物群落常规分析;
支持44种距离的方法(UniFrac,Jensen-Shannon等);
排序->支持多种方法,包括约束排序方法;
基于群落数据发的相关绘图使用ggplot2进行强大,灵活的探索性分析;
模块化,可定制的分析过程,完全支持可重复的工作。
具有基于OTU /样本进行数据合并,以及支持手动导入的数据的功能。
UniFrac距离的多线程并行计算。
针对高通量扩增子测序数据的多种方法的尝试。
使用真实发表数据进行分析和绘图的案例。
我将分为多个篇章详细介绍phyloseq的工作,可能在【宏基因组】公众号上发表,敬请期待。