跟着science学习宏基因组-专辑简介
写在前面
开学两周了,学校也没有什么人,想起来还有一份教程还没有兑现得大家,就将这部分完成,代码 + 数据 一起送给大家。 欢迎大家留言打卡学习。最近在学习csvtk工具,十分强大,也是好东西。
早在2020年我就预告了这部分的内容:点击查看。Github数据已更新:https://github.com/taowenmicro/Megagenome_learing. 整个数据完成之后也就不到5G。
首先我要说的是,这套代码并不是我写的,这是19年发表甜菜枯萎病science的一套代码,这套代码全部一共1900行左右代码,虽然作者做了一个snakefile,但是经过我的拆解,并不能直接实现。有三分之一的工具由于版本,或者数据库,又或者是其他问题不能使用。例如MEGAN,在2019年进行了重大升级,之前的数据库都不能使用了,其次KEGG注释要收费了。又或者bamm软件已经不做维护了,作为替代的是coverM 等等。终于在我们解决了大部分问题后,将这个流程拆解开来,并做了一个完整的运行。
完整到什么程度呢?要知道作者流程做了这么多,其实最后使用在文章中的并没有多少,最多也就四分之一吧,但是这个整个分析过程,和探索的过程花费了最起码四倍的精力。我们将这四倍的工作量同等程度不做取舍的做了一个重现。甚至有些软件已经不好用了,但是我们还是做了一个重现。有些python做为胶水的地方,我都用R语言进行了重现,尤其是MEGAN的部分,改动太大了,我编写了超过300行代码来顺利这个流程。
本流程包括20个以上软件或者工具,其中我不得不说的是有本流程中有三个软件我改动比较大:
megagta 超过五年没有维护,放弃使用,同megahit替代
bamm作者放弃使用,用coverm替代
taxator-tk没有运行成功,作者也没有用这个物种注释结果,暂时不做学习。
其他部分我们都进行了一个较为完整的重现,包括作者的分析思路。
那么有人就问了,这无非就是工具的堆砌,和符合作者习惯的的数据整理,这又有什么用呢?因为宏基因组的分析实在是内容太多了,因此这绝对是一个要学习的流程,流程的重点并不是在于软件的使用,是作者如何通过这个流程的使用,将这个数据挖掘到极致的一个体现,例如:组装是单个样本组装,还是一组样本组装更好呢?作者用自己的代码就告诉我了,我考试相信这篇文章的作者做到了极致的探索,所以开始我必须将这份流程重现出来,事实上我也做到,也验证了作者做到了,为期一年多的工作,到今天终于做完了。我们知道宏基因组数据最起码到目前都在发展中,无论是各种工具还是软件,每隔三到五年都会进行一个跟新,无论是老软件的升级,还是新软件的开发,当然还有一些软件就消失了。这些过程我们是没有经历的,毕竟我也就是从17年左右开始接触宏基因组。这套教程让我的思绪覆盖到了12年到15年的宏基因组分析的情况。各种软件如何配合使用,数据如何配合软件等。等于无形之中让我了解了宏基因组将近十年的工具变化和流程变动。无形之中增加了大量的经验。
那么这一整个系列我们可以学习到什么呢?
多中组装软件 megahit spades idea如何配合使用?
单个样本组装,分组组装,全部样本组装如何配合使用,优劣如何?
如何评估测序量是否足够?
还需要增加多少测序量?
看看这个science作者如何将微生物物种和功能联系起来并做出来好看的maptree的,
作者通过三种方法从宏基因组中提取扩增子数据并进行不同的分析流程,额,应该是三种半,你发现那一半在哪里了没?
从流程中看出来作者精通python,熟悉R语言,熟悉shell编程。
会使用perl等。
那现在我们要学习哪种语言来适应宏基因组分析呢?
小体会
没想到vsearch竟然也可以在宏基因组中使用起来,你猜猜用于什么?
silva数据库为qiime做了专用数据库,但是只到132版本,作者用的是119版本,这两个数据库差距这么大。
组装不一定全部样本组装就是最好,本文让你看到分组组装会不错,但是单个样本组装一般如前两种好。
shell大法好,主要是方便和快。
c语言好用,但是不好学,当前python是一个比较好的替代,R语言未尝不可?
序列长度和深度都会影响丰度评估,都需要矫正。
biom格式和phyloseq格式类似,难理解,但是好用。
你不得不用。
本流程作者MEGAN用了两次,kraken用了两次,第一次学习基于read注释,第二次学习基于contig注释,内容虽然多,却都有哦含义。
专辑列表-持续跟新
跟着science学习宏基因组-专辑简介
0-跟着science学宏基因组-背景和数据
1-跟着science学习宏基因组-数据质控
2-跟着science学习宏基因组-去宿主序列-测序量评估
3-跟着science学习宏基因组-单样本序列比对拼接
4-跟着science学习宏基因组-MEGAN一站式注释流程
5-跟着science学习宏基因组-kraken物种注释
6-跟着science学习宏基因组-从宏基因组中提取16S序列分析1-提取序列-vsearch分析
7-跟着science学习宏基因组-从宏基因组中提取16S序列分析2-混合组装-rdp注释
8-跟着science学习宏基因组-从宏基因组中提取16S序列分析3-barrnap提取核酸序列-组装注释
9-跟着science学习宏基因组-使用三种方法混样分组组装
10-跟着science学习宏基因组-coverm统计基因覆盖度等信息
11-跟着science学习宏基因组-基于拼装contig的基因注释1
12-跟着science学习宏基因组uproc功能注释-物种功能联合表格构建
第一批教程使用
这是第一批教程,这份教程的公开,已经代表着版本二已经在制作中了,这肯定对版本一中的许多内容进行了更新,流程也将更加完善和好用。
我希望大家都可以运行一下这个教程,因为百分之95%以上的内容都是可以在笔记本上运行的,剩下的5%这几乎不影响你掌握这整套教程,其次,整个教程的数据都已经更新在github上,你可以完全下载下来对照着学习,尤其是输入输出格式,结果解读等等。
运行环境:
除了服务器,你完全可下载一个Qiime2虚拟镜像,安装一个虚拟机进行运行,相信我,因为我就是这么运行的,我们课题组的同志们也都是这么运行的,毕竟作为一个新手:
谁会随便让你在服务器上安装软件和各种环境变量操作呀。
本次教程本课题组全体成员都将同大家一同学习这套宏基因组教程,希望多多碰撞火花,多多交流。
所以会建一个群。
教程公布
这批教程我会安排学习群来供大家学习交流,为保证教程流畅度更高,会在一周后,将按照每周一篇的数量推送给大家。
(考虑到大家学习速度和本课题组小白学习进度)
宏基因组软件合集
http://mccalledu.ivyunion.org/metagenomics.html
根际互作生物学研究室 简介
根际互作生物学研究室是沈其荣教授土壤微生物与有机肥团队下的一个关注于根际互作的研究小组。本小组由袁军副教授带领,主要关注:1.植物和微生物互作在抗病过程中的作用;2 环境微生物大数据整合研究;3 环境代谢组及其与微生物过程研究体系开发和应用。团队在过去三年中在 isme J, Microbiome, PCE,SBB,Horticulture Research等期刊上发表了多篇文章。欢迎关注 微生信生物 公众号对本研究小组进行了解。
团队工作及其成果 (点击查看)
了解 交流 合作
团队成员邮箱 袁军:
junyuan@njau.edu.cn;
文涛:
2018203048@njau.edu.cn
团队公众号: