单身帅哥3分钟教你玩转高通量数据
今天在这不介绍微生物区系 Microbiota(土壤的,人体的…)重要性的背景了,因为我们知道她太重要了。我们直接开门见山来介绍USEARCH pipeline (http://www.drive5.com/usearch/), 为什么要介绍他, 因为他太高效6,用他自己的话说就是Ultra-fast sequence analysis。可能有很多人熟悉Qiime或者Mothur, 当然这也是两个主流高通量微生物区系分析软件(今天就不在这介绍了,你如果熟悉Qiime或者Mothur,也是可以结合到USEARCH pipeline中,会让你处理数据更得心应手)。
今天主要介绍USEARCH pipeline。当然我想提名一下TA的发明人Robert C. Edgar男神,计算机生物学家,截止目前他引用总次数超过4万,2004年他单枪匹马的开创MUSCLE: multiple alignmentsoftware单篇更是超过1.8万。另外,他2013再次单枪匹马的开创UPARSE: 高精确的OTUs聚类方法(就镶嵌在我们要介绍的USEARCH pipeline中),不到四年引用又超过了1500, 紧跟Qiime或者Mothur。
膜拜完我们的大神,那我们直接上硬菜:
USEARCH pipeline已经更新到version10了,一些代码已经不再适用先前版本了,所以及时关注USEARCH网站很重要(http://drive5.com/usearch/)。以今天实测数据为准,我们来介绍最新version9.2,以下code你都能在上面网站找到,我只做一下大自然的板砖工。
USEARCH pipeline 详细步骤及其介绍:
我们目前主流测序现在用的是双端MiSeq 2x250bp,当然你可能用的是MiSeq2x300bp, 或者你用的Hiseq这里不细讨论了,因为他们处理类似(见下图)。以双端MiSeq 2x250b为例,如果你用的引物扩增是V4-5区,那么目的片段长度是420bp左右。
一般公司会给你每个测序样品的*R1.fastq&*R2.fastq并去掉引物 (如果公司给你测序的原始数据,你自己可以用barcode 将数据抽提出来,并自行去掉引物即可,命令都有的)。
那么分析正式开始:
1:usearch-fastq_mergepairs *_R1.fq -fastqout merged.fq -relabel @
#将所有正向序列*_R1.fq自动寻找对应的R2.fq进行匹配,同时-relabel @将每个你的sample标记(sampleidentifiers)
-fastq_maxdiffsx (可选参数,Default: anynumber of mismatches allowed, overlap。匹配错误率,你可设置为0到5看看你过滤的效果,这样也可以确定一下你测序R1&R2匹配错误率)。
2:usearch -fastq_filter merged.fq -fastq_trunclen 300 -fastq_maxee0.5 -fastaout filtered.fa
#-fastq_trunclen 300根据你的引物设定长度,比如用v4-5我选300bp, 如果你的引物扩增片段短的话,那么相应的缩短这个值。
-fastq_maxee 0.5, Discard reads with > E total expected errors for all bases质量控制默认0.5,感兴趣的可以进一步了解。
同时这里你也将fastq文件转换成了fasta格式了。
3:usearch -fastx_uniques filtered.fa -fastaout uniques.fa-sizeout -relabel Uniq
#找unique 序列并计算他的数量。
The-sizeout option specifies that size annotations should be added to the output sequence labels.
The-relabel option specifies a string that is used to re-label the dereplicatedsequences.
这个暂且用英文吧,我怕翻译出来表达的意思不到位就不好了(我英文比中文好)。
4:usearch -cluster_otus uniques.fa -otus otus.fa -uparseoutout.up -relabel OTU -minsize 2
#这一步很经典呀(见上图),OTUs cluster聚类默认为97%,你如果想设置95或99也是可以的。
-minsize2去掉了singleton
The-uparseout option specifies a tabbed text output file documenting how theinput sequences were classified.
5:以上version9,10都是可以的,
下面一步,请切换到version10,version9会有一点不一样。
usearch-otutab merged.fq -otus otus.fa -otutabout otutab_raw.txt
#生成OTUtable这一步 version10就比9要简化啦(更新总是好事)。
以上步骤完成,我们就拿到最后的OTUtable和代表fa(ATCG…)序列了。那么我们进一步再blast注释一下。
#Predict taxonomy
6:usearch -sintax otus.fa -db ../data/rdp_16s.fa-strand both -tabbedout sintax.txt -sintax_cutoff 0.8
#-db ../data/rdp_16s.fa把你的database放进来。
Cutoff80%我想大家都应该很熟悉。
以上六步骤搞定高通量Sequences处理,是不是只要三分钟?当然熟练之前,你需要检查并调试优化各项参数,熟练之后我相信聪明的你能三分钟搞定高通量Sequences处理。
以上搬运内容请参考(http://drive5.com/usearch/)(Robert C. Edgar)。总结仓促未免有不足,欢迎大家批评指正,一起交流,一起快速玩转高通量。当然序列处理只是第一步,我们如何翻译我们实验故事才是关键。后续我会陆续更新我们R 数据处理总结Code,欢迎大家一起讨论。
注:熊武,博士生, 目前在荷兰乌特勒支大学 生态与生物多样性团队联合培养。研究方向为抑病土壤微生物群落解析和调控,目前已发表SCI论文6-8篇(小编记不清了),累积影响因子30-40,但是年龄不到30,单身,能歌善舞,做一手好菜(见下图)。邮箱和QQ都在,要学习高通量分析的,抓紧联系他。
Email: xiongwu2012203040@gmail.com QQ: 283548445
2016年8月,小编回国之前,熊博士又露了一手。
-The End-
南京农业大学-根际微生态与调控实验室,
Lab of rhizospher Micro-ecology & Management
我们的口号是:竞争求发展,合作谋共赢。
Competition & Cooperation。
感谢您的关注和支持。