单身帅哥3分钟教你玩转高通量数据

2024-08-03 00:08:21

今天在这不介绍微生物区系 Microbiota（土壤的，人体的…）重要性的背景了，因为我们知道她太重要了。我们直接开门见山来介绍USEARCH pipeline （http://www.drive5.com/usearch/）, 为什么要介绍他, 因为他太高效6，用他自己的话说就是Ultra-fast sequence analysis。可能有很多人熟悉Qiime或者Mothur, 当然这也是两个主流高通量微生物区系分析软件（今天就不在这介绍了，你如果熟悉Qiime或者Mothur，也是可以结合到USEARCH pipeline中，会让你处理数据更得心应手）。

今天主要介绍USEARCH pipeline。当然我想提名一下TA的发明人Robert C. Edgar男神，计算机生物学家，截止目前他引用总次数超过4万，2004年他单枪匹马的开创MUSCLE: multiple alignmentsoftware单篇更是超过1.8万。另外，他2013再次单枪匹马的开创UPARSE: 高精确的OTUs聚类方法（就镶嵌在我们要介绍的USEARCH pipeline中），不到四年引用又超过了1500, 紧跟Qiime或者Mothur。

膜拜完我们的大神，那我们直接上硬菜：

USEARCH pipeline已经更新到version10了，一些代码已经不再适用先前版本了，所以及时关注USEARCH网站很重要（http://drive5.com/usearch/）。以今天实测数据为准，我们来介绍最新version9.2，以下code你都能在上面网站找到，我只做一下大自然的板砖工。

USEARCH pipeline 详细步骤及其介绍:

我们目前主流测序现在用的是双端MiSeq 2x250bp，当然你可能用的是MiSeq2x300bp, 或者你用的Hiseq这里不细讨论了，因为他们处理类似（见下图）。以双端MiSeq 2x250b为例，如果你用的引物扩增是V4-5区，那么目的片段长度是420bp左右。

一般公司会给你每个测序样品的*R1.fastq&*R2.fastq并去掉引物 (如果公司给你测序的原始数据，你自己可以用barcode 将数据抽提出来，并自行去掉引物即可，命令都有的)。

那么分析正式开始：

1：usearch-fastq_mergepairs *_R1.fq -fastqout merged.fq -relabel @

#将所有正向序列*_R1.fq自动寻找对应的R2.fq进行匹配，同时-relabel @将每个你的sample标记（sampleidentifiers）

-fastq_maxdiffsx （可选参数，Default: anynumber of mismatches allowed, overlap。匹配错误率，你可设置为0到5看看你过滤的效果，这样也可以确定一下你测序R1&R2匹配错误率）。

2：usearch -fastq_filter merged.fq -fastq_trunclen 300 -fastq_maxee0.5 -fastaout filtered.fa

#-fastq_trunclen 300根据你的引物设定长度，比如用v4-5我选300bp, 如果你的引物扩增片段短的话，那么相应的缩短这个值。

-fastq_maxee 0.5， Discard reads with > E total expected errors for all bases质量控制默认0.5，感兴趣的可以进一步了解。

同时这里你也将fastq文件转换成了fasta格式了。

3：usearch -fastx_uniques filtered.fa -fastaout uniques.fa-sizeout -relabel Uniq

#找unique 序列并计算他的数量。

The-sizeout option specifies that size annotations should be added to the output sequence labels.

The-relabel option specifies a string that is used to re-label the dereplicatedsequences.

这个暂且用英文吧，我怕翻译出来表达的意思不到位就不好了（我英文比中文好）。

4：usearch -cluster_otus uniques.fa -otus otus.fa -uparseoutout.up -relabel OTU -minsize 2

#这一步很经典呀（见上图），OTUs cluster聚类默认为97%，你如果想设置95或99也是可以的。

-minsize2去掉了singleton

The-uparseout option specifies a tabbed text output file documenting how theinput sequences were classified.

5:以上version9,10都是可以的，

下面一步，请切换到version10，version9会有一点不一样。

usearch-otutab merged.fq -otus otus.fa -otutabout otutab_raw.txt

#生成OTUtable这一步 version10就比9要简化啦（更新总是好事）。

以上步骤完成，我们就拿到最后的OTUtable和代表fa（ATCG…）序列了。那么我们进一步再blast注释一下。

#Predict taxonomy

6：usearch -sintax otus.fa -db ../data/rdp_16s.fa-strand both -tabbedout sintax.txt -sintax_cutoff 0.8

#-db ../data/rdp_16s.fa把你的database放进来。

Cutoff80%我想大家都应该很熟悉。

以上六步骤搞定高通量Sequences处理，是不是只要三分钟？当然熟练之前，你需要检查并调试优化各项参数，熟练之后我相信聪明的你能三分钟搞定高通量Sequences处理。

以上搬运内容请参考（http://drive5.com/usearch/）（Robert C. Edgar）。总结仓促未免有不足，欢迎大家批评指正，一起交流，一起快速玩转高通量。当然序列处理只是第一步，我们如何翻译我们实验故事才是关键。后续我会陆续更新我们R 数据处理总结Code，欢迎大家一起讨论。

注：熊武，博士生，目前在荷兰乌特勒支大学生态与生物多样性团队联合培养。研究方向为抑病土壤微生物群落解析和调控，目前已发表SCI论文6-8篇（小编记不清了），累积影响因子30-40，但是年龄不到30，单身，能歌善舞，做一手好菜（见下图）。邮箱和QQ都在，要学习高通量分析的，抓紧联系他。

Email: xiongwu2012203040@gmail.com QQ: 283548445

2016年8月，小编回国之前，熊博士又露了一手。

-The End-

南京农业大学-根际微生态与调控实验室，

Lab of rhizospher Micro-ecology & Management

我们的口号是：竞争求发展，合作谋共赢。

Competition & Cooperation。

感谢您的关注和支持。

迅速提高序列拼接效率，得到后续分析友好型输入，依托qiime

引子目前NCBI上的数据已经超过的14个P,公开的测序数据也已近到达5个P,而且目前随着二代测序成本的继续下降,测序数据将在很长一段时间内持续井喷.面对如此大量的数据包含大量的与作物相关土壤相关的数 ...
16s分析之Qiime质控+去除嵌合体

Qiime质控很快,但是去除嵌合体就不那么迅速了,上次16s分析之Qiime序列拼接没有给出数据和运行界面,可能体验会差一些,这次我给加上: 先说说质控命令: split_libraries_fast ...
盘点扩增子序列拼接工具和方法

整理:谢鹏昊修改:文涛序列拼接一.QIIME 二. Vsearch 三. Usearch 序列拼接拿到扩增子测序结果之后的第一件事就是序列拼接(默认公司发放的数据都是没有问题的,所以不进行质量 ...
跟着生信技能树学习microRNA测序学习

我都忘记了自己的NGS流程系列增加了一个miRNA测序数据分析: 免费视频课程<RNA-seq数据分析> 免费视频课程<WES数据分析> 免费视频课程<ChIP-seq数 ...
MPB：遗传发育所刘永鑫等-易扩增子：易用、可重复和跨平台的扩增子分析流程

为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...
二代测序质控实战

二代高通量测序数据质控合并fq文件质控命令拆分解释剔除序列过滤序列基于单个fq文件质控基于多个fq文件质控对命令拆分解释质控前查看序列质量 QIIME Vsearch Usearch ...
一分钟教你玩转短视频爆粉，轻松批量去水印下载视频，一键剪辑消重

现在很多玩短视频的人群,但是很多人都止步于观望,不知从何下载,短视频的玩法有很多种,引流变现.粉丝出售.直播带货等,但是最终围绕的还是短视频,很多人也有自己拍摄尝试过,但是播放量都不高,也尝试过搬运视 ...
科三最难百米加减档，东哥2分钟教你学会，再也不用发愁了！

科三最难百米加减档，东哥2分钟教你学会，再也不用发愁了！
2分钟教你玩转《原神》人气女角色“甘雨”

原神甘雨怎么玩?2分钟看懂<原神>冰系大女主!
这才是川菜馆子水煮牛肉的地道做法，帅哥小厨教你做菜！

制作:ISAAC 文/图:子夜的昙又是周末ISAAC的小厨房时间,基本以后帅哥小厨会每周末教给大家一道传统川菜的做法.是真正的帅哥,身高182厘米 ,实际上现在还不到19岁.不知道以后会不会成长为中 ...
3分钟教你玩懂高中数学经典题型！弄懂了，瞬间提高20分!【有视频】

高考数学高考数学(ID:gksx100)是玖桔传媒集团整合优质教育资源打造的教育融媒体平台,长期提供一线名师整理的优质数学学习资料,包括从必修到选修的高中知识.真题训练.专项讲解.预复习资料等,帮助 ...
十分钟教您玩转对联：长联的出联方法和对联的注意事项

佳人独钓,钓满地相思,思两处闲愁,愁不知因何所起,起一帘幽梦,梦十里红妆,妆半路风云,云缠雾绕,绕佳人独钓. --题记显示所有大图此题记是思思前几日出的一阕上联,这两天一直有朋友私下问我长联要怎 ...
十分钟教您玩转格律诗：格律诗的书写入门知识

最近,总看到关于格律与古风的争议,反对格律诗的朋友均言格律诗难写,真的难吗?非也!未找到正确的书写方法而已.下面,思思归纳了一些格律诗的书写知识,以飨诸君. 一:格律诗的四种句式(以五言.七言为例) ...
消费升级，教你玩转「微数据」抓住消费者善变的心

本文整理自,诸葛io商业分析总监王洛在受邀出席由CDA主办的线下沙龙活动中发表的主题为<数据驱动用户增长>的分享. 电商企业的兴衰荣辱总能最先在运营数据方面窥见端倪,数据亦能在量化层面揭示 ...
RD选校套路多，5招教你玩转大学录取数据！

我一直建议学生们查看学校往年的录取数据来预估自己录取的几率有多少.院校在没有达到自己目标的情况下会对所有符合要求的学生都很感兴趣.有时他们也会因为一些特殊的需求录取一些原本标化没有那么优秀的学生来满足 ...

单身帅哥3分钟教你玩转高通量数据

相关推荐