EZBioCloud:16S和原核基因组物种注释和新种鉴定

简介

https://www.ezbiocloud.net/ 是综合的细菌16S鉴定数据库,所有16S序列经人工校正,几乎全部为完整27F-1492R全长16S序列,而且全面覆盖NCBI、JGI的16S和细菌基因组,以及PacBio测序的16S全长序列。数据库每季度更新,近10年来被引用过万次。

由ChunLab维护的专门针对细菌、古菌16S rRNA基因的数据库,但与Greengenes数据库不同的是,该数据库以可培养的细菌、古菌16S rRNA基因序列为主,也包括了细菌基因组和宏基因组来源的16S序列。

我们可以通过EzBioCloud数据库的鉴定(Identify)功能确定某一微生物的近缘可培养/模式种。当然,如果我们想要查找某一个属的所有可培养种的16S序列,EzBioCloud也是很好的选择之一。

数据库有4类

16S数据库

EzBioCloud 16S 数据库:16S rRNA 基因为整个 EzBioCloud 数据库提供了分类框架。基本上,所有物种或亚种都由单个 16S 序列表示,通常来自类型菌株。分层分类基于 16S-最大似然系统发育分析 ,详见:https://help.ezbiocloud.net/ezbiocloud-16s-database/

基因组数据库

EzBioCloud 基因组数据库:EzBioCloud 中包含的所有基因组序列均由相同的注释流程处理,因此可以直接进行比较,不会出现不兼容的问题。基因组通过各种质量控制 流程进行验证,分类身份通过我们的 TrueBacTM ID 服务进行检查。该数据库中的所有基因组都标有 EzBioCloud 16S 数据库中始终存在的分类名称,详见:https://help.ezbiocloud.net/ezbiocloud-genome-database/

微生物组数据库

EzBioCloud微生物组数据库:MTP(Microbiome Taxonomic Profile)是含有宏基因组样品的分类学描述文件数据的一个单元。我们将公开可用的 16S 微生物组数据编译到该数据库中。要访问该数据库,您需要使用EzBioCloud系统。如果您有兴趣探索包含 8,048 个 MTP 的人类微生物组项目数据,请遵循本教程,详见:https://help.ezbiocloud.net/tutorial-how-to-browse-individual-human-microbiome-project-hmp-data/

QIIME和Mothur使用的16S数据库

https://www.ezbiocloud.net/resources/16s_download

下载数据库首先要注释,最好使用学校或研究所的邮箱注册,如我的单位邮箱为 yxliu@genetics.ac.cn 。然后申请,等人工审核后才会发你下载链接。

16S数据库

本次只介绍16S数据库的在线和本地化使用。其他数据库的使用有时间再分专题介绍。

https://help.ezbiocloud.net/ezbiocloud-16s-database/

EzBioCloud 16S数据库内容

EzBioCloud 16S 数据库包含以下信息:

  • 代表参考分类群的标准化 16S rRNA 基因序列

    • 所有序列都使用两个最流行的 PCR 引物 ( 27F-1492R )之间提取,因此可以始终如一地进行相似性计算。

    • 原则上,单个 16S 分配给单个参考分类单元。

  • 参考类群均值

    • 当前有效发布的分类名称

    • 一些无效名称(可能代表不同的物种)。

    • 候选分类群

    • 不属于上述的未命名系统发育型。

      这些包括 16S 扩增子和基因组序列。

  • 给出了所有 16S 序列(从物种到门)的完整分类等级

    层次结构基于 16S 的最大似然系统发育树,并考虑了当前接受的分类。

16S数据来源

由于我们已尝试确保 16S 序列的最佳质量,因此 16S 的来源可能会有所不同,并且是以下之一:

  • 有效发表的NCBI 16S扩增类群的序列:

    例如,AY692362为 Adiaceo aphidicola

  • 系统发育型(phylotypes)的 NCBI 16S 扩增子序列:

    例如,   AJ290038用于 AJ290038_s(系统发育型对应物种)

  • 从 NCBI 基因组组装中提取的 16S 序列:

    例如, 用于Baumannia cicadellinicola的 CP000238。

  • 从基因组JGI提取16S序列装配(这基因组数据可能无法在NCBI提供):

    例如 jgi.1096475在属种系型jgi.1096475_s  Geodermatophilus

  • 16S 序列由 Pacific Biosciences 微生物组样本的全长测序汇编而成。

    这些代表使用 PacBio 的循环共有测序 (ccs) 技术的高质量 16S 序列:

    例如,系统发育型PAC001304_s 的 PAC001304。

  • 来自基因组的 16S 序列(例如 CP014326_s)。

    这些是由全基因组序列支持的暂定新物种,详见 https://help.ezbiocloud.net/genomospecies/ 。

因此,并非所有数据都在 NCBI 数据库中可用。但是,所有数据都可以通过 www.ezbiocloud.net 免费访问。

为什么在 EzBioCloud 中使用来自基因组组装的 16S 序列,而不是 PCR

  • 基因组组装通常比 PCR 扩增子测序质量更好。

    典型的 NGS 测序导致 50X 或更高的测序覆盖深度。

  • 当我们将基因组序列衍生的 16S 包含到 EzBioCloud 数据库时,我们总是使用二级结构信息通过手动比对来检查质量。

    根据我们的经验,使用基因组序列可以提高 16S 数据库的质量以供参考。

单个序列物种注释

1.访问主页 https://www.ezbiocloud.net/

2.16S序列分析

点击“16S-based ID”

3.新序列鉴定

点击“Identify new sequences”

填写序列名,序列,再点“Next”,再点“Submit”

4.鉴定结果解读

显示鉴定结果如下,包括菌种,株,相似度,分类全称和输入序列完整度,点击“放大镜图标” 查看详细

同一性为 98.7% 作为物种级临界值,94.5% 和 86.5% 的临界值分别用于属和科(Zou, 2018)。更系统的知识,参见 网站帮助  https://help.ezbiocloud.net/truebac-id/#bacterial-identification-101 或作者的综述文章 https://www.microbiologyresearch.org/content/journal/ijsem/10.1099/ijsem.0.002516

点击菌名,可查看详细名称,数据来源类型

再点击 i 图标查看相关文献

返回上一页结果,点击编号(Accession)查看序列详细,

包括编号、序列、名称、菌株、方法、完整度、分类学。以及比对到Greengenes的相关近缘信息。

16S数据库的下载

详见:上面“QIIME和Mothur使用的16S数据库”段落。
申请下载QIIME格式的16S序列和物种注释压缩包,18M左右,更新时间为2018年6月1日。可用于QIIME 和 QIIME 2。也有Mothur的对齐格式数据库 89M,解压后有1.5G。这个数据库的物种注释种类较丰度,来源广泛,也可转换为常用的USEARCH/VSEARCH格式,代码如下:

格式化QIIME为USEARCH

cd db/EzBioCloud/
unzip EzBioCloud_16S_database_for_QIIME.zip
# 修改为usearch格式
sed 's/^/>/;s/\t/\ttax=d:/;s/;/,p:/;s/;/,c:/;s/;/,o:/;s/;/,f:/;s/;/,g:/;s/;/,s:/;' ezbiocloud_id_taxonomy.txt | less -S > ezbiocloud_id_taxonomy_usearch.txt
# 添加至序列文件中
awk 'BEGIN{FS=OFS="\t"} NR==FNR{a[$1]=$2} NR>FNR{print $1,a[$1]}' ezbiocloud_id_taxonomy_usearch.txt ezbiocloud_qiime_full.fasta | sed 's/\t$//;s/\t/;/' | less > ezbiocloud_usearch_full.fasta

参考资料

EzBioCloud官网帮助  https://help.ezbiocloud.net/user-guide/

Yuanqiang Zou, Wenbin Xue, Guangwen Luo, Ziqing Deng, Panpan Qin, Ruijin Guo, Haipeng Sun, Yan Xia, Suisha Liang, Ying Dai, Daiwei Wan, Rongrong Jiang, Lili Su, Qiang Feng, Zhuye Jie, Tongkun Guo, Zhongkui Xia, Chuan Liu, Jinghong Yu, Yuxiang Lin, Shanmei Tang, Guicheng Huo, Xun Xu, Yong Hou, Xin Liu, Jian Wang, Huanming Yang, Karsten Kristiansen, Junhua Li, Huijue Jia, Liang Xiao. (2019). 1,520 reference genomes from cultivated human gut bacteria enable functional microbiome analyses. Nature Biotechnology 37 179-185 doi: 10.1038/s41587-018-0008-8

从EzBioCloud自动下载16S序列 https://mp.weixin.qq.com/s/rECfcjPmB8bJkramJB-DRQ

(0)

相关推荐

  • 技术贴 | 宏转录组专题 | 盘点宏转录组分析方法

    本文由阿童木根据实践经验而整理,希望对大家有帮助. 原创微文,欢迎转发转载. 导读 宏转录组 宏转录组测序是对某一特定时期.特定环境样品中的全部微生物的RNA进行高通量测序,直接获得该环境中所有微生物 ...

  • 技术贴 | 微生太宏基因组报告解读(开篇)

    本文由阿童木根据实践经验而整理,希望对大家有帮助. 原创微文,欢迎转发转载. 导读 宏基因组由来: 微生物世界是分子多样性最大的天然资源库,基于菌株水平的传统分离培养技术为人们认识微生物多样性提供了可 ...

  • 宏病毒组分析常见的分析软件

    病毒是地球上数量最多的生物实体,其中细菌病毒(即噬菌体)约有1031个类群,从海洋到陆地再到人体几乎都是它们的栖息地.研究者将病毒视为调节人类生态系统的重要成员,人体内主要包括真核病毒和噬菌体,包括双 ...

  • 我的生信之路2

    写下前面: 现在已经是19年了,年底也快到了,各地的会议也在朋友圈此起彼伏.想想我做生物信息也三年了.故事总在发展着,去年我总结了我的生信之路,写了我是如何开始做生信的.今天我将为大家带来新的一年来的 ...

  • 跟着science学习宏基因组-专辑简介

    写在前面 开学两周了,学校也没有什么人,想起来还有一份教程还没有兑现得大家,就将这部分完成,代码 + 数据 一起送给大家. 欢迎大家留言打卡学习.最近在学习csvtk工具,十分强大,也是好东西. 早在 ...

  • 5-跟着science学习宏基因组-kraken物种注释

    [toc] 写在前面 kraken基于mini数据库.并且这个序列也比较少,所以,很快就能完成 继续处理 胶水操作:提取序列名称 zcat ./trimmomatic/SUBERR793599_for ...

  • SBC miRNA测序数据分析 - 丁香通

    数据分析内容 1) microRNA长度分布统计以验证试验可靠性 应用fastx(fastx_toolkit-0.0.13.2)对测序原始reads进行预处理,去除接头序列以及低质量序列. 图为经过长 ...

  • Annolnc:一站式lncRNA查询数据库

    长链非编码RNA(lncRNA)是一类新型调控分子,它在从胚胎发育到肿瘤发生等在多种生理病理过程中发挥重要调控作用.虽然人类lncRNA发现数量和规模快速扩张,但这些工具仅支持从单一角度对长非编码RN ...

  • 7-跟着science学习宏基因组-从宏基因组中提取16S/18S序列分析2-组装注释

    [TOC] 写在前面 这是对宏基因组提取扩增子序列16S分析的第二部分,这部分将核糖体RNA基因组装后进行分析.上一节我们使用了 bbmap提取了核糖体序列,但是单纯用于ASV的方法聚类是不行的,以为 ...

  • Kraken2:宏基因组快速物种注释神器

    简介 kraken是基于k-mer精确比对,并采用最LCA投票结果快速宏基因组DNA序列进行物种注释的软件. 图. Kraken2分类基本原理 该文章于2014年发表于Genome Biology,目 ...

  • MPB:农科院牧医所赵圣国组-基于GraftM对功能基因进行物种注释

    为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...

  • 12-跟着science学习宏基因组uproc注释

    [toc] 写在前面 这部分主要用于注释功能,使用的还是之前分组装的结果(spades) ,其实之前已经对这个组装序列进行过多次物种和功能注释,例如megan一站式注释物种和功能.kraken注释物种 ...

  • Nature子刊:宏基因组中挖掘原核基因组的分析流程

    宏基因组中挖掘原核基因组的分析流程 从宿主相关的短读长鸟枪宏基因组测序数据中恢复原核基因组 Recovering prokaryotic genomes from host-associated, s ...

  • MetaPhlAn2:宏基因组物种组成分析

    简介 MetaPhlAn2是分析微生物群落(细菌.古菌.真核生物和病毒)组成的工具,它在宏基因组研究中非常有用,只需一条完命令即可获得微生物的物种丰度信息(扩增子物种组成需要质控.拼接.拆样本.切除引 ...

  • 保姆级参考基因组及其注释下载教程(图文详解)

    目录一.什么是参考基因组和基因组注释?二.参考基因组版本命名1.常用人参考基因组对应表2.常用小鼠参考基因组对应表三.下载1.NCBI2.Ensemble3.GENCODE4.UCSC5.iGenom ...

  • lncRNA实战项目-第三步-了解参考基因组及注释文件

    响应生信技能树的号召:lncRNA数据分析传送门 , 一起来一个lncRNA数据分析实战! 下载原始测序数据: 在GEO数据库搜索GSE87182, 这里没有直接给出ftp地址,需要先从BioProj ...