Nature子刊:古菌基因组的标准化物种分类方法
基因组物种分类数据库的标准化古菌分类
A standardized archaeal taxonomy for the Genome Taxonomy Database
Nature Microbiology [IF: 17.745]
DOI:https://doi.org/10.1038/s41564-021-00918-8
发表日期:2021-6-21
第一作者:Christian Rinke1
通讯作者:Christian Rinke
(c.rinke@uq.edu.au)1和Philip Hugenholtz(p.hugenholtz@uq.edu.au)1
合作作者:Maria Chuvochina, Aaron J. Mussig, Pierre-Alain Chaumeil, Adrián A. Davín, David W. Waite, William B. Whitman, Donovan H. Parks
主要单位:
1澳大利亚布里斯班昆士兰大学(Australian Centre for Ecogenomics, School of Chemistry and Molecular Biosciences, The University of Queensland, Brisbane, Australia)
写在前面
本研究提出了古细菌域(发布 R04-RS89)的基因组分类数据库 GTDB(GTDB; gtdb.ecogenomic.org)分类法,包括来自培养和未培养生物的 2,392 个基因组。该分类学版本限定了 16 个门,包括来自 Euryarchaeota 主要单系单元的 3 个门和由 Thaumarchaeota–Aigarchaeota–Crenarchaeota–Korarchaeota(TACK)超门合并产生的一个门。古菌分类法可在 GTDB 网站 (https://gtdb.ecogenomic.org/) 上公开获得,作者通过在线论坛 (https://forum.gtdb.ecogenomic.org) 邀请社区参与和对分类法的反馈。
摘要
来自培养和未培养微生物的基因组数据的积累为开发基于进化关系的系统分类法提供了新的机会。此前,我们通过基因组分类数据库建立了细菌分类。在这里,我们提出了一种标准化的古菌分类法,该分类法源自 122 个连接的蛋白质系统发育,该系统发育可解决多系群并根据相对进化差异对等级进行标准化。由此产生的古菌分类法构成基因组分类法数据库的一部分,对于一系列系统发育变量是稳定的,包括标记基因选择、推理方法、比率异质性和成分偏差的校正、树生根方案和基因组数据库的扩展。使用模拟数据集显示,等级标准化可以稳健地校正变化高达30倍的替代率。物种分类管理遵循《国际原核生物命名法典》的规则,同时考虑正式承认门的等级和使用基因组序列作为模式材料的建议。该分类法基于 2,392 个古菌基因组,其中 93.3% 需要对其现有分类法进行一次或多次更改,这主要是由于分类不完整。我们确定了 16 个古细菌门,并从之前的 Euryarchaeota 和一个门中重新分类了 3 个主要的单系单元,该门将 Thaumarchaeota-Aigarchaeota-Crenarchaeota-Korarchaeota (TACK) 超门合并为一个单一的门。
结果
图 1 等级标准化古菌 GTDB 和 NCBI 分类法的对比
Comparison of rank-normalized archaeal GTDB and NCBI taxonomies
a,b 由 NCBI 分类法 (a) 和精选的 GTDB 分类法 (04-RS89) (b) 定义的分类群的 RED。每个数据点(黑色圆圈)代表根据其 RED 值(x 轴)和其等级(y 轴)分布的分类群。圆圈的填充颜色(蓝色、灰色或橙色)表明分类单元在基础基因组树中分别是单系的、可操作上的单系(定义为 F 值 >0.95)或多系的。叠加的直方图显示了每个 0.025 RED 间隔的单系、操作单系和多系分类群的相对丰度。蓝条表示RED值的中位数,两边的黑色条表示每个等级的RED区间(±0.1)。请注意,在 NCBI 分类法中,较高等级(目及以上)的值分布非常不均匀,以至于中位数无序;也就是说,纲的中位数 RED 值高于目的中位数。GTDB 分类法使用 RED 值来解决过度分类和分类不足的分类群,方法是将它们移动到新的内部节点(图中的水平移动)或将它们分配到新的等级(图中的垂直移动)。仅使用单系或操作单系分类群来计算每个等级的中位 RED 值。此外,对于GTDB 树('—min_children 2’)只考虑至少有两个子类的分类群(例如,一个门具有两个或更多的纲或一个纲具有两个或更多的目);然而,NCBI树需要一种更宽松的方法('—min_children 0’),因为除了 Euryarchaeota 外,没有一个 NCBI 门具有所需的最少两个纲。请注意,NCBI 图中未显示 Crenarchaeota 门,因为该 NCBI 门中的所有基因组都被分配到 Thermoprotei 纲,导致单个被称为“pCrenarchaeota;cThermoprotei’ (Tpr)的节点。此外,在 GTDB 04-RS89 中,Korarchaeota 仅由单个物种 Korarchaeum cryptofilum 表示,因此在此图中没有显示内部节点。RED 值是基于 ar122.r89 树计算的,从 122 个连接的蛋白质中推断出来,用 NCBI 或 GTDB 分类法描述。
c GTDB 和 NCBI 分类法的等级比较。图中显示了GTDB对比于NCBI在RefSeq/GenBank第89版中2,392个古菌基因组分类分配的变化。值得注意的是,153个通过质量控制(QC)的UBA基因组没有被包括在内(2,392-153 = 2,239),因为它们没有进行 NCBI 分类分配。在左侧的栏中,如果分类单元在两个分类法中的名称相同,则该分类单元显示为未更改,如果 GTDB 分类法提供了 NCBI 分类法中不存在的名称信息(缺少名称),则显示为被动更改,如果名称在两种分类法中不同,则显示为主动更改 。右栏显示了每个基因组的整个分类字串(由七个等级组成)的变化,表明大多数基因组在其分类法中既有主动变化,也有被动变化。
图 2 标记集、推理方法和模型的比较
Comparison of marker sets, inference methods and models
用不同的方法从不同的串联比对或通过超级树方法推断出的系统发育树用 GTDB 04-RS89 分类法描述。每个等级(p,门;c,类;o,目;f,科;g,属)的分类群的 RED 分布相对于等级(x 轴)的中位 RED 值被显示(y 轴)。分类群的数量显示在图的右侧。图例表示每个等级的多系分类群的百分比,定义为 F 度量 <0.95。请注意,仅包括具有两个或更多基因组的分类群。
a 使用不同剖面混合模型(C10 PMSF、C10 和 C60)从 122 个 GTDB 标记与约 5,000 个比对列的串联比对和未修剪的 32kAA 比对通过IQ-TREE推断出的树;
b 从 122 个 GTDB 标记的经过修改的级联比对推断出的树以解释成分偏差,包括异构位点的静止 (BMGE) 和渐进修剪 (Tr. 20%, Tr. 40%) 以及具有共享同源性的位点聚类 (Divvier) >
c 从 122 个 GTDB 标记的经过修改的级联对齐推断出的树,包括重新编码为四个字符状态 (C60 SR4)、重新编码和固定修剪 (BMGE C60 SR4) 以及移除 20% 和 40% 的最快进化位点 (SlowFaster 20% 和 40%)。请注意,由于技术限制,SlowFaster 使用了简化的目-去重复的基因组集,仅允许评估门和纲水平等级。d 使用不同的推理软件和模型(包括 FastTree2、ExaML 和 PhyloBayes)从 122 个标记比对中推断出的树。注意,由于计算限制,PhyloBayes 是从目-去重复的数据集计算的,只允许评估等级门和纲水平等级。
e 从可选择的标记推断出的树,包括 16 个核糖体蛋白 (rp1)、23 个核糖体蛋白 (rp2)、SSU rRNA 基因 (SSU) 和一组 53 个标记蛋白 (ar53)。
f 使用 122 和 253 个标记蛋白通过 ASTRAL 超级树方法推断的树。每个树名后面括号中的数字(例如,’(2.1)’)是指补充信息中这棵树的编号。小提琴图包括一个中位数的标记和一个表示第一和第三四分位数的框。
图 3 不同定根方案对RED间隔的影响
Impact of different rooting scenarios on RED intervals
a-c,在 GTDB (a) 中实施的生根方法将 RED 计算为具有至少两个纲(红色箭头)的门的所有可能生根的中值,并将其与 DPANN 超门(红色箭头)和其余古生菌 (b)类别之间的固定根进行比较, 这转化为两个门 Thermoplasmata 和 Halobacteriota(红色箭头)与 GTDB 分类学中古生菌的其余部分之间的根(c);
在上方的 RED 图中,每个数据点(黑色圆圈)代表根据其 RED 值(x 轴)和等级(y 轴)分布的分类群。簇状直方图显示了每个 0.025 RED 区间的分类群的相对丰度,蓝色条显示了中间 RED 值,两侧的两个黑条显示了每个等级的 RED 区间 (±0.1)。请注意,总的来说,无论应用的生根场景如何,都可以根据其 RED 值来区分等级。此外,RED 值是相对的,不应直接在图之间进行比较,因为它们是特定于数据集的。相反,RED 值的分布是关键指标;也就是说,与每个等级 (ΔRED) RED 值的中位数的距离(正或负)。这些树包括一个标签,突出显示相应的 NCBI 门 Euryarchaeota (Eury) 作为参考点。
图 4 等级标准化古菌 GTDB 分类法
Rank-normalized archaeal GTDB taxonomy
物种代表 ar122.r89 ML 树,通过用 RED 值替换分支长度来缩放,并用古菌 GTDB 分类法 R04-RS89 进行装饰。外部蓝色环表示等级归一化门,内部浅蓝色进化枝表示等级归一化 GTDB 分类法中的纲。具有 10 个或更多分类群的纲被标记,具有目水平差异的纲用纲和目的名称表示。两个 GTDB 门各只包含一个物种,即 Huberarchaeota 和 EX4484-52,用红色分支突出显示,表明它们在 ar122.r89 树中的位置不确定。内部橙色环表示具有两个或更多分类群的 r89 NCBI 门。NCBI 超门 TACK 和 DPANN 用灰色弧线表示。缩写如下:Bat (Ca. Bathyarchaeota)、M (Ca. Marsarchaeota)、V (Ca. Verstraetearchaeota)、T (Ca. Thorarchaeota)、L (Ca. Lokiarchaeota)、H (Ca. Heimdallarchaeota)、Woe (Ca. . Woesearchaeota), P (Ca. Parvarchaeota), N (Nanoarchaeota), Nh (Ca. Nanohaloarchaeota), A (Ca. Aenigmarchaeota), M (Ca. Micrarchaeota), D (Ca. Diapherotrites)。超过 90% 的 Bootstrap 值用蓝点表示。比例尺表示0.1RED。
表 1 04-RS89 GTDB 分类法与 RefSeq89 等效 NCBI 分类法之间的对应关系
Correspondence between the 04-RS89 GTDB taxonomy and RefSeq89 equivalent NCBI taxonomy
由来:基因组分类数据库的标准化古菌物种分类;
命名的 GTDB 门、主要纲和选定的目与其相应的 NCBI 物种分类一起被列出。请注意,在 GTDB 和 NCBI 谱系不完全匹配的情况下,将提供匹配分类群数量最多的 NCBI 谱系。n.a.,未分配,表示在 NCBI 分类法中没有为该谱系分配等级。自RefSeq89(2018 年 7 月 13 日)发布至 2021 年 3 月 12 日,NCBI 分类法中已更新的名称在方括号中显示。
a,Nunoura等人建议为'Ca. Aigarchaeota’
b,Kozubal等人建议为'Ca. Geoarchaeota’,请注意,名称已在 GTDB 05-RS95 中更正为“o__Gearchaales”。
c,Castelle等人建议为'Ca. Pacearchaeota’
d,Castelle等人建议为'Ca. Woesearchaeota’
e,在 GTDB 05-RS95 中,名称已更正为“Aenigmatarchaeota”和“Aenigmatarchaeia”。
f,请注意,该谱系的等级在 NCBI 中被定义为“进化枝”。
图 5 Thaumarchaeota 的重新分类
Reclassification of the Thaumarchaeota
ar122.r89 参考树的子树的分支图,显示了 GTDB 门 Thermoproteota,其纲为 Korarchaeia、Thermoprotei、Methanomethylicia(之前的Ca. Verstraetearchaeota门)、Bathyarchaeia 和 Nitrososphaeria(之前的Ca. Thaumachaeota门)。在GTDB中对有效发表的Nitrososphaeria纲(浅蓝色)进行修订,以将NCBI RefSeq89分类学中归属于Thaumarchaeota门的所有类群包括在内。该谱系的模式种是 Nitrososphaera viennensis56,它是高等分类群的类型,包括 Nitrososphaera 属、Nitrososphaeraceae 科、Nitrososphaerales 目和 Nitrososphaeria 纲。N. viennensis型菌株EN76T(= DSM 26422T = JMC 19564T)的基因组用白色突出显示。箭头指向图中未显示的 ar122.r89 参考树类群。系统发育树使用在线工具'Interactive Tree Of Life’进行注释和着色。
Reference
Christian Rinke,Maria Chuvochina,Aaron J. Mussig,Pierre-Alain Chaumeil,Adrián A. Davín,David W. Waite,William B. Whitman,Donovan H. Parks,Philip Hugenholtz.A standardized archaeal taxonomy for the Genome Taxonomy Database. Nature Microbiology 6, 946–959 (2021). https://doi.org/10.1038/s41564-021-00918-8