科研|Chemical Society Reviews:结合代谢组学和宏基因组学来示踪代谢多样性

编译:太阳味的风,编辑:Emma、江舜尧。

原创微文,欢迎转发转载。

导读

微生物和植物的特殊代谢物具有庞大的化学多样性,这些代谢物在调节物种间互作过程中发挥关键作用。同时,它们也被认为是天然产品,被广泛应用于医药、农业、化妆品和食品工业。传统上,主要的检测策略是对代谢产物的“活化-引导分馏法”(activity-guided fractionation)。越来越多的组学数据被用于补充传统策略,其可以降低重复发现率(rediscoveryrates),可以将实验数据引向最有意义的代谢物,并且确定可生物生产的酶合成通路。近年来,针对特定代谢多样性的基因组和代谢组学分析已经扩大到同时研究数千个样本。这项研究有助于针对大型基因组和代谢组数据集的深层分析,通过讨论各种新兴策略,整合这两种类型的数据,进而进一步加快探索。

论文ID

原名:Linking genomics and metabolomics to chart specialized metabolic diversity
译名:结合代谢组学和宏基因组学来示踪代谢多样性
期刊:Chemical Society Reviews
IF:42.846
发表时间:2020.05
通讯作者:Katherine R. Duncan;Marnix H. Medema
通讯作者单位:瓦赫宁根大学,斯特拉斯克莱德大学

内容

1. 引言

几乎所有的生命形式都有能力产生区别于其他生物的特定的分子。这些特殊的代谢物(也称为天然产物)促进了化学对抗、通讯、营养获取或应激保护的各种机制。在化学层面,这些代谢物属于不同的种类,包括多肽,多酮,类黄酮,萜烯和糖类。庞大的化学空间,令人难以置信的多样性和生态相互作用驱使生物产生了我们今天所知的成千上万的代谢产物。
这种丰富的资源被广泛用作药物。许多抗生素、化疗药物和其他药物要么本身就是天然产物,要么就是受其启发而产生的。最近,人们发现了多种抗生素,为对抗耐药超级细菌提供了一个新的来源。此外,天然产品还被用作农药、食品、化妆品、染料和许多其他产品的原料。
最近,专门代谢物的另一个有趣的领域出现:它们是微生物群系中分子相互作用的关键介质,并可以作为一种化学语言成为许多微生物相关表型的基础。例如,植物微生物群对真菌疾病的抑制与特定的假单胞菌株在根际产生的乙醇霉素等脂肽有关。
在人类微生物群系中,产生葡萄球菌的无核核糖体肽酶已被证明会损害致病性金黄色葡萄球菌的定植,而不同肠道细菌产生的n -酰基酰胺已被证明可以调节宿主的代谢。
传统上,大多数天然产物的发现都是通过分离微生物和植物的化学提取物所推动的。这使得分类成千上万种代谢物和揭示它们的结构成为可能,这也是许多关于当今自然产品多样性的知识基础。
然而,在获取和整合关键信息方面的滞后以及较高的“重新发现率”(high rate of rediscovery)使得这种方法的效果不太理想。很明显,随着DNA测序技术的出现,自然产物产生生物体的基因组编码BGCs,用于产生许多实验室从未观察到的代谢物。在细菌和真菌中,大多数生物合成途径是编码BGCs;在植物中,代谢通路数目也显示出基因组聚集的迹象。这些观察结果导致了基因组挖掘技术的出现,该技术可以识别已知和未知的生物合成途径。
此外,非靶向代谢组学和串联质谱(MS/MS)的方法学进展使代谢提取物中分子组分的综合分析成为可能。这使得在复杂提取物中鉴别天然产物更加方便,否则,复杂提取物中的天然产物将被“隐藏”。
近年来,作者所在的实验室分析了大规模的基因组和代谢组数据。从鸟瞰的角度来看,通过网络化的方法可以促进数据可视化,并且可以同时分析成百上千的生物体的组学数据。这些进展开启了一系列潜在的新方法,不仅可以分别单独挖掘基因组和代谢体,还可以将其整合起来。在这篇方法综述中,我们将概述关键的基因和代谢组信息挖掘技术,以识别具有生物活性的天然产物结构和生态功能。
2. 基因组挖掘

基因组挖掘的过程(图1)包括许多步骤,例如:基因组组装、注释、识别生物合成基因(Biosynthetic Gene Clusters,BGC)和基因簇、预测自然产物的序列结构、比较基因组以识别生物之间的相似性和差异性。组装和注释的基因组通常是基因组挖掘的原材料。因此,重要的是要清楚组装和注释的质量,其会对任何基于基因组的分析的结果产生重大影响。

例如,在“片段化”的基因装配过程中会包含许多小重叠区(contigs),BGC很可能在整个Contigs中被分解成许多片段。事实上,由于它们的重复组织,编码模块化多酮合成酶(PKS)和非核糖体合成酶(NRPS)装配线的基因经常在重叠区处断裂。因此通常情况下,一些基因簇片段会出现在非常小的重叠区上,BGC识别算法无法识别它们。从宏基因组数据中获取完全接近的BGCs是特别具有挑战性的。可见,微生物群落的自然产物是一个难以利用的资源,其需要解析成百上千个高度相似的、无组织的序列片段并将其组合成基因,这显然十分困难。

BiosyntheticSPA des是一种专门用于从宏基因组数据中组装BGCs的组装器,其可以提供、将多个contigs组合成BGCs的策略。在来自MiBIG数据集的BGC上,Biosynthetic SPA des与之前的装配算法相比,正确性提升了两倍。

除了程序集的连续性之外,它们的精确性当然至少同样重要。装配错误经常发生,特别是在装配覆盖率低的短读数据时。当这种情况发生在BGC中,它会导致NRPS或PKS模块的跳跃或“复制”。太平洋生物科学公司(Pacific Biosciences)和牛津纳米孔技术公司(Oxford Nanopore technologies)提供的长期技术也有其自身的问题,因为较高的错误率有时会导致引入虚假的框架缺失,导致基因分裂成多个片段或导致过早终止的标记。

使用例如antiSMASH对个体基因组进行的“传统”分析并不适合基因拼接过程,因为手动审查数千个输出和预测相应的BGCs将需要数年时间。基于这个原因,序列相似性网络方法已经被开发出来,可以帮助同时并系统地绘制数千个BGC之间的关系。这种类型的方法最初是由多个研究小组合作开发的,最近得到了正式化、加速化和简化(图1a)。

尽管如此,鉴于自然界中存在着庞大的生物合成多样性,在公开获得的基因组中,绝大多数BGC不会与任何MIBiG参考基因簇密切相关。已经出现了几种可以重新预测其产物的化学结构的计算方法。这些方法是由在产生这些代谢物的酶机制的计算机预测所指导的。例如,模块化PKSs和NRPSs组成了一条由酶模块组成的“装配线”,每个酶模块将一个单体(例如氨基酸)整合到生长链中,生长链在末端被释放。排列在活性位点上的残基很大程度上赋予了这种底物特异性。因此,各种算法,从简单的基序匹配到复杂的机器学习模型(图1b)。

对于与已知产物关系不密切的BGC来说,预测其产物的完整结构是非常具有挑战性的。除了模块化的PKS和NRPS生物合成系统外,大多数BGC中很少有结构预测工具存在。尽管如此,化学特征的预测也可以在不需要预测完整结构的情况下完成(图1c)。

图1 挖掘基因组多样性的计算方法
(a)生物合成基因簇(BGCs)可使用抗粉碎工具在基因组序列中自动识别。随后,可以使用已知功能的BGCs数据库(如MIBiG)对其进行删除。序列相似度网络可以跨大数据集识别相似的BGCs;(b)BGCs的分组可以帮助注释基因聚类家族(GCFs)。两种策略可以用来预测从这些基因簇化学结构:多酮类化合物或单体肽。(c)可以使用机器学习算法预测的底物特异性。识别已知(如脱氧糖)的生物合成或化学修饰(如甲基羟化)的亚簇,可用于预测BGC代谢产物的其他结构特征。

 3. 代谢物挖掘

代谢物具有高度的结构多样性,这是生物进化的结果,生物以此适应环境中的生物和非生物胁迫。此外,由于特殊代谢物的产生受到一系列复杂过程的影响,相当大的代谢变化可能由不确定的途径产生。这些途径可能受到生物合成酶编码基因的动态转录调节。
基因组测序显示,微生物的生物合成潜力往往高于实验室观察到的代谢物数量。为了识别新的代谢物,需要在代谢物测量和数据方法(分析、管理、储存和标准化)方面取得技术进步,从而有效地调查和比较更大的物种、样本和条件。
方法的发展和高灵敏度的分析仪器,特别是质谱分析(MS)的进步,使得代谢物的提取物日益复杂的研究。因此,基于MS的代谢组学技术被广泛应用于天然产物领域。
然而,天然产物提取物的化学复杂性和多样性往往使代谢物鉴定非常具有挑战性。在以质谱为基础的代谢组学研究中,可能有多种数据采集方式,其各有优缺点。但通常其目标是捕获整个代谢物(使用全扫描或“MS1”模式),这有利于准确量化代谢物。然而,由于各种原因,比如多个不同的代谢物往往具有相同的分子式和质量,通常很难从MS1数据中对代谢物进行可靠的注释。
获得代谢物的裂解谱(MS/MS或串联MS模式,图2a)对于注释和识别代谢物具有明显的优势。此种手段可以看作是条形码或代谢物的指纹,目前已经有几款软件工具来利用这些结构信息。这些软件的第一步通常是将实验MS/MS光谱与文库光谱进行比较(图2b),以检测已知的代谢物或类似物,这一过程也称为反复制(dereplication)。该匹配程序的可靠性取决于许多因素,包括实验数据质量和光谱数据库内容不同的数据库。因此,在不同的数据库中检查结果是明智之选。
此外,尽管光谱库目前正在增长,但它们的内容远不能完全覆盖自然产物代谢组。例如,GNPS spectral libraries目前包含了2.5%的已知天然产物的MS/MS参考光谱。
一份提取物可能包含数千种代谢物,实验通常包含数百个样本。因此,大多数代谢物没有参考数据是不足为奇的。因此,尽管生成的非目标MS数据非常丰富,但注释仍然是一个挑战。在实践中,一个样品中不到5%的化学实体能被可靠地注释到结构层面。为了便于探索性数据分析,已经开发了新的工具,旨在根据结构相关代谢物裂解谱的相似性将其分组在一起(图2)。在这里,Global Natural Product Social (GNPS)分子网络改进了样本内部和样本间的光谱比较。一般来说,具有相似化学结构的代谢物产生相似的裂解谱。分子网络群的父离子(parent ions,以节点表示)通过碎片化模式相似性(以边缘表示)形成相关代谢物的分子族(MFs)(图2c)。
有一类方法利用了这样一个事实,即特殊代谢物通常由生物合成机器组装起来的若干构件组成。直接从代谢组学数据识别这些构建块,是阐明天然产物的一种吸引人的策略。近年来,在这一领域已经发展了几种方法。例如,MS2-LDA工具使用基于文本挖掘的算法,通过对共现分子片段的无监督检测来识别非目标数据集中的部分代谢物(子结构)(图2d)。由此产生的大量碎片模式被称为大量模序,它们需要由研究人员进行注释。MS2LDA已被应用于植物、真菌和细菌的提取物中。从这些数据集,数十个Mass2Motifs被标注了子结构信息,最终形成几百个标注的子结构模式。
此外,在不同的样本类型中传递Mass2Motif注释时要注意,Mass2Motif可以代表不同的同构子结构。不同的化学将导致不同的质量碎片和中性损失,因此研究者必须在结构上注释,以提供(生物)化学解释(图2e)。
对于特定类别的天然产物,已经开发出专用的方法,通过使用创新的策略,将基于MS/MS的片段与化学结构数据库预测的片段模式匹配,从而去除代谢产物的重复。例如,DEREPLICATOR(图2f)通过与基于特定硅变性规则生成的理论光谱进行比较,系统地将大型肽天然产物数据库中的结构连接到质量碎片谱。结果的统计评估也被提供匹配到包含不存在的具有相似氨基酸组成的缩氨酸的数据库。
最近DEREPLICATOR+被推出,将这种标注策略扩展到聚酮类、类黄酮类、萜烯类等天然产物。由于大型肽数据库是不完整的,因此使用Evarquest工具来促进肽结构的耐修饰性搜索,并预测这些修饰在肽支架上的位置。这使得可以在公开的数据中注释近20000个肽变异体。结合库匹配、应用结果和子结构预测可以在很大程度上解释分子网络。最近开发的方法,包括网络注释传播(图2g),利用网络拓扑结构和Mol Net Enhancer来增加有关候选人的数量结构代谢组学信号(图2e).
图2利用分子网络技术绘制代谢多样性
(a)代谢组学采用非靶向LC-MS/MS对粗微生物提取物进行分析,从中筛选出MS1中检测到的最强离子并进行片段化,获得MS/MS光谱数据。(b)在光谱库搜索中,针对一个光谱库搜索数据集中的每个MS/MS谱,以找到一个好的光谱匹配。(c)分子网络通过光谱余弦相似度对MS/MS数据集进行组织,将高度相似度的光谱聚在一起,形成分子网络。(d)MS2LDA识别与结构基序相关的离子;这些子结构信息可以与来自其他工具(NAP、DEREPLICATOR、Classy Fire)的注释相结合(e)Mol Net Enhancer集成了这些工具的输出,以注释子结构并对研究数据集中出现的化学类进行分类。(f)DEREPLICATOR能够注释已知的肽类天然产物。(g)NAP-Network Annotation Propagation利用网络拓扑,通过光谱网络传播谱库匹配的注释,通过基于重叠的结构指纹重新排序最可能的候选结构来改进类似物的注释。

4. 基因组和代谢组的集成

跨数据集的信息链接是有用的,因为它支持结构和功能注释。术语“代谢基因组学”(metabologenomics)已被创造,包括用于集成这些复杂数据集的方法论。功能注释在基因组学和代谢组学越来越多地出现在数据库中并可以匹配新的实验数据。
据估计,大约50%的蛋白质有可靠的功能注释。此外,粪便或土壤提取物等复杂样品中含有多种微生物种类和代谢物,其也可能也来自食品和药物等;因此,识别微生物产生的代谢物具有挑战性。
为了找到产品-生产者的配对,特别是在宏基因组/代谢物连接中,已经证明了几种方法是可行的。它们可以被广义地定义为基于模式、基于关联和基于特性。
基于模式的基因组挖掘是最早将跨菌株的BGC分析与分子网络相结合的基于关联的整合策略之一,证明了这种方法在更大的数据集上的成功(图3a)。在这种方法中,基因组挖掘信息(BGCs的存在/缺失)被收集以形成35个盐孢菌属(Salinispora)菌株。
历史上,这些基于关联的方法大多是人工操作的,而且常常是基于BGC信息来指导化学的优先级排序。然而,近年来,自动化方法已经出现,考虑相关指标和统计框架。依据菌株间的存在/缺失模式,利用代谢基因组学评分将基因簇与分子的质谱联系起来(图3b)。基于特性的集成策略也有了进步,尽管“模块化”自然产品类的进步更多,因为它们具有相对明确定义的构建模块(图3c)。从基因组单体(如氨基酸和糖基)和酶修饰(如甲基化和羟基化)可以预测从基因簇序列。同样,子结构也可以从质谱中预测出来。

图3 不同类型的匹配基因聚类家族(GCFs)和分子家族(MFs)

(a)描述了“基于模式的匹配”,其中所有菌株的GCFs和MCFs的两个存在/缺失矩阵被合并在一个表中,在这个表中可以识别出手动确定的候选链接。(b)在“基于相关性的匹配”中,计算基于相关性参数。使用这样的分数可以对GCF-MF链接进行排序,以集中于相关子集的后续研究。(c)强调了“基于特征匹配”的概念,即从基因组学到的结构特征与从代谢组中推断出来的结构特征相匹配。

存在一些将质谱与分子结构联系起来的全自动方法,这些方法可以通过将基因组学预测的结构特征与代谢组学推断的结构特征相匹配。具体地说,对于非核糖体肽(NRPs),存在NRP quest(一种软件);对于核糖体合成和翻译后修饰肽(RiPPs),存在Meta Miner 48和Deep RiPP。虽然这些基于模式特征的方法在细节上是不同的,并且它们针对的天然产物的类型,它们具有相似的原理(图4)。从代谢组学数据和BGCs开始,这些方法包括以下步骤:(a)预测来自BGCs的假想小分子产物,(b)预测这些假想分子的碎裂模式和理论光谱,(c)将质谱与理论光谱相匹配,允许特定的修改,(d)计算统计显著性,(e)计算匹配的错误发现率,(f)形成一个具有重要识别的分子网络。
(a)预测BGCs的假设小分子产物。在NRPs的情况下,多个算法用于预测氨基酸特异性。在RIPS的情况下,根据在不同RiPP类中发现的修饰酶预测BGC:BGC中的开放阅读框(ORF)被提取为前体RIPS,并基于BGC中存在的酶,在前体RiPP中加入改性以形成成熟的RiPP结构。
(b)在质谱分析中预测这些假想分子的碎裂模式和理论光谱。在肽链情况下,通过断开氮和碳之间的酰胺键形成碎片模式。对于一般的小分子,通过断开氮-碳、氧-碳和碳-碳键形成碎裂模式。
(c)将质谱与理论光谱相匹配,允许特定数量的修改。由于预测翻译后和组装后修饰的困难,基于基因组挖掘的潜在小分子预测通常是错误的。这些修饰可以通过对假设小分子质谱的修饰搜索来发现。
(d)计算匹配的统计显著性。假设的小分子和光谱之间的原始分数被定义为两者共享的峰的数目。这些分数通常偏向分子量较大的分子。因此,有必要将原始分数转换为P值,即分数高于目标小分子的随机生成分子结构与质谱的比值。
(e)计算匹配的错误发现率。为了计算错误发现率,假设的小分子被随机释放,形成一个诱饵数据库。然后,将假发现率计算为诱饵数据库中识别的分子数与目标数据库中识别的分子数之比。
代谢物的化学特性通过分子网络进一步扩展和环境化。尽管有这些综合数据分析的通用方法,但仍有一些挑战促使开发解决方案来改进数据集内部和跨数据集的集成。关键挑战包括数据的可比性,例如,不同的实验协议、数据处理协议、数据格式、缺乏结构化参考或知识库。还有很多工具可以用来检查和管理数据和元数据质量,以及可以使用或重用这些成对数据及其伴随的元数据的工具。

图4 从代谢组学数据和BGC开始,基于亚结构的代谢组学和基因组学数据整合方法包括以下步骤

(a)预测小分子产物的生物合成基因簇(每个节点代表一个单体,例如一种氨基酸或肽链,每条边表示单体之间的化学键(如酰胺键)。(b)预测这些假设分子在理论光谱质谱中的分裂模式。(c)匹配理论质谱光谱,允许特定数量的修改。(d)计算匹配的统计显著性。(e)计算匹配的错误发现率。(f)形成显著识别的分子网络。

这里讨论的第一个挑战是数据的可用性。(包括数据的一致性、精心管理和标准化)。

同一菌株的全基因组测序和代谢组学数据的可用性越来越高,使得从基因组和代谢组预测中获得或推断的互补结构信息成为可能。与同一来源相关的不同互补的组学数据集被称为“成对数据集”。在过去的几年里,多篇论文发表了成对的数据集。配对的数据集越多,我们就越能从基因组和代谢组中挖掘互补的结构信息,并将基因簇与其产品联系起来,从而将分子与其生产者联系起来。

后者在元基因组学和元代谢组学实验中尤其有用。在这些实验中,一个分子可能由许多不同的细菌菌株产生。目前正在努力创建一个名为Paired omics数据平台 (https://pairedomicsdata.bioinformatics.nl),其中可以记录现有和新的成对数据集,以提供现有成对数据集的概述,从而刺激自然产品发现和使用。

此外,额外的组学数据,如转录组(transcript omics)和肽原组(peptidogen omics)可以添加到这一平台中。成对数据集中的一组全面相关的化学和基因组特征将有利于整个自然产品研究界和其他领域。实验人员可以利用已验证的链接快速评估特定代谢物产品是否为现在还没有发现的BGCs,计算化学家扫描使用已验证的链接作为锚定点来训练机器学习模型,以计算链接基因组和代谢组数据。

第二个挑战是数据质量与数量。

质量相对较差的数据可能会产生不准确的注释,从而导致对所调查的生物系统出现的错误假设。公共数据的质量经常受到质疑,因此开发用于生成质量控制报告的标准化工作流程至关重要。

如前所述,需要考虑影响数据质量的几个变量,包括样本处理和预处理的方式、提取程序、采用的分析方法、数据处理和许多其他变量。一些作者认为,协议标准化有助于更好地集成组学数据;然而,此类标准操作协议可能并不总是为单个案例带来最佳质量的数据。此外,代谢组学和基因组学数据中存在的错误信息特征可能来自基线或劣质光谱,这将会使综合分析工作流程复杂化。因此,过滤步骤对于统计分析是必不可少的;但是,相同的过滤器也可以从数据集中删除相关特征。使用一些质量控制方法可以帮助克服这个问题,并在很大程度上提高最终数据的质量。

总之,选择哪些数据集包含在成对数据分析中是在选择更高质量的样本数据和数据集与样本总数之间的折中。由于更多成对的数据集通常都是具有相关模式的多个高阶通道,因此必须对数据质量进行权衡选择。

5.机遇

在过去的15年中,测序成本下降了9个数量级,同时,产生质谱数据的成本也下降了2个数量级。这导致越来越多的实验室可以收集这两种类型的数据。

例如,Qiita平台拥有数十万个微生物样本的公共基因组数据,GNPS拥有数千个微生物样本的公共质谱数据,包括美国肠道项目样本的代谢组学 (http://humanfoodproject.com/americangut),全球食品 (https://globalfoodomics.org),微小地球(Tiny Earth,https://tinyearth.wisc.edu/)以及人类微生物群项目(https://hmpdacc.org/ihmp/)。因此,Qiita和GNPS目前包含数千个样本,其中代谢组学和测序(主要是16Sr RNA序列,但也越来越多的全基因组序列)已经被收集。这些数据包括分离株(约1700株——主要是链霉菌属、盐孢菌属、蓝藻属和人类微生物群相关的细菌种类)和主要是人类肠道变基因组(超过500株)和16 Sr RNA扩增子序列(超过2000株)。然而,由于实际中连接数据集的复杂性,这些数据的效用尚未得到充分的实现和利用。

在这里,期刊可以发挥其作用,明确规定哪些需要存放在公共领域,以及如何以易于访问的格式链接数据。例如,对于序列数据,根据现行要求,大多数数据存储在公共的域文件中。对于质谱数据,目前有几十种不同的格式,科学界不要求存储带有登录号的数据。我们认为,应尽快公开分享这些质谱数据。一种方法是,在论文发表之前,除了强制共享外,如果用户在公开共享时获得了更多的知识或数据,则可以鼓励共享。总的来说,我们预计公众数据的数量将因许多由公众资助的开放数据举措而增加。

随着基因组学和代谢组学研究的投入越来越高,我们预计会有更多成对的数据集可用。最终,这两种发展都会相互促进,计算高级链接数据将刺激成对数据集的生成。正如过去五年中出现的许多倡议和工具所显示的那样,很明显,集成分析时代已经有了很好的开始。我们期待着未来几年里所有新的令人兴奋的发展。

原文链接: https://pubmed.ncbi.nlm.nih.gov/32393943/
(0)

相关推荐