科研 | Nat. Chem. Biol. :Qemistree:新型代谢组学质谱数据的化学分析手段

编译:魏冬,编辑:Tracy、江舜尧。

原创微文,欢迎转发转载。

导读

非靶向质谱法用于检测复杂生物样本中的小分子,会产生难以分析的数据,因此我们开发出Qemistree,这是一种在质谱碎片信息的基础上获得预测的小分子碎片指纹谱图的数据探索策略。Qemistree可在样品元数据和化学本体论的背景下展示质谱数据。通过将分子关系表达为树状结构,我们可以应用能够分析和可视化DNA序列与代谢组学数据关联性的生态工具。在本文中重点我们介绍了如何使用树导向的数据探索工具来分析不同实验条件(例如色谱位移)的代谢组样本。另外,我们利用树表示法来可视化异构样本集中的化学多样性。Qemistree软件流水线以QIIME2插件和全球天然产物分子网络工作流的形式免费提供给微生物组和代谢组学研究人员。

论文ID

原名:Chemically informed analyses of metabolomicsmass spectrometry data with Qemistree
译名:使用Qemistree进行代谢组学质谱数据的化学信息分析
期刊:Nature chemical biology
IF:12.587
发表时间:2020.11
通讯作者:Pieter C.Dorrestein
通讯作者单位:加利福尼亚大学圣地亚哥分校斯卡格斯药学院

实验设计

实验结果

1.  使用化学关系解决技术差异

为了验证基于指纹识别的树是否能准确地捕获分子间的化学关系,我们使用四个不同的生物样本设计了一个评估数据集:两个人类粪便样本,一个番茄幼苗样本和一个人类血清样本。通过以二元,三元和四元混合物的不同比例组合以制备样品,从而生成一组不同但相关的代谢物谱。我们用非靶向MS/MS分析这些样品的化学成分并获得碎片质谱图,且采用了不同的液相梯度进行两次MS实验,导致保留时间出现偏移,而传统LC-MS数据分析方法处理这两个实验的数据会导致在下游分析中将相同化合物鉴定为不同的化学特征,图1显示出对三种不同样品类型的分析以证明这一点。
图1 Qemistree通过MS过程将结构相似的分子集中在一起来缓解技术方面的假象
基于预测分子指纹的化学树,该分子指纹表示评估数据集中检测到的化合物之间的结构关系。外环显示了通过MS分层的分子相对流行程度;内环在评估数据集中显示相同的粪便,血清和番茄样品分层。所示的所有结构都是从GNPS中基于特征的分子网络获得的数据库匹配结果(根据2007年代谢组学标准计划,该水平为2或3)。需要注意,非靶向MS无法识别对立体化学和区域化学(例如脂肪酸中的双键),因此化合物也可能是所示结构的同分异构体。
Qemistree可将两个色谱条件(批次)中的每个质谱图表示为分子指纹,并以树状结构将它们组织起来(图1)。由于分子指纹与保留时间漂移无关,因此质谱的聚类是基于其化学性质相似性的。而且,通过谱图库匹配(通常为全部特征的1–20%,具体取决于对样品类型的研究程度)或其他形式的注释,化学特征的结构信息(例如子结构Mass2Motifs)也可以用于在不同MS运行中以比较样品的化学成分。Qemistree通过将所有带有分子指纹的MS/MS谱图用于下游比较而不仅仅将分析限制在基于质谱匹配的化学特征。我们还可以使用样本类型说明、色谱条件、在GNPS分子网络中获得的谱图匹配项(如果有)和任何其他化学注释来修饰此树形结构。图1结果表明仅在两个批次之一中检测到了相似的化学特征,但是基于分子指纹信息,无论保留时间如何变化这些化学特征都被排列为树状结构的相邻尖端,这一结果表明Qemistree能够对不同色谱梯度上获得的数据集进行协调和比较。

2. 代谢组学中以树状结构为导向的全系统比较

在证明了Qemistree在生物学人工数据集上的实际应用后,我们现在用一个概念性的例子来说明一般原理。我们证明了化学层次结构在进行代谢轮廓信息比较中的应用。在标准的代谢组学统计分析中,我们假定每个分子与数据集中的其他分子无关且该假设的一些陷阱在图2a中显示,在样本1-3中不考虑这些样品分子之间化学关系,模拟出样品2和3中的糖与样品1中的脂质在化学上彼此间具有关联性。于是我们得出结论,即样品1和2以及样品2和3是同等不同的,但从化学角度来看却没有。另一方面,如果我们解释一个事实,即糖分子彼此之间的化学联系比与脂质之间的化学联系更紧密,那么我们就可以得到一种化学上可行的样品间比较信息。

图2 假设分子具有同等相关性的陷阱和化学树状结构用于样品比较的优势

一种比较三个样品中的化学成分及是否忽略分子相关性影响的方案。b、c,评估数据集中所有样品(N = 162)的PCoA均以色谱条件着色。Tree-agnostic距离的PCoA图不能解释色谱条件下检测到的特征之间的化学关系(b)tree-based距离的PCoA图可评估数据集分子间的层次关系(c)。

鉴于分子网络中MS/MS谱图的余弦相似,我们开发了化学结构组成相似度(CSCS)度量标准从而计算成对样本间的比较。我们使用基于树结构的方法来说明样本的化学关系,这样我们能够采用基于系统发育的工具进行代谢组学分析。过程中,我们首先通过对CSI:FingerID的分子指纹进行分层聚类来构建一棵化学上相似的树,该树类似于生态学上的进化树,树的顶端是分子(而不是物种)。然后,我们计算加权UniFrac距离(一种以树为基础的度量,在微生物生态学中被广泛用于比较微生物群落)来比较代谢组学特征。在图2a中,通过使用样本1-3中分子之间的化学关系树,我们可以看到样品1与样品2和3在化学上明显不同(在主成分分析中为PC1)。
回到评估数据集,我们可以通过说明分子间的关联性来强调比较样本的重要性。忽略树状结构的评估数据集(图2b)(包括纯样品和样品混合物,N = 162)的主坐标分析(PCoA)效果远比采用树状结构的Qemistree PCoA(图2c)差。通过Qemistree提供的结构环境,批次之间重复的差异可与批次内差异进行比较,由于色谱条件掩盖了样品之间的生物学关系,该数据集中的保留时间偏移会产生很强的信号。在最近发表的调查圈养猎豹代谢组和微生物组的研究中,我们观察并修复了源自平板间差异的相似模式,在这项研究中,我们使用Qemistree将分子置入树状结构中以减少观测的技术差异,并突出了预期饮食效果。这些结果表明使用基于树状结构的化学距离测量可以用无监督的方式降低系统性和虚假的分子差异。

3. 可视化异构数据集中的化学流行度

我们使用该平台探究在GlobalFoodOmics计划中所收集的食物样本间的化学多样性,但了解不同食物之间的化学关系极具挑战性,因为食物中的大多数分子都没被注释。我们选择了多种食品成分来代表动物、植物和真菌组,首先使用MZmine实现基于特征的分子网络以获得部分化学特征的谱图库匹配数据,通过使用Qemistree,我们从CSI:FingerID中核对了GNPS谱库匹配情况和计算机模拟以注释约91%具有分子结构的化学指纹。我们还检索了由ClassyFire分类的结构的化学分类学分配,其余的将在提交论文后在ClassyFire服务器上进行分类分配的队列中处理。标注注释可使我们能够检索不同化学类别的子树(图3a)例如食品中的类黄酮、生物碱、磷脂、酰基肉碱和O-糖基化合物,我们将化学特征的ClassyFire注释传播到树的每个内部节点并通过饼状图标记节点,这些饼图描述了化学超类和其尖端的分布。我们还发现基于分子指纹的化学特征层次结构与ClassyFire分类法分配非常吻合,进一步表明分子指纹可以有意义地捕获分子之间的结构关系,此外Qemistree将化学树与样本元数据耦合起来,揭示了每种样本类型预期的化学类别。我们仅在动物产品中发现代表酰基肉碱的分支(图3a),而蜂蜜虽然被归类为动物产品,但它的化学成分主要与植物产品相同,这反映了植物花蜜和蜜蜂以花粉为基础的饮食。

图3 基于预测分子指纹的食品衍生化合物的化学层次

基于分子指纹的化学树代表了在食品中检测到的化学特征(树梢)间的结构关系。通过MS/MS谱库匹配或使用CSI:FingerID进行计算机模拟进行修剪,仅保留分配了结构注释的提示。显示的所有结构都是从GNPS中基于特征的分子网络获得的谱图数据库匹配,外环显示了各种食物来源中每种化合物的相对丰度,这里我们重点介绍了具有特定食物来源特征的化合物簇。

虽然人们期望像蓝莓酸乳酒这样的复杂食物含有蓝莓、乳制品、细菌和酵母的分子,但我们现在可以想象单个成分和食物制备过程是如何影响复杂食物的化学成分的。我们注意到代谢物的特征直接来源于特定的成分,例如从鸡蛋中提取的磷酸乙醇胺存在于炒蛋中(图4b),而其他两种食品中则没有(图4a,c);我们还发现在食物中添加的这些成分在最初的配料中没有列出来,能够检索到炒蛋、香肠和橙子鸡中有黑胡椒,但是蓝莓酸奶中未监测到这种信号。

图4 在简单食品和七个复杂样品中观察到的化合物的层次结构

a-c,在简单食品和七个复杂样本中观察到的化合物层次结构:两顿橙子鸡、一份煮熟的黄瓜和一顿饭中的酱汁、酸奶油、蓝莓酸奶和香肠炒蛋。顶部和内环显示了每种化合物在动植物食品、真菌和藻类以及七种复杂食品(黑色)的相对丰度。在外环中,蓝莓酸奶(a),香肠炒蛋(b)和橙子鸡(c)覆盖在树上说明了复杂食物的共同和独特的化学成分。下面突出显示了每餐中代表性化合物的复合子树,请注意非靶向的MS对立体化学和区域化学是无法区分的(例如脂肪酸中的双键)。

讨论

我们证明了基于树状结构的方法在各种公开可用的数据集中连贯地捕获化学本体和分子和样本之间的关系。Qemistree依赖于将化学特征表示为分子指纹,并与基础指纹预测工具CSI:FingerID有共享局限性。指纹预测依赖于可用于训练预测模型的MS/MS谱图库的质量和覆盖范围,而随着数据库中化合物种类的增加,这些质量和覆盖范围将有所提高,但以CSI:FingerID预测的分子指纹依然极具优势。Qemistree同样适用于负电离模式,然而由于公众可获得的参考谱图有限,因此无法预测出更多的分子指纹来扩大树状结构。
这项工作的一个重要贡献是引入建立化学层次结构的概念,它可帮助利用基于系统发育的工具(对于DNA测序分析非常有利)来进行代谢组学数据探索,分层关系也提供了一个强大的框架帮助科研人员理解生物间的相关性,这些技术构成了用系统遗传学和系统基因组学甚至分类学来解释基因组数据的基石。在过去几十年中,使用分层结构在这些领域中开发的工具和算法套件可能与MS数据的研究具有普遍的联系,使用Qemistree,我们可以开始探索其他方法的适用性,例如Faith的系统发育多样性可了解样品内的复杂性,或者当这些表示法正常使用时,代谢组学的拓扑结构独立于系统发生学从而形成对比。
我们证明了层次表示法可以用来推断样本间的化学关系(图2),虽然在本文中我们使用CSI:FingerID预测的分子指纹来建立化学层次结构,但可以将此方法扩展为合并其他策略,通过比较分子从而构建化学树,例如,基于分配的化学类别、质谱图、共享的生物合成来源或其他结构比较方法的化学关系也可作为作化学树的基础,这些方法将产生不同的树形拓扑捕获互补的化学信息以进行后续分析。最终,需要更广泛的基准工作来了解每种方法应该何时使用,类似于环境DNA测序领域的基准工作。
Qemistree除了为数据集中的化学信息样本比较提供框架外,还为相对独立处理的数据集提供。在Qemistree工作流程中,我们将化学特征表示为它们的分子指纹,这种表示在很大程度上与技术变化无关,例如整个MS实验中的色谱方法差异,因此使用基于指纹的表示可以比较不同实验中样本的化学成分,而不需要重复检测和特征比对。此工作流程类似于在基于序列的分析中进行大规模样品比较,其中数据集需要被预先处理并根据用户需求快速分析。将这些应用扩展到MS数据将使代谢组学研究的广泛运用成为可能,如发现全球生物化学模式的地球微生物组项目和美国肠道项目,但是有必要对实验协议的可比性进行基准测试,并建立促进全球数据重复使用的社区采纳标准。虽然这些问题很严重,但我们已经看到了一些社区聚在一起解决这些问题的以实现系统和全球数据可比性的案例。
总的来说,文章基于树结构和机器学习开发了一种用于小分子谱图指认的分析技术Qemistree。层次结构使我们能够利用现有的树工具,并且可以通过结构和环境注释进行扩充,从而极大地方便分析和解释。我们预计Qemistree作为一种数据组织和比较策略,将广泛应用于执行全球化学分析的各个领域,从医学到环境微生物学到食品科学,甚至远远超出本文所展示的案例。
原文链接:
https://pubmed.ncbi.nlm.nih.gov/33199911/
(0)

相关推荐