综述 | 计算代谢组学和数据库的进展加深了对新陈代谢的理解

导读

基于质谱(MS)的代谢组学是代谢组分析的流行平台。已经建立了用于处理MS原始数据的计算技术,例如特征检测,峰对准以及排除假阳性峰。非目标代谢组学的下一阶段将是破译小分子的大规模碎片,以全面鉴定人类,动物,植物和微生物群的代谢组,从而更深入地了解代谢。这篇综述是对最新的计算代谢组学的更新,包括已知/期望的结构数据库,化学本体分类和质谱化学信息学,用于解释质量碎裂和阐明未知代谢物。还讨论了代谢组'数据库'和'储存库'的重要性,因为新的生物学发现往往归因于数据的积累,关系数据库及其统计数据。最后,代谢物注释的实用指南作为本综述的总结。

代谢组学相比于基因组、转录组、蛋白质组学的技术原理有所不同,大家相对而言接触的也比较少,但代谢组学作为获得生命有机体生物学完整图像的最后一环其重要性不言而喻。为了让大家对代谢组学有个全面的了解,小编通译全文未做删减,所以文章较长。希望对大家有所帮助。

论文ID

原名:Advances in computational metabolomics and databases deepen the understanding of metabolisms

译名:计算代谢组学和数据库的进展加深了对新陈代谢的理解

期刊:Current Opinion in Biotechnology

IF:9.294

发表时间:2018年

通信作者:Hiroshi Tsugawa

通信作者单位:RIKEN Center for Sustainable Resource Science, Japan

综述内容

1. 为什么生物学中需要非目标代谢组学?

在中心教条下,基因组,转录组和蛋白质组以“信号流”表示,代谢组被认为是新陈代谢的“结果”。然而,许多研究报道,代谢物本身深深地参与生物体的生理功能和体内平衡。例子首先是氧化脂质,在例如炎症反应和防御系统中充当生物活性代谢物的氧化脂肪酸基团; 其次,代谢物,涉及肿瘤发生的代谢改变的意想不到的产物; 第三,受损的代谢物,由通常由损害控制系统调节的酶错误或自发反应产生的化学反应性化合物; 第四,微生物代谢产物,肠道微生物群分泌的代谢物影响宿主生理机能; 最后是植物化学物质,植物特化代谢物在人体代谢中发挥各种生物活性( 图1 )。

基于质谱(MS)的非靶向代谢组学已导致这些代谢物的发现和分析化学的更新,其信息学对于阐明新的生理功能和生物学机制是必不可少的。

图1:代谢组与生理功能有关。代谢组的筛选通常由非靶向代谢组学进行。生物活性代谢物通过结合其他分析平台(例如核磁共振(NMR)和X射线)的靶向分析来验证立体异构体测定。缩写TMA和TMAO分别表示三甲胺和三甲胺N- 氧化物。

2. 什么是非目标代谢组学需要改进?

处理MS原始数据(例如特征检测,色谱图解卷积,同位素识别,色谱图比对以及排除假阳性峰)现在成为非目标代谢组学的成熟技术:当然,这些进展还提高了生物学效率发现。软件程序,如MS-DIAL,MZmine,XCMS,OpenMS和代谢组学和脂质组学的其他专业程序被用作代谢组学工作流程。程序的使用需要综合考虑其优点和缺点。

最大的挑战是解码离子化代谢物的物理/化学现象,如离子相互作用(如二聚体,加合离子)和质量碎片,包括质谱仪中的源内碎裂和低能碰撞诱导的基于解离的碎裂。这些知识将使离子特征检测更有效,并促进全球识别活生物体中的代谢物。迄今为止,使用化学开发工具包等化学信息学平台的“计算质量碎片化”是流行的技术来帮助解释质量碎裂,并用代谢组数据库和库来阐明未知结构,如下所示。

3. 使用光谱数据库和结构数据库的化学信息学

首先,检查目前的MS / MS光谱和生物学报告/预期结构数据库。统计数据由RIKEN内部MS / MS光谱数据库进行,包括我们的内部数据库,MassBank,GNPS,Metlin,ReSpect和NIST14(用于光谱计数)以及MS-FINDER 2.24版的结构数据库包括15个代谢组结构数据库(用于结构计数)。结果,在代谢组结构数据库中存储了226,204种独特的化合物,而7195种这些化合物的MS / MS谱记录在光谱数据库中,其中使用InChIKey的第一层作为查询。计算代谢组学试图填补频谱和结构计数之间的巨大“空白”。为了更好地理解所需的技术,'代谢物组'在本评论中分为四类,首先是“已知结构- 已知谱(KS-KS)”,其中报道的结构由实验MS / MS谱证实; 其次,'已知结构未知光谱(KS-US)',其中光谱未被标准化合物验证的生物学检验(或部分预期)结构; 第三,“未知结构- 已知光谱(US-KS)”,其中质谱本身在生物样品中经常受到监测,但其结构未在生命科学论文中阐明或报道; 最后是“未知结构- 未知光谱(US-US)”,其中小分子的假定暗物质是未知的。

借助EI-MS和MS / MS匹配算法,KS-KS代谢物的鉴定相对容易结合保留时间预测,并通过内部标准。值得注意的是,最近在代谢组学中提出了研究依赖的错误发现率(FDR)估计而在脂质组学中已经提出了脂质的平台无关注释规则。他们可以促进代谢组学/脂质组学工作流程的全面自动化。

质谱化学信息学中的一个挑战是KS-US和US-KS代谢物的注释,并且已经通过三种主要的计算方法来满足:将光谱知识外推到与LipidBlast家族中使用的结构相似或相同的支架化合物,PlantMAT,FlavonoidSearch(A型);搜索报告的分子结构,然后使用评估技术对结构候选进行排序,以解决CSI中使用的结构- 频谱关系:FingerID,MAGMA,MetFrag,CFM-ID,MIDAS和MS-FINDER(B型); 和基因组规模或分子谱网络方法来挖掘GNPS中使用的产品离子和中性损失的共同特征,MS2LDA,BioCAn, 和别的(C型)。原则上,这些程序可用于KS-US和US-KS代谢物的标注; 它们将组合应用,它们将有助于确定特定代谢物类别的产物离子和中性损失的特征发现以及对质量碎片的更深入的理解。

值得注意的是,B型需要合适的结构数据库来搜索化学空间。在CASMI 2017的第3类中,所有参与者使用MS-FINDER的结构分配,其中由Tobias Kind博士领导的团队胜过所有其他人(http://www.casmi-contest.org/2017/index.shtml )。其中一个原因是Kind团队仔细优化了目标结构数据库; 它分别将37%(91/243),61%(148/243)和79%(193/243)挑战分别列为最高,前三名和前十名候选人。这表明化合物鉴定可以通过数据库选择和特定器官,组织和物种中的方法得到极大改善。特别是在天然产品研究中,应用有关物种- 化学品关系信息的分类过滤器有效地排除了假阳性候选人。事实上,CASMI比赛不仅对激活计算质谱非常重要,而且对代谢组学中实际需要的方法的认识也很重要。

4. 化学本体论和分类系统将促进生物学中的代谢物注释

未知光谱的“代谢物分类”是结构阐明的基本技术。小分子的多样性持续增长; 在2017年12月,HMDB化学结构的数量,ChemSpider和PubChem化合物分别为114,103,> 6100万和> 9000万。由于这些空间不能被理解(并且大部分空间不能被当前的代谢组学计划处理),它们会凝结成一个化学分类系统,用于过滤,组织和查询化学物质,组学研究是可取的。化学本体论/分类术语已由几个团队在MeSH中组织,LipidMAPS,ChEBI和ClassyFire ChemOnt。分类可以由相关程序系统地执行。当使用上述结构阐明工具时,这些关于化学本体论的信息也会提示代谢物注释。

图2 显示了结构解析的MS-FINDER结果,查询 来自 拟南芥的m / z 477.0631 。而分子式C 17 H 22 N 2 O 10 S 2 被预测为最高候选人,其得分显着高于其他人,因此通过得分来确定结构异构体是困难的。另一方面,这个分子的子结构可以从指定的本体直观地确定; 在该实例中,该结构可以含有'硫代葡萄糖苷','吲哚'和'糖苷'的部分。本体术语也可以用于细化分子网络方法。事实上,未知EI-MS或MS / MS谱图的化学本体论测定是天然产物重新消失所必需的和在各种物种和组织中探索新型复合支架,包括特定植物和微生物组。

图2:MS-FINDER结构阐明的结果显示化学本体分配的效率。查询m / z的 一个例子 显示了477.0631。排名分子式和结构候选者的分数通过MS-FINDER 2.24版计算,其中包含总共2,282,521个代谢组结构作为搜索空间。化学本体是由ClassyFire程序的“直接父母”定义的,目前这些结构被归类为总计2321个化学本体。右表显示MS-FINDER中包含的本体的详细信息和结构数量的一部分。

5. 代谢组学数据库和知识库的重要性

质谱化学信息学中最具挑战性的问题是对US-KS或US-US代谢物的阐明,其结构未报告在当前生物学研究的预期中。由于生物学和质谱专家在花费大量时间和精力成功地鉴定了意想不到的代谢物,因此应在评估前通过调查代谢组学库评估物种,组织和器官之间的重要性,相关性和发生情况。代谢组学工作台和MetaboLight是MS原始数据的储存库,并且“原则上”,这种数据的关系搜索可以揭示未知光谱的相关性和发生。另一方面,这些调查要求MS数据的完整性,并且必须开发用于查询目标未知峰的关系“数据库”:这将是当前代谢组学库的具有挑战性的问题。尽管即使使用保留时间,准确的m / z ,同位素模式和MS / MS谱图作为化合物特性,LC-MS中的未识别代谢物的连接也不容易,但 基于GC-MS的代谢组学最近已被记录。GC-MS BinBase代谢组学数据库通过强大的保留指数,可扩展的70 eV EI-MS谱图和其他色谱性质将已知和未知代谢物联系起来; BinVestigate网络服务可以检测特定未知代谢物的离子丰度统计数据。由BinVestigate评估为生物学重要代谢物的未知物(实际上是US-KS代谢物)通过使用MS-DIAL的另外的化学信息学方法鉴定和MS-FINDER。因此,代谢组学库和相关数据库将有助于发现未被当前基因组序列和已知代谢途径解释的新代谢物。

6. 目前基于MS的化学信息学用于代谢物注释的'指南'

质谱化学信息学将扩大代谢物鉴定和注释在非靶向代谢组学中的覆盖范围。代谢物发现的路标显示为本综述的总结( 图3 )。

工作流程:

1.消除假阳性峰的可能性: 虽然这不是本综述的重点,但在注释之前应排除假阳性峰及其光谱被认为是同位素离子,不同加合物类型,源内片段和其他背景离子。可以通过CAMERA,MS-FLO,RAMClust,xMSannotator和代谢组学软件程序的内部功能。除了基于色谱数据点相关性的经典加合/内源片段检测方法之外,最近的程序将MS / MS与MS1谱匹配,并将分析的样品组中的离子丰度相关因子用于建议源内片段和意想不到的加合离子。希望纯化和浓缩未知代谢物以增加质谱的离子丰度。

2.搜索光谱库: 结构阐明的首选方法是使用公开和商业可用的光谱数据库进行质谱搜索。除了串联质谱(MS / MS)谱图的光谱搜索的正常使用外,通过不使用前体分离,搜索空间可扩展到所有记录,因为产物离子相似性通常为未知的子结构和分子支架提供直接证据代谢物(见下文)。

3.预测分子式:MS中未知分子的首要任务是确定分子式。诸如MolecularWeightCalculator(https://omics.pnl.gov/software/molecular-weight-calculator ),Sirius和MS-FINDER七条黄金法则辅助预测,超高分辨率MS可以提供精确的氧,氮和硫的分子式。此外,标记方法使用完全标记的样品13 C,15 N,18 O或34 种化学品可用于严格测定未知代谢物的配方元素计数。

4.检索建议公式的已知/预期结构,然后检索它们的排名: 大多数未知数可以包含在代谢组结构数据库中,这是一个有效的假设。有几种用于搜索数据库的化学信息学程序,然后按照本评价介绍的那样排列结构。如果公式在数据库中找到,前10名结构候选人就是实际的目标。其他必要的标准,包括保留时间/指标预测和目标物种的分类信息可以从几个平台获得,例如PredRet和NIST RI(用于保留时间预测)以及来自诸如HMDB和KNApSAcK(用于分类信息)。

5.扩大化学空间用于搜索和预测分子支架 :如果数据库中没有关于结构的信息,则结构解析是非常困难的。通过生物学上预期的化学反应获得的计算扩展的化学空间,例如MINE和LipidHome是有用的。分子谱网络也有助于通过用已知的化学品光谱提取产物离子或中性损失的共同特征来阐明支架。另外,利用质谱特征的化学分类有助于复合注释。

使用基因组尺度信息的其他方法,生物反应知识,离子丰度相关网络和累积的代谢组学数据库/库也被纳入。总体而言,药物发现研究中开发的化学信息学技术现在在基于MS的代谢组学研究中得到广泛应用。质谱信息学的技术进步以及代谢组数据解释的生物信息学加深了对代谢的理解。

图3:代谢物注释的实际工作流程。(a) 通过去混合,加合物选择,峰形分组峰,与MS1谱匹配的MS / MS以及样品组之间的离子丰度相关性排除假阳性峰。(b) 首先使用质谱数据库。(c) 和 (d) 如果没有可用的谱图,则进行分子式预测,然后进行结构解析。 (e)中 如果没有检索到候选者,可以使用分子谱网络和化学空间扩展结合结构解析程序来预测已知化学物质的分子支架和修饰。




(0)

相关推荐