mSystems:青大苏晓泉阐述微生物组的Beta多样性-从全局比对到局部比对
阐述微生物组的Beta多样性:从全局比对到局部比对
Elucidating the Beta-Diversity of the Microbiome: from Global Alignment to Local Alignment
mSystems [IF:6.496]
DOI:https://doi.org/10.1128/mSystems.00363-21
发表日期:2021-08-17
第一作者:Xiaoquan Su(苏晓泉)a,b
通讯作者:Xiaoquan Su(苏晓泉, suxq@qdu.edu.cn)a,b
主要单位:
a青岛大学计算机科学与技术学院(College of Computer Science and Technology, Qingdao University, Qingdao, China)
b中国科学院青岛生物能源与生物过程技术研究所(Single-Cell Center, Qingdao Institute of BioEnergy and Bioprocess Technology, Chinese Academy of Sciences, Qingdao, China)
评论
Beta多样性分析量化了微生物组之间的相似性或距离;在beta多样性分析的基础上,我们可以将微生物组整体层面的结构或功能多样性模式与环境特征建立联系,并预测生态系统的特性或宿主的健康状态。本文总结了我们为整合大规模微生物组数据集,在整体群落水平(即“全局”)来计算相似性而开发的算法和工具,并阐述了我们对“局部比对”匹配策略的看法。
关键字:微生物组,Beta多样性,距离方法,搜索引擎,局部比对
摘要
微生物组之间的定量比较可以将微生物组beta多样性与环境特征联系起来,从而预测生态系统特性或剖析宿主与微生物组之间的相互作用。为了计算beta多样性,当前的方法主要是基于整个群落的结构或功能特征,然而可能会忽略了样本间由某些特定成员所造成的细微差异,尤其是那些发挥着关键作用却含量较低的物种。这项工作回顾了我们研发的微生物组距离算法和搜索引擎,用于在整个群落水平对大规模样本进行比较和匹配,并总结以上方法在应对菌群细微差异时的局限性。因此,本文提出了微生物组“局部比对”的概念,包括一种基于微生物组特定组成成分来计算菌群相似性的算法,以及一种用于从数据库中快速获取微生物组局部比对匹配的索引策略。
微生物组间的相似性计算
微生物组间准确可靠的相似性或距离是推断微生物beta多样性的基础。统计或几何方法,如Bray-Curtis、Jaccard和Jensen-Shannon散度,主要通过计算菌群间重叠的成分来计算距离。然而,以上方法忽略群落成员之间的固有关系(例如,OTU或物种间的亲缘关系),可能会导致beta多样性模式的偏差。为了解决此问题,我们引入了Meta-Storms评分算法,通过基于加权系统发育树(进化树)来计算两个微生物组的相似性。它不仅通过整合生物学背景提高了比较的全面性,而且还减少了由于微生物组数据稀疏分布造成的不准确(例如,从不同生态系统收集的微生物组可能缺乏足够的共同成分来进行比较)。
另一方面,Meta-Storms等基于系统发育的算法要求将所有群落成员能够映射到进化树中确定的叶节点;然而,宏基因组鸟枪测序序列的分析结果中,总是带有难以识别或未明确分类的注释,无法对应到进化树的叶节点上。为了解决这个问题,我们提出了Dynamic Meta-Storms算法,能够将难以精确注释的物种,通过其更高层级的分类信息,定位到进化树中的虚拟节点上。通常,树状算法会由二叉树后序遍历的递归过程实现。然而,由于近年来新测序和注释的物种极大地扩展了微生物的系统发育树,因此距离矩阵的总体计算时间会过于冗长甚至不可接受,尤其是对于具有数千个样本的研究。因此,Meta-Storms和Dynamic Meta-Storms算法采用了非递归转换和内存回收等优化,以提高计算效率和节约内存资源。再加上基于多核CPU(中央处理器)或GPU(图形处理单元)的并行计算,单个台式计算机在数小时内便能完成100,000个宏基因组的两两比较,从而实现了更大范围的beta多样性分析。
微生物组搜索引擎支持微生物组数据空间的全局匹配
在过去几年中,微生物组数据的数量呈指数增长。虽然大数据为揭示生物多样性中隐藏的生物学原理带来了大量机会,但极大的数据通量等因素也为研究提出了新的挑战。与此同时,新的分析诉求不断诞生,例如,如何将新取样的微生物组与现有数据联系起来。因此,我们开发了微生物组搜索引擎(MSE),用于在整体群落水平上快速搜索和查询微生物组数据库。总的来说,对于给定待查询的微生物组,MSE会将其与数据仓库中的样本进行比较,并实时返回具有最高Meta-Storms相似性的搜索结果(100万个样本中的每个查询小于0.5秒)。此外,在迄今为止产生的海量微生物组数据中,MSE计算每个样本的定位,从而提供了微生物组数据发展的鸟瞰图。例如,通过连续8年动态追踪来自不同栖息地的超过10万个样本的新颖指数(MNS;评估微生物组整体组成的独特性),发现了人体微生物组的“搜索边界效应”。具体而言,人体微生物组的结构新颖性正在接近饱和并可能有界,而环境微生物组中并未发现这一规律。更重要的是,为了探索MNS定量评估微生物组的潜力,我们引入了一种基于搜索的多疾病检测和分类策略。在这种方法中,MSE与健康受试者的菌群数据库进行比对,利用过高的MNS来发现健康状态异常的样本,然后继续通过将这些样本与不同患者样本进行比较,从而识别具体的疾病类型。研究表明,基于MSE的疾病诊断,其准确性和效率优于传统的机器学习方法。这些发现突出了微生物组大数据诊断的前景,以及微生物组科学中“数据驱动”的研究策略。
微生物组局部比对
通常,beta多样性是通过距离度量算法(如Meta Storms、UniFrac、Bray Curtis等)对两个微生物组(图1A)进行端到端比较来计算的。基于beta多样性的状态识别和分类依赖于一个假设,即群落的大多数成员,或至少是丰度较高的成员,与特定场景下的状态相关。例如,疾病组的样本与健康对照组存在显著的成分差异(对距离矩阵进行置换多元方差分析[PERMANOVA]或相似性分析[ANOSIM]检验,P值 < 0.01)。尽管之前的研究表明,在许多疾病中存在这种beta多样性模式,如炎症性肠病和结直肠癌。然而,在某些情况下,如1型糖尿病和自闭症,只有一小部分的特定物种发挥着关键作用。尽管这些物种可以通过统计检验或监督式机器学习来发现,但整体群落水平上的端到端比较却忽略了这一点。因此,将特定场景下(如某些疾病)发挥关键作用的部分生物标记物(以下称为“目标物”)与整个微生物组(以下称为“参照物”)进行比较(图1B),就像将扩增的DNA片段与参考全长16S rRNA基因的“局部比对”一样,已成为了迫切的需求。直观地说,通过从参照物中提取与目标物相同的特征,然后将其与目标进行比较,理论上可以得出这种相似性。然而,在算法的设计和实现中应该考虑以下几个必要的问题。首先,由于微生物组图谱在不同栖息地或群体之间高度多样化且稀疏,因此参考物与目标物之间完全相同的部分可能数量极少。在这里,相似性不能简单地设置为零。参照物中,与目标物在分类或功能非常接近的同一类成分可以被视为“近似成分”。值得注意的是,这些“近似成分”的所占权重应根据其与目标物的系统发育或功能距离进行加权。但另一方面,一旦添加“近似成分”进行比较,精确目标物的相对丰度将被稀释,导致参考物和目标物之间的相似性降低。因此,对于微生物组的局部比对,如何从微生物组中选择和提取相应群落成员与目标物进行比较是至关重要的。
图 1 微生物组比较的两种情况
a 样本之间端到端的比较,采用群落整体水平的信息(即“全局比对”);
b 微生物组的“局部比对”,仅匹配特定的群落成分。
局部比对的快速索引策略
一旦明确定义了微生物组“局部比对”算法,就可以通过与特定疾病的生物标记物进行匹配,从数据仓库中检测出健康状态可疑的微生物组。利用穷举方法,将所有样本进行彻底筛选是一种简单的方法,但当数据库庞大时,这种方法非常耗时。目前,有两种类型的索引策略可用于加速微生物组搜索,(i)静态分区索引,将数据库按结构特征分进行划分,仅在相应分区进行搜索,例如,微生物组搜索引擎v1.0或Meta Prism;(ii)微生物组搜索引擎2.0使用的基于特征降维的动态索引。这两种方法都依赖于在数据库构建步骤中,对整个参考样本集合进行预处理,以便在随后的查询步骤中快速获取候选匹配。然而,由于“局部比对”仅考虑每个菌群的部分组成成分,并且成分的范围取决于特定的查询目标(例如,疾病的生物标记物),因此,以上为“全局匹配”设计的统一和通用索引不适用于“局部比对”场景。潜在的解决方案可以借鉴DNA序列的比对算法,如Bowtie2的FM索引或USEARCH算法。其中目标物(即某些疾病的生物标记物)可以看作待查询的DNA短序列,参照物(即某个微生物组)可以看作参考的长基因组序列。
结论
Beta多样性是微生物组的基本特性。高效的微生物组比较,不仅在“全局”层面,而且在“局部”层面,可以更精确和灵活地阐明微生物组的beta多样性,从而有助于深入理解和有效利用微生物组。
Reference
Xiaoquan Su. Elucidating the Beta-Diversity of the Microbiome: from Global Alignment to Local Alignment.mSystems 6:
e00363-21. https://doi.org/10.1128/mSystems.00363-21.