综述 | Curr. Opin. Biotechnol.:用于研究肠道菌群组成和功能的新兴计算工具和模型
编译:草重木雪,编辑:Tracy、江舜尧。
原创微文,欢迎转发转载。
肠道菌群及其代谢物对人体健康和疾病起着至关重要的作用,如今高通量测序、质谱和其他组学分析平台的发展提高了我们获得大量数据以及探索微生物群落的组成和功能的短暂变化的能力。为了阐明机制,我们需要可以对时序数据中的相关性严格模拟的方法和工具;然而,纵向数据的采集通常是稀疏和不均匀的,在确定统计意义、不同数据类型的标准化和模型验证方面仍然存在重要的挑战。这篇综述针对这些问题介绍了许多用于时序微生物组和代谢组数据分析的模型和软件工具以及这些数据的整合的最新发展,为后续研究者更好地分析肠道菌群的组成和功能提供了指导。
论文ID
内容
肠道菌群是一个复杂的系统,微生物、宿主和环境因素(如宿主的饮食)之间存在动态的相互作用。在人类体内,肠道菌群包括1000多个物种约1014个微生物,它们执行各种不同的代谢功能,影响生理和健康。微生物群组成的改变与炎症性肠病(IBD)、非酒精性脂肪肝疾病、炎症性关节炎、哮喘、败血症、自闭症谱系障碍和神经退行性疾病有关。
微生物群研究的一个共同目标是确定处理、宿主条件或其他因素在几个时间点对群落组成的影响,这些研究慢慢地也将代谢组学分析作为微生物群功能的解析,这些肠道菌群的组成和功能的“快照”提供了有价值的信息,可以帮助人们了解哪些因素会扰乱微生物群,这些扰乱会导致微生物群的组成和代谢变化,以及这些变化对寄主的生理会产生什么后果;另一方面,在几个时间点的快照提供了有限的关于成分和代谢变化的动态信息,因此不能很好地推断这些变化和宿主生理之间的因果关系,戈贝尔提供了相关的场景,例如,微生物组特征表现出周期性,说明了从快照分析得出结论的缺陷。
为了更好地理解肠道菌群的动态并阐明因果关系,我们需要研究方法将纵向研究设计与适当的模型和方法结合起来进行时间序列数据分析,这些方法可以,例如,确定一个主要功能变化的微生物群(如减弱代谢共轭胆汁酸盐的能力) 是否可以被一小类群丰度的变化所驱动,或者这是否需要更广泛的、群落范围内的生态失调;另一个相关的问题是,是否存在一个主导类群,在群落水平上控制多种代谢功能的动,更重要的是,通过整合多组学(例如宏基因组学和代谢组学)的纵向数据来研究微生物群的动力学,我们可以区分仅与它们的代谢功能相关的分类单元和其丰度变化导致功能变化的分类单元,但必须注意的是,即使采用纵向研究设计和严格的统计分析,也很少能够在不采用假设驱动的实验后组学分析的情况下,明确地确定因果关系,数学模型是否可以确定统计意义上的因果关系,取决于建立模型的假设,在这方面,纵向数据和相关分析工具在代谢物,基因和/或微生物之间提供了合理的候选关联,可以使用精心设计的功能获得和功能丧失实验来测试因果关系。
在这篇综述中,我们强调了宏基因组和代谢组学数据时间序列分析工具的最新发展,并讨论了在纵向微生物组研究的背景下整合这些和其他组学数据的方法。
单时间点研究很难提供有关微生物组内存在的周期性模式,相互依赖性或短暂变化的足够信息,近年来,随着DNA测序效率的不断提高,时间过程研究变得更加容易,纵向研究设计越来越受欢迎,这些研究也越来越多地对肠道内产生的代谢物进行剖析,以获得代谢活动更详细的图像。科研人员分析微生物群落的纵向数据展现了(表1)一组挑战:微生物组数据的特点是稀疏性,在分类学剖面实验中,大多数分类单元映射到零读值是很常见的,但我们尚不清楚这是零读值分类单元不存在的证据,还是因为覆盖深度不够而没有证据;微生物组数据也具有组成性,因为一个类群相对丰度的增加与其他类群的相对丰度呈负相关关系;此外,重复的数量通常相对于在样本上观察到的变量(例如物种)数量较小,对于纵向研究,这些挑战由于观测之间的统计时间依赖(例如自相关)而变得复杂,此外,纵向研究往往因时间点有限、样本遗漏和采样频率不均匀而变得复杂,因此,传统的方法(例如经典多元统计的假设检验方法),不足以充分利用纵向数据的信息内容。本节的其余部分描述了三种用于纵向研究的时间序列组学数据进行重要性测试和建模的通用方法:纵向差异丰度测试,时序网络生成和时序模式聚类。
表1 用于微生物以及代谢组学时序分析的工具
1.1 纵向差异丰度试验
通过纵向研究可以解决的一个重要问题是,具有不同表型的实验组之间观察到的微生物丰度或代谢物浓度的差异是连续的还是暂时的。虽然有许多完善的单变量和多变量方法来对一个时间序列内的单个时间点进行显著性检验,但这些方法不能确定在时间点之间是否获得显著性或失去显著性,而且很可能会错过瞬态特征。最近有人提议可选择插值和平滑方法克服这些限制,目前已有研究人员将其应用于宏基因组和代谢时间序列数据。为了推断特定微生物特征(例如分类群)差异丰富的时间段,MetaDprof使用平滑样条ANOVA(ssANOVA)通过纵向数据拟合分段多项式曲线,即样条,来估计一个差分函数,描述特征的差异丰度的时间依赖性。在感兴趣的时间间隔内对差异函数进行积分可计算出面积统计量,该统计量可用于测试特征在该时间间隔内的差异丰度是否显著,图1说明了使用样条拟合来比较两个实验组中细菌物种的丰度随时间变化的情况(图中的“特征1”)。MetaLonDA是一种类似的方法,而与MetaDprof相比,在对同一组模拟数据进行评估时,MetaLonDA在检测差异丰富特征的时间段方面表现出更好的特异性和敏感性。与早期的工具不同,MetaLonDA能够处理不均匀大小的样本和时间间隔,这在人类主题研究中很常见。通过糖尿病免疫项目的婴儿粪便微生物组数据,MetaLonDA发现芬兰和俄罗斯组在婴儿出生后第一年的拟杆菌和双歧杆菌的相对丰度上存在显著差异,与原研究的结论相吻合;此外,MetaLonDA还显示,在芬兰婴儿中,拟杆菌在第96天至第584天明显更多,俄罗斯婴儿中双歧杆菌在第96天至720天明显增多,更重要的是,平滑样条方法检测了在原始研究中未提及的几个属的差异丰度的时间周期;这些类群可能影响婴儿暴露于细菌脂多糖和自身免疫性疾病的发展,而应该注意的是,ssANOVA方法最适合于具有频繁时间点的大型数据集,当样本大小在多个时间点上是稀疏的,结果拟合样条有很大的变化。纵向微生物组数据分析的另一种方法是使用广义添加混合效应模型(GAMMs),这些模型典型地比较了不同试验组的特定类群的丰度,除了分类丰度数据之外,关于性别、年龄和饮食等主题的信息也可以合并到一个GAMM中,但是,过拟合可能是一个问题,建议在确定模型中应包括哪些其他数据(如果有)时使用先验知识。在一项大型纵向研究中,Fettweiss等使用了一个GAMM来调查早产和足月分娩的妇女之间的微生物群差异,通过纳入受试者的身体质量指数、种族和阴道pH值等信息,从而精确地模拟了两组特定细菌的丰度差异。
与分类学分析和宏基因组数据相比,在代谢组数据方面发表的著作较少。在分析代谢组学数据时出现的一个常见问题是,两个或两个以上的代谢产物谱是否有显著差异。为了比较来自两个实验组的时间序列数据,Hoteling-T2统计量可以用来衡量总纵向差异,如果有两个以上的实验条件,可以采用多元经验贝叶斯方差分析来检验显著性;另一种回答这个问题的方法是确定是否有任何显著的区别性生物标志物,例如Lin等使用多元回归,或者也可采用平滑样条与置换测试结合使用,以进行时间序列代谢组学数据的差异丰度测试。Dickinson等人在最近的一项研究中描述了一种相关的基于数据拟合的方法,他们使用高斯过程双样本(GP2S)检验来确定干旱和侵染对固氮豆科植物代谢的综合影响。线性混合模型也提供了一个有吸引力的选择,以调查代谢物的纵向趋势,并确定代谢物随着时间变化表现出显著的浓度变化。由于在高维纵向代谢组学数据中存在相关性,科研人员需要将降维技术应用于时间序列数据,而一种很有前途的技术是动态概率PCA (DPPCA),它对多变量数据中的相关性进行建模,这些数据是由于时间上的重复测量而产生的。
在评估纵向差异丰度时,拟合样条是最有前途的技术之一,具有广泛的适用性,通过使用统计检验来推断具有重要意义的时间段(图1中的“区域”),完善的程序可以用于控制错误发现,这是多元分析的一个重要考虑因素;但使用拟合样条的一个重要缺点是,该技术需要相对大量的时间点来实现统计效力。
图1 使用样条模型纵向微生物组或代谢组数据的示意图
样条曲线,或分段多项式参数曲线,从两个试验组拟合特征丰度。样条用来计算差分函数,它可以在感兴趣的时间区间内积分。综合区域的评估是通过统计检验,以确定在两实验组之间的时间间隔是否有显著差异
1.2 时序网络生成
微生物群落中的相互作用是由许多双向机制驱动的,包括微生物群落成员之间对营养物质的竞争和附着位点,以及群落成员和宿主之间通过代谢物的直接相互作用,这导致了一个复杂的细菌相互作用网络,可以被寄主的年龄、饮食、疾病起始或其他外源性干扰所改变。因此,人们需要模型和计算工具来准确推断微生物群及其相关代谢网络的生态关系,时间网络,用网络形式展示一个连接的系统如何随时间发展变化,已经成为此分析有用工具。
种群动态的普遍Lotka-Volterra (gLV)模型作为一种推断微生物区系的时间依赖生态结构的方法,在微生物群落研究中得到了广泛应用。最近的一项应用中,Venturelli等人使用gLV模型和代谢组学数据确定了一个合成微生物群落的种群动态,并推断了微生物之间的资源交互网络。该研究表明,多物种群落动态主要受个体生长参数和物种间成对相互作用的控制。
gLV模型的一个局限性是将互惠共生纳入模型,可以预测不确定的增长。可以通过推断统计因果关系来研究相互作用,Granger因果关系检验使用自回归来检验一组时间序列变量是否增加了对原时序的解释。Mainali等人利用Granger因果关系分析了先前发表的一项纵向研究的时间序列微生物组数据,该研究涉及近400个时间点。他们发现,一个属内的强交互作用(Granger因果系数高)通常是短期负相关(1-2天),而不同属间的强相关作用往往是长期的正相关作用(长达20天)。这些结果表明,互惠共生可能是一种必要的相互作用机制,以提供多个类群在一个微生物区系中的持久性,同时也促进在肠道微环境中不同微生物群落的形成。Granger因果关系也很适合分析时间序列代谢数据,例如,Wang等人利用该分析确定了葡萄浆果发育过程中代谢物和蛋白质相互作用的时移相关性。回归方法也被用来推断时间网络,Ridenhour等人利用差分整合移动平均自回归模型(ARIMA)来预测草酸盐摄食对林鼠属微生物群落的生态相互作用和动态。
动态贝叶斯网络(DBNs),即将标准贝叶斯网络扩展到时间序列数据,提供了一个概率的、非线性的替代ARIMA和其他线性预测模型。Lugo-Martinez等使用条件高斯贝叶斯网络包推断DBN模型以检测肠道,阴道和口腔微生物群内的时间依赖性生态相互作用。发现即使总体上的相互作用是相似的,不同个体取样的微生物群落相互作用率可能也不同。当分析个体之间的纵向数据时,这种变异是一个潜在的混杂因素,为了解决这个问题,作者利用样条拟合和动态翘曲技术对已对齐的数据进行DBN分析之前对微生物组时间序列数据进行“时序对齐”。
Faust等提出了一个分类方案来确定是否存在时序结构,检验中立性(群落之间的相互作用对动态观察是否必要),以及确定时间序列数据集与确定性模型的拟合度。该方案首先测试一个时间序列内连续时间点之间的依赖性,然后确定微生物之间的相互作用是否足以解释动力学。如果满足这两个条件,则会估算出适合交互模型的参数(例如gLV或Ricker模型)。所选择的交互模型与时间序列数据的拟合优度是根据原始时间序列与交互模型推导出的时间序列平均相关性来确定的,这些测试共同决定数据集是否很好地匹配时间网络生成,如果是,选择的交互模型是否非常适合数据,图2描述了时间网络的使用,以模拟细菌或代谢物在时间序列微生物组或代谢物数据之间的联系。
网络通常是表示代谢物反应介导和调节相互作用发生最直观的方式;此外,通过比较代谢网络的连通性,可以发现未被代谢物丰度差异分析捕捉到的实验组之间细微的代谢差异;另一方面,传统的静态网络不太适合时间序列数据建模,因为它们没有明确地考虑网络连接的时间依赖性变化。为了解决这一局限性,Huang等人提出了一种动态网络构建方法,根据代谢物在连续时间点浓度比的变化将一对代谢物连接起来。
Granger因果关系检验正迅速成为从纵向微生物组和代谢组数据生成时间网络的选择方法,虽然gLV模型更流行,而且更容易应用,但它们在适当建模互惠关系方面的困难限制了它们的有效性;此外,当数据集中的时间点很少时,只有少量的特征可以使用gLV方程进行可靠的建模。如果我们的目标是对一个拥有广泛的生物学知识的群体中的一部分微生物进行集中调查,那么这并不构成问题,然而,在分析诸如肠道菌群等特征不太明确的系统时,决定哪个子集应该建模是一项重要的任务。
图2 用于分析纵向微生物组和代谢组数据的时序网络示意图
图中的示例显示了一个随时间发展的有向交互网络。蓝色和红色箭头分别表示正的和负的关联。相互作用的相对强度由箭头的厚度来表示。这些关联可以通过文中讨论的一些方法来确定,如gLV模型和Granger因果关系检验
1.3 时序模式聚类
肠道菌群组成的变化可能是衰老、饮食变化、疾病或其他一些因素造成的,并可能建立一系列稳定的微生物群簇,或“群落状态”,从而影响微生物群与宿主相互作用。不同的群落状态具有不同的代谢电位,反映了alpha-多样性和beta多样性的差异,在这方面,具有相似微生物丰度分布的准确聚类时间点可以为了解群落对扰动的响应、生态失调机制以及各种胁迫下微生物群动力学的其他方面提供有价值的见解。
Dirichlet多项式混合(DMM)是一种概率建模方案,该模型使用多元(beta)分布的混合作为先验。该计划已被用于从年轻人群中糖尿病的环境决定因素(TEDDY)研究中确定婴儿队列中肠道菌群发展的三个不同阶段,该研究涉及1型糖尿病的环境因素;另一种概率方法,微生物计数轨迹无限混合模型引擎2.0(MC-TIMME2)使用非参数贝叶斯方法和随机(Dirichlet)过程对微生物群落变化进行建模,以对时间序列微生物组数据进行聚类,经典的聚类方法也被用来识别微生物组数据的时间模式,Fan等使用主坐标分析(PCoA)、层次聚类和线性判别分析效果大小的组合来确定与发育中虾的三个不同肠道菌群相关的生物标记,同样,通过比较连续时间点之间的个体间和个体内的微生物组数据,确定了IBD患者和健康对照组粪便微生物组的时间变化,此外,该分析证实了IBD患者的专性厌氧菌数量减少伴随着兼性厌氧菌的增加。自顶向下分区算法的一个例子是k-medoid聚类,它可以与不相似性(例如Jenson-Shannon散度)矩阵结合使用,该不相似矩阵将丰度分布的差异建模为概率分布距离,这种方法允许发现时间序列微生物组数据的周期性。Gajer等人的研究将其应用于阴道微生物组数据后,聚类分析发现了两个不同的,周期性交替的群落状态,此外,该研究确定,这种周期性很大程度上是由乳酸菌和Atopobium之间的拮抗和循环关系所驱动的。
MetaboClust是一个软件包,它将代谢物与类似的时间模式进行聚类。此程序包中提供了几种聚类算法(例如具有噪声应用的k均值和基于密度的空间聚类)以及评估聚类质量的方法,以及路径富集分析[可用于确定生化途径(例如KEGG途径图)和簇之间重叠量]。通过亲和传播(TCAP)的时间聚类是k-means的扩展,已被用于聚类代谢组学数据的非生物和生物胁迫的时间依赖性响应,除聚类外,分类技术(例如微生物组可解释的时间性规则引擎(MITRE))也已用于将微生物聚类的时间配置文件中的变化与宿主状态联系起来。即使MITRE最初是为微生物组数据而设计的,作者指出该软件可以很容易地适应于时间序列代谢组学数据,图3显示了时间聚类的图形。
像k-medoid这样的聚类算法是一种直观的选择,用于确定微生物组或代谢组数据集是否具有随时间变化趋势相似的细菌组或代谢组。这些自顶向下方法的一个缺点是需要指定集群的数量,通常我们很难预先知道最优聚类数,尤其是在研究中,此外,这个数字可以依赖于相似度度量;然而,还有许多事后的方法能够评估k(用户指定的集群数量),通常,科研人员使用迭代过程来确定正确的聚类数和相似度度量。
图3 微生物组或代谢组数据分析的时间聚类的图解
热图显示了一个具有六个时间点和六个特征的假设数据集。基于特征的层次聚类(行)随时间(列)标识两个集群(集群1和2)。这种聚类表明特征1到3在时间点1到3中更加丰富,而特征4到6在时间点4到6中更加丰富。这一分析表明,微生物组或代谢组在时间点3后发生了显著的变化。
2. 纵向多组数据的整合
2.1 一般模式分析
尽管微生物群落组成的变化会导致功能变化,但它们之间的相互关系通常是非累加性和/或非线性的,并且仅根据分类分析数据很难预测群落功能随时间的变化。为了更好地了解群落结构的变化如何导致功能变化,人们需要对微生物丰度和代谢产物的动力学进行共同分析。以前对不同类型组数据集的分析整合通常是为了识别不同观察之间的相关性,另一种方法是应用多元方法进行协方差分析,如主成分分析(PCA)、典型相关分析(CCA)和共惯性分析(CIA)。最近,Ishii等人对喂食高脂肪/高纤维饮食小鼠的微生物群变化进行了研究,使用了层次聚类分析(HCA)、PCA和正交偏最小二乘判别分析(OPLS-DA)确定肠道代谢产物和微生物群组成和功能之间的共变异模式。
近年来,越来越多的研究提出了对上述组学数据集成方法的扩展,这些扩展更明确地考虑了数据中的时间依赖性(表2和表4)。一种方法是建立相关网络,根据时间谱计算不同组学变量(例如细菌丰度和代谢物浓度)的相关系数。这种分析的一个缺点是,结果可能对显著性阈值的选择非常敏感,但这一缺陷可以通过构造一个加权网络来缓解,其中两个变量之间的连接强度使用反映无标度生物网络拓扑的幂函数进行缩放。Hewavitharana等人在最近一项关于厌氧土壤除虫(ASD)不同阶段微生物-代谢物相互作用的研究中就使用了此方法。
表2 多组数据集成的方法及其优缺点
2.2 重要物种及其代谢产物的鉴定
另一种更明确地模拟组学数据的时间依赖性的方法是通过单个数据特征的时间序列(例如特定的类群和代谢物)来拟合平滑样条。然后,人们可以使用稀疏多元排序方法以相似的时间轨迹聚类特征,而不考虑组学数据的类型。在涉及生物反应器中废物降解的一项应用中,科研人员可以将微生物丰度和代谢组学数据与反应堆性能数据整合在一起,以研究特定的分类单元及其代谢产物如何驱动整体反应堆动力学。另一种新兴的方法是使用基于机器学习的分类方法,Tripathi等人使用随机森林分类器对粪便微生物组和代谢组数据进行时间序列训练,以预测动脉粥样硬化小鼠模型的间歇性缺氧和高碳酸血症。集成多种策略进行多组数据分析的其中一个例子是Zhou对健康和糖尿病前期个体的微生物群和代谢产物进行了广泛的纵向分析。利用纵向设计提供的重复观察,该研究利用线性混合效应的类内相关系数(ICC)评估了组学测量(如代谢物、类群)随时间在个体内以及个体间的变化。
从微生物组(如分类学丰度)数据进行功能分析(如基因丰度预测)的计算工具为纵向多组数据集成提供了一个好机会。微生物群的元基因组应映射到微生物群中可能发生的反应和代谢产物,并因此可以将代谢产物与具有所需酶的源生物联系起来,而进一步发展这些元基因组预测框架可能会为纵向数据集的建模增加一个新的、生物学知识驱动的维度,这也可以增强人们对分类学丰度和功能动力学之间的时间依赖性关系的机理理解。
2.3 功能分析
由于成本较低,16S rRNA测序更常用于测定肠道菌群的分类丰度,然而,更深层次的测序方法,例如全基因组测序(WGS),已经变得越来越容易获得和流行,表3总结了这两种测序方法的相对优点。
从人类肠道宏基因组数据衍生的基因组尺度代谢(GSM)模型为开发能够推断多组交互网络的新工具提供了另一个机会。尽管通量平衡分析(FBA)和相关的约束代谢建模技术已成功用于研究特定肠道细菌的代谢能力,但在将这些技术应用于所有群落的建模方面仍然存在挑战。这些挑战包括对许多生物分类之间的代谢交换进行建模,以及选择适当的目标函数来说明物种与群落增长率之间的潜在权衡。人类或动物宿主的肠道菌群由大量不同的物种组成,其中许多仍然缺乏表征,最近Magnúsdóttir等人通过重建和分析(AGORA)组装肠道生物半自动重建数百种人类肠道细菌的GSM。为了验证AGORA,作者将该模型与受约束的优化方法(通量平衡和通量变异性分析)结合使用,以预测人肠道中细菌种类的生长,并阐明代谢物的可用性和种类组成如何影响群落功能。人类肠道细菌GSM的集合,例如AGORA和K-Base可以促进宏基因组读数与代谢功能的映射,而这些功能图谱可以为确定微生物分类群之间的生化关联开辟道路,例如,将整合了纵向代谢组数据和微生物组的GSM模型用于证明帕金森氏病中微生物硫代谢的复杂变化。
表3 微生物组研究中16s rRNA和宏基因组测序的比较
3. 未来展望
将实验设计考虑纳入微生物组研究是很重要的。即使人们收集了纵向数据,微生物群落动态和采样频率之间也常常不匹配。由于实际的局限性,大多数体内研究很少采集样品,例如数天或数周,而肠道菌群中微生物群落动态的特征时间可能是数小时,因此,菌群研究不仅会受益于在多个时间点采样,而且还要考虑何时收集样本。其中一种可能的解决方案是使用计算机模拟研究(例如GSM)来模拟微生物组或代谢组动力学,并使用它来识别用于样品收集的最佳采样窗口;同样,我们也可以严格解决微生物组时间序列数据分析挑战并促进不同类型的组学数据整合的计算和统计方法,而这对于增进我们对肠道菌群及其对人类健康和疾病的影响的理解至关重要。在日益重视机理研究的同时,可以使用有前途的软件工具集合来支持对来自纵向研究的大型组学数据集进行分析,然而,这一领域仍处于萌芽阶段,对于报告和比较不同分析结果的标准化过程,目前还没有明确的共识。因此,数据分析工具的选择往往依赖于反复试验。在这方面,开源平台提供了对一致格式化和规范化的数据集进行多重分析的选项,这将是一个强大的资源。最后,还需要开发更加注重用户友好性和可解释性新工具,对于没有数据科学或信息学正式背景的研究人员来说,访问它们很重要,开发图形用户界面(GUI)以可视方式与数据和分析结果进行交互将是解决此问题的有效方法。