科研 | SBB:基于扩增子、宏基因组序列预测微生物群落代谢特征
编译:橙,编辑:小菌菌、江舜尧。
原创微文,欢迎转发转载。
随着代谢组学技术的发展,尤其是以人类肠道中的微生物群落代谢组学为代表,为人们了解疾病患者体内被破坏的功能和稳态,分析不同调节途径之间的代谢差异,发现与疾病相关的潜在生物标志物,为深入了解潜在的致病机理提供新的途径。
然而目前某些特殊环境代谢组学产物较难大规模获取且成本昂贵,而扩增子、宏基因组测序技术则相对成熟。作者开发了一种预测微生物群落中潜在代谢物的计算方法,通过:
①识别预测微生物特征的最佳数据集
②量化代谢物预测精度,推断复合代谢组,并构建MelonnPan模型 (Model-based GenomicallyInformed High-dimensional Predictor of Microbial Community Metabolic Profiles)。
论文ID
原名:Predictive metabolomic profiling of microbial communities using amplicon or metagenomic sequences
译名:基于扩增子、宏基因组序列预测微生物群落代谢特征
期刊:Nature Communications
IF:11.878
发表时间:2019.07
通讯作者:RamnikJ. Xavier; Curtis Huttenhower
作者单位:美国哈佛-麻省理工学院Broad研究所
实验设计
宏基因组数据获取、分类和功能注释:收集健康和疾病患者粪便样本,进行DNA提取及宏基因组测序。主要包括使用Trimmomatic去除短序列,bowtie比对去宿主序列,MetaPhlAn2物种注释,HUMAnN2功能注释,并将预测蛋白与UniRef90蛋白数据库进行比对。
代谢组:使用四种LC-MS方法测定代谢产物,包括代谢物和脂质等。原始LC-MS数据使用Genedata Expressionist v9.0进行处理,用于化学噪声去除、RT比对、峰值检测和同位素聚类,并对数据进行过滤、转换和标准化。
通过拟合弹性网络模型进行交叉验证评估预测指标的良好程度,并应用MelonnPan模型,将基因与代谢物联系起来,与此同时将这些随机得到的预测良好的代谢物数据与原始数据得到的预测良好的代谢物数量进行比较,并基于主成分分析(PCA)得到的相似性计算新样本RTSI得分,进一步评估预测性能。
实验设计
1 MelonnPan算法
作者开发的MelonnPan算法结合物种分类信息及功能解析,可以从扩增子或宏基因组测序数据中预测代谢物特征。MelonnPan具有从未经鉴定的微生物中捕获信息的功能注释能力,并且对于该模型作者特别讨论了其在人类肠道微生物中的应用,对于其他环境的微生物数据则使用弹性网络正则化来识别哪些特征(分类或功能)对特定代谢物具有预测性。
主要过程包括:首先通过给定一个新的分类图谱(扩增子或宏基因组)或宏基因组功能图谱(即基因家族丰度),结合特征序列的子集来估计相关的代谢组,弹性网络模型回归系数用作预测算法中的权重。利用线性回归方程将系数值乘以序列特征丰度,获得测序数据和实验测量的代谢物丰度的信息(图1)该模型可应用于来自类似环境的微生物群落代谢潜力预测。
图1 MelonnPan预测模型从宏基因组数据预测微生物群落代谢特征(a)宏基因组数据与微生物分类信息拟合及弹性网络正则化回归确定微生物特征级并预测代谢物(b)通过序列特征系数,进行新样本代谢物特征预测
2 MelonnPan准确预测来自基因组的代谢物
作者使用两个独立的宏基因组和代谢组数据集,并模拟466种代谢物组合。经过滤、模型拟合和内部交叉验证之后,判断来自人类肠道数据MelonnPan模型的预测情况。预测结果表现良好的代谢物主要包括鞘脂(神经酰胺和植物鞘氨醇),脂肪酸(如二十二碳五烯酸和己酸)、B族维生素(泛酸)、胆固醇和胆汁酸衍生物(如胆石酮和胆酸),这些化合物被认为是调节宿主微生物代谢的重要信号分子。
图2 MelonnPan基于宏基因组序列预测代谢物特征(a)相关性大于0.3的代谢组,包括(b)107种标记的代谢物(c)胆甾酮(d)泛酸的预测效果。
3 微生物群落数据评估MelonnPan准确度
MelonnPan首先标记训练宏基因组中不存在的任何特征(微生物分类单元或基因家族),对于剩余的共同特征(训练样本和测试样本之间),基于主成分分析(PCA)通过寻找与解释大多数训练微生物群变化的主成分(PC)的最高相关系数,计算平均相似性得分RTSI。结果表明代谢物中代表性样品(高RTSI)和可预测代谢组之间存在很强的相关性。作者与类似工具MIMOSA进行比较,结果表明MelonnPan可产生更高置信度和更多预测良好的代谢物。
4 MelonnPanMelonnPan揭示有生物学意义的相互关系
通过富集分析确定代谢模型中最常见的类别,即在代谢物预测过程中显著地上调或下降的特征类别。MelonnPan列表中,有8个属的含量显著过高,其中在假黄酮提取菌、梭状芽孢杆菌、黄连球菌、厌氧菌、布氏杆菌、柯林斯菌、瘤胃球菌和厌氧菌中效果最强(图3a)。除属于放线菌门的柯林斯菌外,其余属均来自厚壁菌门。表明MelonnPan能够识别功能相关的基因家族与物种,甚至菌株特定的代谢联系,促进在更高的分类分辨率水平上进行生物学相关性的机制研究。Pfam数据库中没有被富集的单个Pfam家族,但在预测基因家族中,非特征蛋白结构域的显著过度表达(图3b)
图3 MelonnPan揭示具有生物学意义的功能关系。
4 预测代谢产物揭示患者代谢组的整体结构
为了证明MelonnPan能够在不直接测量代谢物的情况下获悉代谢谱中的生物变化,作者比较了来自被测代谢物代谢变化的前两个主成分,并将来自推断代谢物的预测变化叠加在同一个二维空间中。代谢物包括来自多种途径相互转化的化合物,包括胆汁酸和长链脂肪酸组,胆固醇,四吡咯衍生物,以及氨基酸、肽、嘌呤及其衍生物等代谢物的混合物。根据预测和测量的前50个独特代谢物簇的代谢物成分之间的斯皮尔曼差异,排序图显示了炎症性肠病患者微生物群中相似的整体结构,反映出测量的代谢化合物与预测的代谢潜力结果的接近程度(图4),表明即使没有全面的代谢组学分析,MelonnPan预测也可用于推断与疾病相关的代谢组分差异。
图4 主坐标分析(PCoA)揭示微生物群中预测和测量的代谢产物相似性分布。
5 预测人体和环境微生物代谢
讨论
MelonnPan的应用表明微生物群落物种信息和功能基因中所包含的信息与代谢组分的含量有足够的相关性,可以预测微生物群落代谢潜力。这不仅对人类肠道研究有特殊意义,而且对于包括环境微生物在内的广泛生境有重要意义。作者对其他环境中的数据集进行了训练拟合,并提供估计新样本预测性能的RTSI指数,以指导后续不同来源数据集的代谢组学预测。
尽管该方法不能代替代谢组学分析,但它可以在宏基因组学研究中提供代谢潜力更大可能性。此外为了进一步研究物种丰度数据是否会导致预测偏差,作者对物种丰度数据进行了额外分析,将其作为MelonnPan模型的输入预测因子。尽管物种水平上预测因子表现相似,但不同群落中的菌株差异可能会显著影响代谢物预测的通用性。这强调了将基因水平层面作为预测因子的重要性,因为特定菌株的特定代谢以及其他表型相关性状(如抗生素抗性)可能无法单独从物种丰度数据中获得。
此外尽管MelonnPan可以用于人类肠道以外的其他环境中的预测,但应该注意的是,每个训练模型都是基于特定环境。因此,在人类肠道上学习的模型可以推广到其他人类肠道表型,但没有一个模型可以用于跨环境预测任务。因此,MelonnPan旨在作为一种假设生成工具,为随后的实验验证研究提供信息。未来的工作有可能关注菌株特异性基因集,甚至潜在的生物活性分类群之间的单核苷酸多态性水平差异,以进一步提高MelonnPan预测准确性。
对于该流程未来的研究可以通过①整合其他微生物指标类型,如多组学数据互相结合②利用纵向剖面进行动态时间剖面进行预测③采用更复杂的机器学习策略,如多变量或贝叶斯框架。从而使我们能够更好地理解微生物组学的动态,从分子水平走向微生物多组学研究。
评论
微生物代谢组学作为代谢组学的一个研究领域,通过GC-MS、LC-MS等平台对微生物在环境或生理时期内全部低分子量代谢产物同时进行定性和定量分析,进而研究微生物群落在外界环境发生变化后其代谢产物的变化规律,从了解微生物是什么,可能具备何种功能,实际发挥了何种作用,层层深入,这对于解释更深层次的环境微生物学研究提供了新的思路。
你可能还喜欢
这些或许也适合你哦👇