科研 | 华大:1520个人肠道单细菌参考基因组,助力菌群研究

本文由国服王昭君编译,玛莉、江舜尧编辑。

原创微文,欢迎转发转载。

导读

参考基因组对于人类肠道微生物群的宏基因组分析和功能特征分析是必不可少的。我们提出了可培养基因组参考(CGR)数据集,从来自健康人的粪便样本中,培养出的大于 6,000种细菌,产生了1,520种非冗余、高质量的基因组草图。这1,520个基因组,可以覆盖人体肠道中主要细菌门和属,其中264个为新的参考基因组。我们发现,随着参考细菌基因组数量的增加,使宏基因组测序读数从50%提高到了> 70%,从而实现了对人肠道微生物组的更高分辨率的描述。我们使用CGR基因组来注释338种细菌的功能,显示了其在功能研究中的作用。我们还对38种重要的人类肠道物种进行了泛基因组分析,揭示了其核心和非核心基因组之间功能富集的多样性和特异性。

论文ID

原名:1,520 reference genomes from cultivated human gut bacteria enable functional microbiome analyses

译名:1520个人肠道单细菌参考基因组,助力菌群研究

期刊:Nature Biotechnology

IF:35.724

发表时间:2019年

通信作者:肖亮、贾慧珏、李俊桦

通信作者单位:华大基因

实验结果

扩展肠道细菌基因组目录

我们通过使用11种不同的培养基在厌氧条件下,培养了155名健康志愿者的新鲜粪便样品,并从中获得了6,487个细菌分离物。值得注意的是,超过一半的分离株是从MPYG培养基中培养出来的。对所有分离株进行16S rRNA基因扩增子测序分析,并选择1,759种提供系统发育树广泛覆盖的非冗余分离物进行全基因组测序。在从头组装下一代测序读数后,我们鉴定了104个分离株其包含一个以上的基因组。然后使用我们的内部通道将这些组装的序列解析成212个基因组。简而言之,基于G + C含量与测序深度,在scaffold水平上分离多基因组。基于平均核苷酸同一性(ANI)确定最接近的参考基因组,并将错误的scaffold映射回其最接近的参考基因组以获得最终的基因组信息(参见方法)。我们一共获得了1,867个新组装的基因组的集合,其中1,520个(81.4%)符合HMP的高质量草案基因组标准,并且CheckM评估结果为:超过95%的基因组完整以及污染不超过5%。CGR的基因组大小为0.2至7.9 Mbp,G + C含量为26.56%至64.28%。

CGR的分类学注释使用的是基于ANI的自构建的高效通道。 1,520个高质量的基因组分为338个物种级别的分类(ANI≥95%,对应于70%DNA-DNA杂交的物种描述),涵盖了人类肠道微生物群的所有主要门,包括厚壁菌门(211类,796个基因组),拟杆菌门(60类,447个基因组),放线菌门(54类,235个基因组),变形菌门(10类,36个基因组)和梭杆菌门(3类,6个基因组)(图1)。在这338个分类中,134个(对应于264个基因组)未注释到NCBI中的任何现有参考基因组。为了证实CGR中新物种的存在,我们使用16S rRNA基因分析进行了额外的分类学鉴定。如果一个物种的16S rRNA基因序列与EzBioCloud数据库中的已知物种具有<98.7%的相似性,则该物种被认为是新的。总体而言,我们确定了350种不同的细菌种类(基于OTU),包括149种候选新物种,其中42种代表候选新种属。这些结果强调了CGR可提供的各个参考基因组的价值。

图1.  1,520个肠道细菌全基因组序列系统发育树

尽管个体微生物群在种属水平上存在差异,但CGR可鉴定出具有广泛多样性的细菌种群,覆盖了中国肠道微生物群中的9个核心属中的8个。与报道的来自人胃肠道的1000种细菌培养物的先前测序相比,有超过80种是新的。此外,根据IGC,CGR成功鉴定出38个具有较低相对丰度(<1%)的属。其中,7个属被鉴定为有超过20个基因组。CGR还鉴定了IGC未检测到的另外9个属。这些结果强调了CGR对现有肠道细菌全基因组数据库的贡献。

改进了宏基因组和SNP分析

用于宏基因组序列分析的现有参考基因组远远不够。例如,在最近的一项研究中使用的细菌和古细菌的基因组只能覆盖粪便宏基因组中不到一半的序列。为了说明CGR对宏基因组分析的价值,我们使用以前的宏基因组数据进行序列匹配。使用IGCR数据集(3,449参考基因组)分析中国样本的原始研究,其映射率为52.00%,但是在使用CGR数据集后得到显着改善,上升至76.88%(图2a)。由于CGR中的所有样本均来自中国,因此可以合理地假设,该基因组数据集对中国粪便样本的宏基因组有实质性贡献。为了评估CGR对非中国宏基因组的贡献,我们使用来自美国、西班牙和丹麦的粪便样本的宏基因组数据进行了类似的分析。值得注意的是,这些样品的宏基因组读取映射比率都显着增加(图2a),尽管与中国样品相比程度较小。表明了CGR涵盖了这些国家之间人们共有的相当数量的肠道细菌。为了揭示由CGR实现的基因和蛋白质多样性的改善,我们基于先前IGC以及加入CGR后的基因组,比较了基因和蛋白质累积曲线。基因和蛋白质家族的数量随着前1500个基因组的增加而增加,在约3,000个基因组中达到稳定水平。加入CGR后,共增加了373,555个基因簇和149,945个蛋白质簇,基因和蛋白质序列多样性分别增加22%和16%。

图2. CGR对宏基因组和SNP分析的贡献

肠道菌群的功能

为了更好地阐明肠道菌群的功能,我们使用KEGG在1,520个CGR基因组中注释了基因功能。 KEGG的功能途径显示,所有分离的菌株中涉及碳水化合物和氨基酸代谢的途径都很丰富,这表明它们是肠道微生物群的核心功能。我们还分析了KEGG的3级途径,并关注那些在门或属水平上富集的途径(图3a)。我们发现脂多糖生物合成(ko00540)基因广泛分布在梭杆菌门,拟杆菌门和变形杆菌门中,这是革兰氏阴性菌的主要门。参与聚糖降解的基因(ko00531和ko00511)在拟杆菌门中富集。这一观察结果与拟杆菌门是重要的人类肠道共生体的概念是一致的,这些共生体有助于降解饮食中的聚糖和肠道粘膜。拟杆菌门还具有参与鞘脂代谢(ko00600),鞘糖脂生物合成(ko00601,ko00603和ko00604)和类固醇激素生物合成(ko00140)的高比例基因。鞘脂和激素生物合成在真核细胞中普遍存在,但在大多数细菌中不存在。这些结果表明,拟杆菌的成员不仅参与肠道的能量代谢,还可以在哺乳动物细胞中起鞘脂和激素信号的传导。变形菌门在涉及异生素(ko01220)降解的基因中显示出相对较高的丰度,可能介导肠道中化学物质和药物的降解。

图3. 肠道微生物功能概况

信号转导系统(双组分系统,ko02020)和异生素降解(KEGG level2途径)普遍存在于芽孢杆菌属,克雷伯氏菌属,埃希氏菌属,柠檬酸杆菌属和肠杆菌属中,它们也存在于环境中,如土壤和水。丰富的信号转导和异生素降解系统使这些属能够感知和响应自然环境中存在的各种有害物质。细胞运动性(趋化性,ko02030;鞭毛组装,ko02040)在一些属中是存在的,但在梭菌属和真细菌属中不同。

接下来,我们研究了在KEGG数据库中未归类的注释功能和途径(图3b)。使用的毒力因子数据库(VFDB)和综合抗生素抗性数据库(CARD)分别注释了毒力因子和抗生素抗性基因。毒力因子和抗生素抗性在变形菌门中富集,表明该门可能是机会性病原体的储库。我们研究了与肠道细菌经常遇到的应激相关的基因分布:耐氧性和耐酸性。编码过氧化氢酶和超氧化物歧化酶的基因数量反映了氧气耐受性,这两种解毒酶清除了有氧呼吸过程中产生的活性氧。正如所料,Paenibacillus,Bacillus,Klebsiella,Escherichia,Citrobacter和Enterobacter属中的兼性厌氧菌更耐氧。除了之前报道的脆弱拟杆菌外,拟杆菌门的其他成员也表现出适度的耐氧性。值得注意的是,拟杆菌门和双歧杆菌属通常缺乏耐酸性基因,表明基于这些生物的潜在益生菌可能在口服给药后在酸性胃环境中不耐受。最后,我们检查了CGR中可能对人类健康有益的六种细菌功能的分布。氨基酸和维生素B合成基因广泛存在于各种肠道细菌中,这表明肠道微生物群可能是素食饮食中稀疏营养素的替代来源。编码细菌胆汁盐水解酶的基因在大多数肠道细菌中普遍存在,其将原代胆汁酸转化为人肠中的二级胆汁酸。编码β-半乳糖苷酶的基因可能减弱与乳糖不耐受相关的问题,在拟杆菌门中相对丰富。参与肠道细菌中细菌素合成的基因相对较少,并且没有显示出门或特异性分布。

被忽视的肠道细菌的核心和泛基因组

我们对先前研究中的2型糖尿病患者进行了包含超过10个基因组的36个物种泛基因组分析,以及富含健康对照的其他两个物种Fecalibacterium prausnitzii、butyrate-producing bacterium SS3_4。这个集合的泛基因组可以定义为所有成员的核心基因和可分配基因(包括独特基因和辅助基因)的总和。我们的泛基因组分析显示Eubacterium rectale含有的核心基因比例最低(12%);剩下的基因分为附属和独特的基因组(分别为38%和40%)。相反,Eubacterium 3_1含有的核心基因比例最高(53%)。泛基因组拟合曲线显示,拟杆菌中的大多数显示出“开放的”泛基因组,并具有相对较大的泛基因组,其中拟杆菌最大,为14,970个基因。相比之下,放线菌门中的成员倾向于相对“封闭”的泛基因组,通过添加CGR基因组而略微扩展。这些结果表明肠道细菌基因组在拟杆菌门中是可变的,在厚壁菌门和变形菌门中变化较小,并且在放线菌中相当保守。

我们还研究了在肠道细菌的泛基因组中涉及丁酸合成和抗生素抗性的基因的分布。功能注释显示六个簇包含完整的乙酰辅酶A至丁酸盐生物合成途径(图4a)。其中,F. prausnitzii, E. rectale, butyrate-producing bacterium SS3_4 and Roseburia sp. CAG:45其核心基因组中存在有完整的合成途径,表明产生丁酸的功能在这些物种中是高度保守的。该结果与报道的这些物种的丁酸盐合成能力一致。为了探索泛基因组中抗生素抗性的分布,我们在每个泛基因组中注释了25种抗生素抗性基因(ARG)。与先前的报道一致,四环素抗性基因广泛存在于这些集合的可分配基因组中(图4b)。值得注意的是,大肠杆菌在其基因组中含有几乎所有ARG(25个中的23个),其中一半存在于核心基因组中(图4b)。相比之下,双歧杆菌属物种,包括B.bifibium,B.adolescentis,B.longum和B. pseudocatenulatum,在其泛基因组中很少含有ARG。

图4. 38个代表集合的泛基因组分析

结论

我们采用培养组学的方法分离了超过6000株人类粪便的细菌,共得到1520个高质量单菌基因组草图(338个种),构成可培养基因组参考(CGR)数据集;其中包括人肠道的主要细菌门和属,含至少264个新参考基因组,有不少低丰度菌,丰富了现有参考基因组,提高了宏基因组学分析的分辨率(读段比对率和SNP分析等);对CGR的功能注释(如毒力因子、抗生素抗性)加深了对肠道菌功能的认知; 对38种重要菌的泛基因组分析,揭示不同菌门的泛基因组开合趋势和在各自核心和非核心基因组上功能富集的差异,加深了对不同肠道细菌的功能和特点的了解。




你可能还喜欢

  1. 年度总结 | 100篇微生物相关高分综述免费领取(附赠10篇国自然标书)

  2. 肠道菌群及代谢相关试验如何设计?20篇高影响因子文章供您参考!(免费领取文献包)

(0)

相关推荐