易基因 | 宏基因组测序带给了我们什么?

关于宏基因组测序:

直接对提取的全宏基因组DNA建立随机小片段文库,能够获取更多的序列信息。通过组装、ORFs预测与注释,通过各种大型公共数据库进行相应注释,高精度解析微生物群落结构与功能,包括特色的各种抗性基因、可移动元件以及氮循环基因网络分析等。宏基因组测序的优点是:超深度视野,更精确分类定位,真实可靠的功能分析,适合需要更加精确解析微生物群落结构与功能的微生态学分析项目。今天为大家带来一篇介绍宏说基因组测序的综述文章。

目录:

1.摘要 2.背景 3.宏基因组学为我们带来了什么? 4.宏基因组测序的性能评价 5.宏基因组测序的基因丰度 6.创新与未来方向

1.摘要:

宏基因组鸟枪法测序的出现彻底改变了我们检测和描述复杂微生物群落多样性和功能的能力。在这篇综述中,作者强调了使用宏基因组测序的优势、使用目前的分析工具可以得出的结论的广度以及宏基因组数据分析面临的挑战。在未来,技术和方法的改进和创新会使测序成本降低,并且使用多种技术平台的数据集成方式将让人们更好地利用宏基因组数据,不仅能够描述出复杂的微生物群,而且能够实现健康、农业和环境的可持续发展。

2.背景:

微生物学的工具:显微镜、培养组学和基因工程等技术使研究人员能够对部分有机体进行观察、培养和实验,揭示它们的生物学功能、遗传和进化能力等。微生物几乎遍布在地球上的每一个角落,它们对生态系统和宿主健康有着巨大的影响。高通量测序技术的出现将生物学数据与潜在的遗传关系相结合,迅速提高了人们对微生物群落物种多样性的理解。尽管宏基因组测序让我们得以一窥复杂的微生物群落,但这些数据本身可能是不完整的、具有局限性的。因此,当科学研究需要使用这项技术时,对宏基因组测序的客观判断是非常重要的。

由于宏基因组鸟枪测序的成本和分析难度等问题,16S rRNA测序被广泛用于微生物群落确定组成成分的分析中。16S rRNA基因普遍存在于细菌中;而且通常情况下,这个基因在进化上是稳定的,因此它可以成为鉴定分类的重要遗传标记。16S[1] [j2] 测序可以研究群落的物种组成、物种间的进化关系以及群落的多样性,16S测序得到的序列很多注释不到种水平,而宏基因组测序在16S测序分析的基础上还可以进行基因和功能层面的深入研究(GO、Pathway等),同时可以鉴定微生物到种水平甚至菌株水平。

这篇综述主要集中阐述宏基因组测序的优势,并概述使用当前可用的分析工具得出的结论的广度,例如可以更好地分辨跨门和功能微生物和菌株,同时强调了宏基因数据分析的挑战(图1)。这些主要挑战包括功能注释,因为与模式生物相比,人们缺乏环境细菌的功能数据库,以及在不同环境样本中进行序列组装的技术挑战。

图1

3.宏基因组学为我们带来了什么?

基因组信息库

许多早期的宏基因组研究使用比对来参考基因组来评估样本的组成和功能。给定合适的基因、编码区或参考基因组等信息,宏基因组数据就可以使用比对软件根据参考信息进行分析。然而,直到今天,许多环境宏基因组样本仍然缺乏合适的有代表性的参考基因组。微生物培养组学的进步使我们可以发现和培养许多以前未知或不可培养的微生物,因此对现有的微生物基因知识库进行不断的扩充、更新的很有必要的。

宏基因组测序的组装方法

重叠组装[3] (Overlap assembly methods)是为了Sanger测序而发明的,它基于OLC(Overlap-Layout-Consensus,先重叠后扩展)是最初被应用于DNA序列组装的方法。这种组装方式必须对每个read进行成对比较,适合长序列组装,运行依赖的数据结构需要消耗大量的内存,且运行速度比较慢,错误率高不太适合下一代测序(NGS)。而基于DBG(De Brujin Graph)的组装算法,内存消耗相对较低,运算速度快,且准确率高。整个组装过程包括:序列k-mer化,对需要测序的片段等大小拆分,即将reads 逐个碱基切分为长度为K的子序列;de Brujin图构建,de Brujin图是一种有向图,将k-mers得到的子序列作为图的节点,如果两个节点有 K-1个共同重叠子集,就把两个节点连接在一起,这样一定程度上已经能够展现出序列的顺序信息;图结构简化,去除低频和低覆盖率的k-mer,将小的重复对解开,让每个节点的入度(penetration)和出度[4] (outdegree)都为1,将相似性较高的k-mers合并,也就是bubbles合并成单链;contigs拆分,通过read的配对末端(pair-end)和环化配对(mate-pair)信息去除一些环结构,最后把一些无法合并的分叉结构再次拆分成多个contigs;scaffold构建,通过contig两端的pair的序列信息,将多个contig连接成scaffold,同时将contig之间的GAP填充;最终把多个scaffold组装成无GAP的基因组序列。

尽管组装的目的是重建整个基因组,但宏基因组组装后输出是高度碎片化的,需要额外的分析来确定属于同一基因组的contig集合,将 contigs 按照物种水平进行分组归类。可以将组装得到的片段与已知物种的参考基因组进行比对,根据同源性进行归类。然而当大多数微生物的基因组信息无法获取时,通常会根据核酸组成信息、丰度信息、GC含量、测序覆盖深度等信息进行binning。

宏基因组测序组装的质量评估

组装指标的好坏直接影响着整个基因组的质量,评估基因组组装结果,contig N50和scaffold N50是第一指标,即contig/scaffold N50。一般来说,contig/scaffoldN50越长,表示组装结果越好。除此之外还可以验证reads对基因组的覆盖情况,用于评估组装的完整性以及测序的均匀性。较高的mapping rate(90%以上)以及coverage(95%以上)认为组装结果和reads有比较好的一致性。通过全长BAC序列,可以通过与组装结果的比对,对组装结果的正确性进行验证,从BAC[5] 序列和scaffold是否具有较好的一致性来判断组装质量。即根据广泛存在于大量真核生物中的保守蛋白家族集合(248个core gene库),对组装得到基因组进行评估,评估组装基因组中的core gene的准确性和完整性。可以通过该物种和同源物种cegma的比例,判断保守基因组装情况。

宿主与病毒、真菌的遗传信息

微生物群落中除了存在细菌DNA外,还会有病毒、真菌和宿主的DNA,动物和植物系统中的宿主DNA也与细菌、病毒和真核共生体DNA一起进行了测序。大多数情况下,宿主DNA在分析之前会被筛选出去,这一步骤在人类宏基因组研究中尤为重要。在某些类型的微生物群落中,例如口腔和皮肤微生物群落的测序数据中,会有很大一部分数据被去除(最高可达90%)。越来越多的研究将人类基因数据与微生物组成和功能联系起来进行联合全基因组关联分析,但目前还没有利用从宏基因组样本中的人类基因数据来实现这一目的研究。

宿主相关表型

宏基因组数据分析塑造了我们对微生物组和寄主表型(如健康情况、生长过程和作物生产力)之间关系的理解。例如,在Young(Teddy)的一项糖尿病环境决定因素的研究中,作者利用来自783名儿童的近11,000份样本,希望能够确定出可以预测1型糖尿病(T1D)发病的肠道微生物群落在组成或功能方面的特异性。研究发现,与T1D发病相关的微生物在功能上相似,但在分类上不同,母乳喂养停止得越早,肠道微生物群成熟得越快;此外,已经有超过8个关于结直肠癌的宏基因组研究,对宏基因组数据进行分析比较可以发现具有重要功能的关键基因。

4.宏基因组测序的性能评价

宏基因组测序的主要优势是能够对微生物群落进行功能分析。这通常需要将数据与已知的或重新组装的基因进行比对,以获得基因丰度并推断功能丰度,而与宿主无关。换句话说,与分类学分析不同的是,这些方法在某些情况下不依赖于标记基因,甚至不依赖于组装。在进行功能分析时需要注意,因为环境微生物群落中高达50%的基因缺乏功能注释。例如,作为人类微生物群计划(Human Microbiome Project)的一部分有一项利用16S rRNA和宏基因组鸟枪测序来描述300个志愿者几个身体部位微生物群落组成的研究,最早试图从功能上描述人类肠道微生物群,最终的结果是:尽管微生物组成存在巨大差异,但人体各个部位的功能图谱是保守的。这一结论在很大程度上是由于当时拥有注释的基因大部分存在于所有微生物的保守核心基因。所以,需要通过分析各个身体部位之间核心基因和功能之间的差异,以及了解基因在功能上被注释到了什么程度,才能很好地修正分析结果。

5.宏基因组测序的基因丰度

分析宏基因组数据需要仔细考虑基因组组装和丰度计算的问题。目前有两种方式可计算宏基因组基因的丰度,一种是基于比对的一系列主流比对软件,另一种是不比对快速估计基因丰度的软件,这类软件可以直接计算出原始的Counts值和标准化的TPM值,此外由于是基于非比对,计算的速度得到很大的提升。

宏基因组中的物种分类,一般用OTU (operational taxonomic unit), 即可操作分类单元来表示。在一般情况下,原核生物的OUT使用16S rDNA来衡量,真核生物的OUT使用18s rDNA来衡量。但选择16S/18S rDNA鉴定物种,存在以下几个问题:1)rDNA之间的平行转移会干扰鉴定的可靠性;2)在单个细菌中,16r DNA可能存在序列不同的几个拷贝,干扰OTU数目估计的准确性。所以,其他备选的标记基因,比如单拷贝的看家基因是菌种鉴定标记的最佳选择。除了这些技术问题外,单独对微生物群落进行宏基因组鸟枪测序时,微生物生态系统的许多方面都可能被忽略。

6.创新与未来方向

未来十年,随着DNA、RNA测序技术和普及程度的提高,微生物群落的宏基因组测序分析将发生巨大的变化。长片段测序成本降低、测序技术提高,将会改善基因组组装的效果。由于由短片段测序数据组装出的基因组可能与实际基因有很大的差异性,并且参考基因组的缺少也对为组装带来难度,因此长片段测序的发展将对提高宏基因组组装质量大有裨益。宏基因组学应用场景的增加,特别是随着数据平台类型的增长,将会给数据存储和数据报告方面带来新的挑战。未来数据库的大小将需要从数据压缩、高速搜索和内存效率等几个方面解决;而数据报告和提交的标准协议,特别是在提供什么信息和元数据方面是十分重要的。

尽管有这些预期的改进,如何为微生物组内的大量基因进行功能注释对于理解微生物基因表型关联机制是必要的。最近发现,Eggerthella lenta中多巴胺脱氢酶(DahD)基因的单个氨基酸残基的差异改变了治疗帕金森病的药物L-dopa在一组患者的微生物群落样本中是否保持活性。为了使研究内容不仅仅局限于微生物群落的特征,理解整个表型背后的机制,对基因功能的准确理解是非常必要的。对DNA修饰的鉴定,例如使用单分子实时(SMRT)测序获得的甲基化修饰图谱,可以揭示自然界微生物群落中质粒迁移的有趣现象。随着技术的创新人们将不断揭示出微生物群落中生物的相互作用、功能角色、进化轨迹以及生态地位等有趣的事实,这些会让人们更好地理解生物群落,以实现健康、农业或环境可持续发展。

参考文献:doi/10.1146/annurev-micro-012520-072314

原文解读:

宏基因组测序带给了我们什么?

(0)

相关推荐