作者:王硕,南京农业大学硕士在读,主要研究利用噬菌体防治土传病害。
周刊主要展示LorMe团队成员优秀周报,每周定期为您奉上学术盛宴!本期周刊将土壤噬菌体与肠道噬菌体进行类比并为您介绍可能用于土壤噬菌体的新兴研究方法。原文于2020年发表在 Trends in Microbiology。
地球上大约有1031的病毒,其中大部分是噬菌体。环境中的噬菌体呈现高度的多样性,其形态和基因组均存在很大的差异。通过噬菌体的基本生物学特性对其进行分类,可以帮助我们更清晰地了解噬菌体。目前对噬菌体的分类缺乏统一的标准,需要结合多种特征对其进行归类。采用不同的研究方法可以测定不同的噬菌体特性。然而,不同的研究方法具有不同的偏好和局限性,当前的噬菌体研究需要根据实际情况结合多种研究方法。这篇综述总结了宏基因组学组装工具和单细胞分析的最新突破,有助于进一步了解噬菌体生物学、多样性及其与微生物群落的相互作用。
人体肠道微生物影响着人体的健康,其数量和组成的变化都会导致人体健康状况的波动,甚至引发疾病。噬菌体是人体肠道微生物的一部分,在维持人体健康的过程中发挥了关键的作用。人体肠道噬菌体呈现高度的多样性(图 1),按形态可分为有尾噬菌体、无尾噬菌体等;按核酸类型可分为dsDNA噬菌体、ssDNA噬菌体、dsRNA噬菌体和ssDNA噬菌体。目前有关人体肠道噬菌体的研究已经取得了相当的成绩,相关的研究方法可以借鉴到目前研究相对较少的土壤噬菌体中。与人体肠道类似,根际是土壤微生物活动的热点区域,根际微生物的活动也直接影响着植物的健康。土壤噬菌体也是其中的一部分,可以影响碳、氮等物质的循环和宿主的新陈代谢:影响有关植物生存的方方面面。土壤噬菌体也呈现高度的多样性,按形态和核酸类型同样有相似的分类。面对如此复杂多样的土壤噬菌体,与人体肠道噬菌体相关的新兴技术可以借鉴到相关研究中。然而,从样品收集到测序的整个过程都会影响噬菌体序列的检测,因此需要根据样品类型、来源和体积谨慎地选择处理方法。与肠道微生物相似,土壤微生物群落也相当复杂,现有的采样技术虽然各具优势,但可能会倾向于提取最丰富的群落成员。通过噬菌体定量方法(例如荧光显微镜)可以直接观察到噬菌体,但是得到的病毒样颗粒(VLP)的数量可能会低于样品中的实际数量。扩增病毒核酸是一种处理方法,其中包括:1)随机扩增的弹枪文库(RASL),其中的模板仅限于dsDNA;2)链接子扩增的弹枪库(LASL),它需要很高的模板浓度;3)多重置换扩增(MDA),倾向于过度扩增环状单链DNA(ssDNA)并且不均匀扩增线性基因组。最近开发的基于流式细胞术的方法可以通过荧光染料标记噬菌体从而把VLP从背景菌群中分离出来,避免未纯化的噬菌体基因组序列被分配到细菌和真核DNA。然后根据大小和荧光水平选择VLP,并使用荧光激发细胞分选法从样品中除去VLP。尽管此方法仍会导致VLP丢失,并降低了噬菌体检测的灵敏度,但它显著减少了背景污染,并在测序前不需要进行全基因组扩增。由于每种可用的样品处理方法都有其局限性,因此对描述较少的噬菌体的研究取决于生物信息学方法,该方法具有其自身的一系列优点和挑战(图 2)。
图2 人类微生物群中表征游离噬菌体的实验和计算方法土壤噬菌体与肠道噬菌体一样,缺乏通用的标记基因,例如细菌中的16SrRNA,因此很难在混合样品中进行鉴定。对VLP衍生的DNA或RNA进行弹枪测序是解决宏条形码(依赖物种或群体特异性标记)问题的一种解决方案。宏基因组学允许对复杂的微生物样品进行未培养测序(无需使用组群特异性引物),并且可以区分样品中所含的不同物种。但是,宏基因组数据容易产生较高的背景噪音,会混淆对噬菌体的分类表征。公共数据库中可能存在较差、不正确或不足的注释并且噬菌体序列与参考数据库之间的同源性有限,为了解决这些问题,病毒学研究需要依靠全新的基因组装配(即在没有参考序列的情况下进行序列拼接,对未知基因组序列进行测序,利用生物信息学分析手段,对序列进行拼接、组装,从而获得其基因组的图谱)来从宏基因组中获得噬菌体基因组。然而,由于噬菌体基因组具有特异性,这种方法面临很多困难:噬菌体基因组是高度镶嵌的,其中包括许多重复区域,并且显示出高度的宏基因组学复杂性和菌株水平多样性。噬菌体的微观多样性(高水平的菌株均匀性和核酸多样性)也可能使全新的基因组装配复杂化。蛋白质水平的汇编程序(例如Plass)可以更好地用于噬菌体宏基因组数据,因为它们可以从核苷酸序列预测新蛋白质,增加序列回收率并改善蛋白质功能预测。它们还有助于避免同义单核苷酸多态性的错配。然而,这些汇编程序不能将组装的蛋白质序列置于基因组环境中,并且它们不能从序列同一性<95%的相关分类单元中分离同源蛋白质。长时间读取的测序仪,可以从单个读取中获得完整的噬菌体基因组,而无需组装。但是,长时间读取的测序仪所需的DNA量,比不经扩增直接从噬菌体样品中分离出来的DNA量要高几个数量级,而且它们仍然具有较高的读错率和操作成本。不仅肠道中生活着众多不可培养的微生物,土壤中也是如此。随着测序技术的进步,每年确定的不可培养噬菌体序列总数远远超过噬菌体分离株的数量。因此,在公共数据库中,大部分噬菌体(≥95%)是不可培养的。大多数噬菌体序列与已知参考序列没有显著的同源性,所以依赖数据库进行分类的方法具有局限性。替代方法之一是按组成对噬菌体序列进行分类,如VirMap数据处理是基于病毒与非病毒序列的比较对重叠群评分。但是,某些检测到的原噬菌体可能是无功能的,这些原噬菌体仅次于必需基因的缺失或突变。机器学习方法也可用于检测噬菌体序列,但噬菌体检测工具的主要缺点是序列仅在数据集中才有效,这可能导致在高置信度得分的噬菌体片段出现错误。如何确定噬菌体的宿主范围(即它可以感染的细菌)是一个有争议的话题。噬菌体感染周期包括六个主要阶段:1)将噬菌体吸收到细菌细胞中;2)噬菌体将其DNA喷射到宿主细胞中;3)逃避防御机制;4)细菌被劫持;5)噬菌体复制并构建新一代噬菌体;6)裂解细菌细胞并释放。测定宿主范围的标准方法,例如平板接种法,不仅依赖培养,并且不同方法之间的结果会有所不同,这使得不可培养的噬菌体的宿主范围很难测定(图3)。替代方法是使用噬菌体标记或生物信息学丰度轮廓、tRNA或原噬菌体的测定和CRISPR记录的短噬菌体片段。许多不依赖于培养的方法可用于测量噬菌体宿主范围。噬菌体标记使用荧光激发细胞分选法来分离附着在细菌细胞上的荧光标记的噬菌体,以用于下游应用和测序。虽然附着不等于吸收或复制,但它与噬菌体感染周期的第一步联系在一起,并且已证明其可以成功预测海洋和人类环境中独特的宿主-噬菌体配对。丰度分布图是通过关联噬菌体和细菌丰度确定宿主范围的另一种不依赖培养的方法。虽然在理论上很有希望,但噬菌体与其宿主之间相互作用的基础是复杂的,往往与直接的相关分析不符,导致准确性较低。也可以使用遗传标记将噬菌体与其细菌宿主联系起来,但很大程度上与噬菌体感染周期的第五步有关。最常用的遗传标记是:1)水平基因转移导致噬菌体和细菌之间的遗传同源性,依赖于全面的数据库;2)将噬菌体整合入宿主基因组,仅限于温和噬菌体;3)使用感染噬菌体的CRISPRs记录,但是只有大约10%的细菌编码了CRISPR系统;4)追踪被认为起源于宿主的噬菌体tRNA,但这在物种水平上不是特异的,只有7%的已知噬菌体具有tRNA序列。由于这些限制,需要结合机器学习工具和多种遗传特征以预测噬菌体的宿主范围。分析多维数据以阐明物种与环境之间的关系是许多学科当前面临的挑战。诸如机器学习之类的计算和统计方法的最新进展已经帮助解决了这个问题。但是,这些方法需要大量观测数据。如果样本量小而无法使用机器学习方法,那么规范方法同样可以为分析物种与环境之间的关系提供一条有希望的途径。对于数据和问题而言,方法的适当性可能会因研究而异,并且与所得出的结论相呼应,多种补充统计方法的整合可能会提供最可靠的结论并有助于理清复杂的问题和多维数据。总结
噬菌体通过与细菌群落的相互作用在环境中起着关键作用。测序技术和生物信息学的发展使发现的噬菌体种类迅速扩展。不同的研究方法各有侧重,在实际过程中需要根据土壤样品的特点及研究目的谨慎地进行选择与组合。同时,我们需要进一步了解土壤中噬菌体的多样性,并且阐明这些噬菌体的功能。
论文信息
原名:Challenges of Studying the Human Virome – Relevant Emerging Technologies
译名:人类噬菌体研究的挑战-相关的新兴技术
期刊:Trends in Microbiology(2020)
IF2020:13.546
发表时间:2020.07.01
通讯作者:Li Deng
通讯作者单位:慕尼黑工业大学