Nature Methods:让长读长测序来拯救基因组组装

随着高精度长读长测序技术的出现,基因组难以组装的状态正在改变。《Nature Methods》杂志上近日发表了一篇文章,介绍了基因组组装项目如何受益于这种技术。

E. Dewalt/T. Phillips, Springer Nature.

自测序技术问世以来,利用DNA序列的片段来组装人类、动植物或微生物的基因组就一直是难题。许多参考基因组都存在缺陷,如组装错误或存在缺口。人类参考基因组GRCh38就有数百个缺口,缺失了大约150 Mb的序列。

随着高精度长读长测序技术的出现,这种状态正在改变。《Nature Methods》杂志上近日发表了一篇题为“Long road to long-read assembly”的文章,介绍了基因组组装项目如何受益于这种技术。

01
填补缺口

文章作者Vivien Marx指出,填补基因组上的缺口可以帮助人们比较基因组之间的差异。这些方法不仅适用于人类基因组,也适用于其他生物,比如微生物和脊椎动物。去年,“端粒到端粒联盟(T2T)”成员公布了激动人心的新进展。他们利用CHM13hTERT细胞系,组装了X染色体和8号染色体的完整序列。

CHM13细胞来源于葡萄胎,具有单倍体人类基因组。联盟负责人之一Adam Phillippy表示:“当我们只需要组装一个基因组而不是两个基因组时,问题就大大简化了。”如今,他们已经几乎完成了整个CHM13基因组的组装,只剩下五个缺口。下一步打算完成二倍体人类基因组的从端粒到端粒组装。“从单倍体到二倍体,听起来并不困难,但实际上要复杂得多,”他说。

02
对付着丝粒

着丝粒一直是极具挑战性的区域。在X染色体上,着丝粒的基本重复单元的长度为171 bp,而其串联重复序列正是12个单元的组合,长度约为2 kb。因为不容易克隆,这些卫星DNA的序列很难获得。T2T联盟另一名负责人Karen Miga表示,一些新的测序技术可以帮助他们实现目标,比如Oxford Nanopore和Pacific Biosciences。

测序之后还需要组装。将着丝粒及其重复序列组装起来,有点像在玩一块蓝天的拼图,简直让人无从下手。丹纳法伯癌症研究所Heng Li实验室开发出了基因组组装工具hifiasm,能够对付着丝粒。同时,加州大学圣地亚哥分校的Pavel Pevzner实验室最近也开发出了组装着丝粒的算法centroFlye。他表示,centroFlye是“通过在蓝天中寻找一小片白云来进行组装”。

03
长长长读长

Pacific Biosciences和Oxford Nanopore都推出了长读长测序技术,读长超过了10 kb。以往的数据显示,这些技术很容易出错,但Phillippy认为,现在的情况已经大不相同。PacBio在2019年推出了基于环状共有序列(CCS)的测序模式,生成了高度准确的HiFi reads。他表示,这种技术在检测单个分子上的准确性高达99.9%。同时,与五年前相比,纳米孔测序的准确度也大大提高。

Pevzner认为,这两种技术都可以达到90%以上的准确度。“HiFi reads的错误率是每一千个核苷酸有几个错误。纳米孔的超长测序虽然没那么准确,但成本也较低。这种情况正在动态变化。”生物学家目前主要使用短读长技术,但他认为完整组装的未来属于长读长。

04
组装工具

文章也提到了一些常用的组装工具,如Falcon、Canu、wtdbg2等。不过在HiFi reads出现后,人们则主要采用HiCanu和hifiasm工具来进行基因组组装。此外,PacBio的IPA也是专为HiFi reads而优化的组装工具。

hifiasm的开发者Heng Li也是T2T联盟的成员之一。他认为,准确的长读长技术正在帮助人们解析单倍型。“没多少人意识到我们今天产生的hifiasm/HiCanu组装的质量比一年前高多了,简直就是白天和黑夜的区别。”他表示:“组装领域的目标是实现二倍体样本的从端粒到端粒组装,然后是多倍体基因组和宏基因组,它们更难组装。”

05
泛基因组和宏基因组

如今,人们已经不再满足于个人基因组研究,而是转向了人类泛基因组(pangenome)研究,即人类群体基因序列的总和。研究人员认为,高度精确的从端粒到端粒组装可更好地了解人类的多样性以及对当地环境的适应。最近涌现出的许多软件工具可帮助人们从组装结果中找到基因组差异。

对于宏基因组分析,研究人员往往将Illumina短片段与Oxford Nanopore长片段结合起来,并采用metaSPAdes和metaFlye等工具进行组装。利用这种方法,人们发现的细菌和古细菌数量增加了一倍以上,且数据表现出更大的系统发育多样性。

总的来说,作者认为,高精度的长读长测序正在大大促进基因组组装项目。

参考文献

Marx, V. Long road to long-read assembly. Nat Methods (2021). https://doi.org/10.1038/s41592-021-01057-y

(0)

相关推荐