植物基因组结构变异(Structural variations, SVs)包括基因插入/缺失变异和拷贝数变异,与单核苷酸多态性和表观遗传差异一起构成种内和种间可遗传表型的多样性。了解SVs在植物表型变异中的作用对于植物育种工作者生产改良品种具有重要意义。但早期基因技术的低分辨率和低效的方法限制了研究人员对植物SVs的理解。随着基因组检测技术的迅速发展,使得以更高的分辨率和准确性评估SVs成为可能。近日,澳大利亚科研人员在国际学术期刊Plant Biotechnology Journal上在线发表了题为“Current status of structural variation studies in plants”的综述。该综述总结了植物SVs的研究现状,探讨了SVs在表型性状中的作用,比较目前技术在SVs研究中的优势,并对SVs研究的未来挑战进行了评估。
在早期的植物基因组研究中,由于技术的限制和高质量参考基因组的缺乏阻碍了植物中SVs的全面研究。许多植物具有庞大且复杂的基因组,多达80%的植物物种发生多倍体变化,这使得在植物基因组中鉴定SVs成为一个挑战。基因组技术的最新进展,特别是长读长测序和全基因组作图,有望得到高质量的植物基因组和泛基因组组装体,并获得广泛的SVs,以评估其在植物表型变异中的潜在作用。
在广泛使用分子标记和DNA测序之前,SVs通过显微镜在核型水平上进行表征鉴定(图1A)。然而,由于显微观察的分辨率和效率低下,目前利用显微技术对SVs进行的研究很少,主要应用于确认已知的SVs。随后基于杂交的微阵列方法的出现使得以比显微镜方法更高的分辨率和更低的成本进行SVs研究成为可能,两种常用的方法是阵列比较基因组杂交(Array Comparative Genomic Hybridization, array-CGH)和SNP阵列。array-CGH可以有效地检测多个基因组位点的拷贝数变化(Copy Number Variation, CNVs)(图1B),并已应用于多种研究,包括基因发现、表观遗传修饰和染色质构象。尽管如此,array-CGH依旧无法检测DNA片段的相互易位和倒位或绝对拷贝数。此外,array-CGH是专门为二倍体个体设计的,对较高的倍性(>2组染色体)不敏感。与array-CGH相比,SNP阵列对等位基因特异性CNVs更为敏感(图1C),但SNP阵列提供的信噪比较差。与array-CGH一样,SNP数组不能用于检测插入。过去,由于植物基因组的读取长度短、重复性和复杂性,据报告,多达89%的SVs为假阳性,需要进行全面过滤以确保稳健结果。近年来,长读长测序和高通量染色体构象捕获(Hi-C)技术的发展为克服短序列读取带来的一些问题提供了解决方案。Hi-C可以物理上跨越整个染色体,并用于检测大规模SVs,而长读长测序包括合成长读取测序和单分子长读取测序,平均长度可以达到10到100 kb,以解析无法通过短读序列进行分析的SVs。并且随着成本的降低以及测序技术和算法的不断进步,产生了更精确的数据(准确度>99%),如PacBio HiFi读数和Oxford Nanopore R10.3,这可以进一步提高基因组分析的准确度,尤其是单倍型基因组组装和SVs研究。纳米通道中的光学映射是对DNA测序的补充,为大规模SVs检测提供了更简便的途径(图1D)。高质量基因组组装的不断增加,使植物SVs特征化更为可靠。
图1 从过去到现在用于识别SVs的方法。
A. 显微镜观察、B. 比较基因组杂交、C. SNP阵列、D. DNA测序鉴定SVs
随着DNA测序和光学作图的升级以及生物信息学工具的发展,植物中SVs的研究变得越来越普遍,人们越来越意识到SVs与SNPs和小分子标记一样重要。尽管目前的技术和方法大大提高了SVs识别的分辨率,但假阳性仍然存在。为了使SVs检测更加可靠,需要进行过滤和进一步验证。机器学习方法可以用来集成来自不同算法的SVs,以减少误报。随着长读长测序的准确性和长度的提高,将支持对等位基因或杂合子变异以及当前线性装配中缺失的隐藏基因的挖掘。挖掘SVs或被SVs改变的基因对育种工作有重要意义。目前,很少有直接将SVs与特定表型联系起来的方法,因此需要SVs全基因组关联研究方法来有效地将SVs与表型联系起来。利用CRISPR/Cas系统进行基因组编辑提供了一种验证SVs的方法。为了进一步促进植物育种,需要建立不同物种的SVs表型相关数据库,通过搜索数据库确定候选SVs,将这些SVs用于育种以创制改良品种。