基于最新基因组序列,获得迄今最完整的人类甲基化组学信息

背景介绍

人类基因组工作草图发布以来,人们不仅了解了编码序列,而且还对基因组的其他部分,例如表观基因组如何调控基因的表达也有了更深的理解。但表观基因组只能是基于现有的参考基因组。因此,最新组装完成的完整人类基因组 (T2T-CHM13) 为更深入探讨表观基因组学提供了一个前所未有的高度,尤其是对基因组重复区域的认识。

T2T-CHM13基因组在2013年版本的人类基因组序列基础上增加了近2亿个碱基对。该基因组解决了GRCh38中的缺口,并纠正了错误组装或修补的区域,获得了近200 Mb之前未检测到的序列内容。在T2T-CHM13中,绝大多数新序列位于着丝粒和着丝粒间,这些区域与亚端粒卫星重复序列一起构成了异染色质区域,其在保护基因组完整性方面发挥着关键作用。基因组的表观遗传可以调控基因的表达,也可以通过调控异染色质维护基因组的稳定性。

着丝粒本身由高阶重复序列(HORs)组成,是多个基本重复单元组成的较大重复单元串联排列。表观遗传调控被认为在着丝粒的特性和着丝粒的形成中起着关键作用。在这些重复的区域内,检测染色体和分子之间的表观遗传异质性尤其具有挑战性。此外,等位基因特异性甲基化和表观遗传变异在基因调控和转录可塑性中发挥重要作用,但进行重复性区域的研究比较困难。为了探究这些问题,通常需要对杂合子基因组元件进行精确的比对,以实现等位基因特异性识别。

近日,美国约翰霍普金斯大学研究团队在预印本Biorxiv发表了题为“Epigenetic Patterns in a Complete Human Genome”的文章。该团队利用最新发布的T2T-CHM13全基因组序列探索了人类的表观基因组特征,尤其是此前很大程度上被忽视的卫星阵列表观遗传调控,并揭示了新的表观调控机制和调控事件。

文章发表在Biorxiv

主要研究内容

动态k-mer辅助比对策略

该团队研究了是否可以利用现有的短读长表观遗传学数据来获得改进的T2T-CHM13组装的新认识。为了在T2T-CHM13中准确地将短读长表遗传学数据定位到重复序列富集区域,他们开发了一种动态k-mer辅助比对策略,其中k依赖于比对reads的长度。与此前不同,动态k-mer辅助比对策略考虑了reads中的插入和删除,并根据reads所跨越的参考序列的总长度改变k-mer大小。当对来自具有预期遗传多样性的不同个体的细胞系进行比对时,这一点尤其重要。

图1. 动态k-mer辅助比对策略示意图,图片来源:Biorxiv

为了验证动态k-mer辅助比对策略的准确性,研究团队将其应用于ENCODE项目中的ChIP-seq数据集。分析结果表明,H3K9me3中富集在所有的着丝粒、间丝粒和端粒亚重复序列。以H3K9me3为标准观察到的组成性异染色质的转变边界可被清晰地划分出来,这与在酵母和果蝇中观察到的异染色质结构域边界一致,并表明缺乏从异染色质到常染色质的渐变。

图2. H3K9me3在不同区域的富集程度,图片来源:Biorxiv

纳米孔测序用于卫星重复序列中的DNA甲基化测定

短读长reads可以提供染色质修饰和DNA结合蛋白的大规模序列信息,但由于亚硫酸氢盐处理后的定位偏差,重复序列中的DNA甲基化检测尤其困难。基因组中有相当一部分CpG位于这些难以捕捉的高度重复区域,它们的表观遗传失调可导致癌症、转录组调控失衡、染色体分离不当等。

在T2T-CHM13基因组中,研究人员鉴定出3230万个CpG位点,比之前GRCh38鉴定出的2920万个CpG位点增加了9.04%。在卫星DNA中检测到165万个CpG位点,将卫星DNA中CpG的百分比从GRCh38中的3.6%增加到T2T-CHM13中的8.3%。

为了比较早期发育阶段CHM13细胞系 (单亲本二聚体) 和晚期分化的成体表观基因组的区别,研究团队对HG002细胞系 (男性淋巴母细胞系) 的核小体占位和甲基化进行了纳米孔测序 (nanoNOMe)。与预期的一致,CHM13 (36.8%的中位数甲基化) 的整体甲基化程度低于HG002 (75%的中位数甲基化)。此外,研究人员还特意分析了15号染色体短臂这一特定区域,该高度重复序列在之前的GRCh38中未被组装。结果发现,改进的T2T-CHM13基因组和卫星DNA注释显示了超过25 Mb的序列,其中7.9 Mb是HSat3嵌套串联卫星重复序列。

图3. 卫星重复序列中的DNA甲基化,图片来源:Biorxiv

利用长reads,研究团队还对高度重复的HSat3串联重复中的甲基化模式进行了更详细的描述。通过绘制15号染色体HSat3阵列中心50kb区域的表观遗传数据,发现其重复的甲基化模式与重复的1.8 kb HSat3序列一致。此外,虽然与HG002相比,CHM13是低甲基化的,但甲基化信号的周期性波动在两种细胞系中是一致的。以上数据强调了长读长测序在同时提供遗传和表观遗传状态时的优势。

图4. 高度串联重复中的甲基化模式,图片来源:Biorxiv

α-卫星重复序列的甲基化图谱揭示了复杂的表观遗传模式

研究团队利用T2T-CHM13描述了着丝粒和着丝粒间的甲基化,发现在这个早期发育的细胞系中,除了α -卫星细胞外,所有的卫星序列都显示出低甲基化水平。值得注意的是,在所有CHM13的高甲基化着丝粒阵列中均发现了不同的低甲基化区域,他们称之为着丝粒浸润区域 (Centromeric Dip Region, CDR)。此外,CDR只发生在“活”的HOR阵列 (即与着丝粒附着有关的着丝粒功能单元)中,不发生在“死”的HOR阵列中,这是人类前类人猿祖先的着丝粒残留。

图5. α-卫星重复序列的甲基化图谱,图片来源:Biorxiv

单分子表观遗传学揭示单倍型特异性调控

长读长序列,加上一个完整的参考基因组,赋予了研究人员探索单分子甲基化模式的能力。基于此,研究人员对CDR区域内表观遗传异质性进行了分析。通过专注分析唯一的单倍体着丝粒 (HG002染色体X 的CDR),可详细了解细胞间表观遗传异质性的等位基因特异性效应。通过组织CDR远端边缘区域平均甲基化的reads,发现HG002 CDR边缘的显著异质性,显示出区域边界的细胞间差异。这种可变性表明CDR中甲基化的动态调控与癌症中CpG岛5mC边界侵占类似。但当接近CDR中心时,该区域始终未被甲基化。以上结果表明,即使在没有杂合子变异的情况下,也有可能在大串联重复序列中发生等位基因特异性的甲基化事件。

图6. 单分子甲基化模式的异质性,图片来源:Biorxiv

研究总结

综上所述,该研究利用最新完成的人类基因组T2T-CHM13,提供了对人类表观基因组未知领域的初步了解,纳入了新的基因组区域,并扩大了现有表观遗传数据的范畴,得到了迄今为止最完整的人类甲基化组学信息。

同时,该研究结果也突出了长读长测序在揭示新表观遗传特征层面的能力。长读长可以最大限度地捕获涉及表观遗传学的重复区域的基因组,在提供重复DNA序列的同时也显示了表观遗传数据信息,并可以进一步揭示单分子上多个表观遗传标记的相互作用。

参考文献:
1、 https://doi.org/10.1101/2021.05.26.443420
2、S. Nurk, S. Koren, et.al. The complete sequence of a human genome. bioRxiv (2021)
3、A. J. Bannister, T. Kouzarides, Regulation of chromatin by histone modifications. Cell Res. 21, 381–395 (2011)

· END ·

 

(0)

相关推荐