近年来,随着科研和临床需求越来越明确,测序技术的发展迅猛。回顾测序技术发展的几十年,经历了从低通量到高通量、从电泳分离到单分子测量的快速升级和迭代。基因测序读长不断延长,通量逐步提升,测序时间不断缩短,测序成本也急剧下降,伴随而来的是群体测序时代以及精准医学时代的开启。NGS的出现,极大地扩展了基础生物学的科研能力和临床医学水平。
自2010年起,黄岩谊教授团队开启了高精度测序技术的研发之路,成功研发了纠错编码(Error-Correction Code,ECC)测序策略。该技术基于信息理论来修正DNA测序错误,使高通量测序的精准度大幅提升。在2017年发表于Nature Biotechnology的论文中,研究团队利用实验室搭建的原理样机,获取了250碱基的测序读长,其中前200个碱基的准确率为100%,刷新了基因测序精度。近期,承载这一国际首创测序原理的赛纳生物基因测序仪S100即将上市,这是一款目前国内外高通量测序技术精度领先的测序平台。
近期,黄岩谊教授团队又升级了一种去相算法,在虚拟测序仪上模拟了1000碱基平均读长的情况下低误差率的实现。同时,虚拟测序仪和去相算法可以进一步扩展到ECC的二色模式测序,使得测序结果更加精准,有望再次刷新基因测序精度。这一研究成果已发表于National Science Review。
文章发表在National Science Review为深入了解ECC测序策略这一原创方法的研发历程,测序中国采访了领导研发此技术的北京大学北京未来基因诊断高精尖创新中心副主任、北京大学生物医学前沿创新中心研究员黄岩谊教授,深入了解了ECC测序策略的前世今生。同时,黄岩谊教授还分享了对测序技术未来发展的一些见解。自1977年Frederick Sanger提出双脱氧终止(Sanger)法,到NGS、单分子测序,研究人员对测序技术的探索从未止步。黄岩谊教授表示:“测序技术的不断迭代,很大程度上归功于人们对生命科学、医学认知的不断深入以及需求的提升。”近几十年来,随着医疗水平的不断进步,人们更加关注生命质量和个体健康,相应的需求随之不断提升。了解基因组与机体的实时状态,以及基因组调控、表达都离不开测序。很多疾病的诊断以及鉴别也越来越多地与基因关联在一起。如何更好地、全面地了解基因状态和变化,测序就成为满足这一诉求的常用方案,这使人们对测序技术提出了更高要求,进而促使测序技术被不断完善升级。如果仅仅是生命科学基础研究的需求,其触及率可能并没有这么高。反过来,技术上的突破在满足需求的同时,也会拓展出新的研究领域和市场。这些需求由于之前的技术不完备难以体现。“临床医学的需求与测序技术的发展相辅相成,也是测序技术不断发展的重要驱动力量。没有需求的推动,测序行业的发展也没有真正的、长久的动力。”黄岩谊教授强调。
自2010年开始,黄岩谊教授团队开始专注于高精度ECC测序策略的研发。他表示:“展开这一课题研究最初源于对科研的极致追求。”作为测序仪的资深用户,黄岩谊教授发现当时NGS测序仪的精度不尽如人意。常用的测序技术包括连接法测序(SBL)和依赖DNA聚合酶的合成法测序(SBS)。其中,SBS又分为单碱基添加法(SNA)和循环可逆终止法(CRT)。SNA方法依赖单个信号来标记每个测序的碱基,而CRT方法依托四种被不同的荧光基团标记的dNTP。这两种方法对化学反应本身的错误没有有效的检查和校正机制,导致其准确度被限制。为了弥补NGS测序的准确度不足,研究人员往往要做通过实验设计和生信分析解读以尽可能消除测序错误,包括优化的建库方案、合适的数据解读方案等,但对于部分由于测序反应本身带来的测序错误,研究人员不得不最终妥协。研究人员需要耗费巨大精力,在“差不多”的测序仪上做出超额努力以获得研究成果。“能不能从根本上提高高通量测序的精度?”带着这个疑问和目标,黄岩谊教授团队开启了原创测序技术——ECC测序策略的研发之路。
基于谢晓亮院士提出的荧光发生(Fluorogenic)测序化学,黄岩谊教授团队联合谢晓亮院士深耕四年,从化学原理、反应条件、测序流程、信号采集等方面对Fluorogenic测序进行了优化,改造了荧光标记分子结构、核苷酸底物等,最终结合开发信息论编码解码,最终成功开发了ECC测序策略,大幅提升了高通量测序的准确度。回顾ECC测序策略的研发史,源于对原创测序技术的追求,研究团队面临了种种无法预知的困难。采访中,黄岩谊教授感叹道:“我们走的是一条之前没有人走过的路,在整个研发过程中,无法预知会遇到怎样的难题。很多时候,在解决眼前的问题后,会发现前面的测序流程中有新的问题出现。经过无数次改进、重复,最终证明我们的测序技术原理可行。”在测序上游市场被国外寡头垄断的情况下,国产测序仪研发之路壁垒重重,但同时也得到多方力量的支持。在打通ECC测序策略原理的关节后,研究团队研发了一款原理样机,但是原理样机并不是一个真正意义上可以供大家广泛使用的仪器。作为赛纳生物的联合创始人,黄岩谊教授表示:“受谢晓亮院士的理念影响,我们坚信要自主研发一个真正的仪器,就要摆脱只是提出一个概念加以原理性验证的做法,而要通过工业界的打磨,走产品化的道路。”ECC测序策略的产业化源于多种因素促进。受制于国外技术垄断,整个产业化过程与团队高水平核心技术团队的努力密不可分。除了谢晓亮院士的鼎力支持,充足的技术储备对产业化过程至关重要。赛纳生物CEO陈子天博士经验丰富,善于带领团队从原理出发攻克技术难题,为产业化过程中提供了有力保障。“'改变中国生命科学仪器的生态’,正是在这样的共同理想支撑下,我们开启了国产测序仪产业化之路。”黄岩谊教授表示。
然而,解决产业化遇到的工程问题不比提出科学解决方案要更容易。实际上,工程问题背后牵连的更多是最根本的基础科学问题。黄岩谊教授谈道:“整个研发过程中,我们团队密切配合,在经历了千百次挫折和十一年的研发优化,依旧坚持不断反复求证。因为我们要做不是一个'差不多’的测序仪,而是一个'完美’的测序仪。正是这个信念,使得我们在困难面前坚持步步突破。”
为了研发完成一台“完美”的测序仪,研究团队融合了生物技术、生物物理、信息科学、分析化学、光学工程、微流控等多学科知识,最终实现了对复杂生物体系的定量和高通量测序。第一,从原理上克服测序误差,这意味着整个测序流程的化学反应原料和流程都需要自主研发,研发过程涉及到合成化学、分析化学、流体输送、两相分离等多重复杂问题,需要团队强有力的理论和实践基础支撑。第二,解决化学反应与器件的兼容性问题,这是一个不断替换和迭代优化的过程。第三,完善获取光学信号后向图像的转换,再形成序列的过程。第四,需要解决整个方法和生命科学、医学问题的结合。临床应用测序的样本不是一成不变的,这需要在一次次测试中完成全流程的优化。
对于ECC测序策略成功产业化的关键因素,黄岩谊表示:“ECC测序策略成功产业化的重要因素是团队、资金和共同理想。”技术团队的灵魂人物陈子天博士,10年来一直专注于钻研测序技术研发,带领团队解决各个环节的细节问题。整个核心研发团队具有充足的专业知识、技术储备和攻坚克难的能力,坚信要制造真正符合实际需求的测序仪,从根本上对已有高通量测序方法有所提升。另外,一些有情怀的投资人在ECC测序策略产业化中也起到了重要推动作用。
回想产业化的漫长历程,黄岩谊教授对样机测试阶段的故事至今仍历历在目。在克服了种种理论困难后,各团队分工合作,通过反复迭代调试使得第一部样机得以呈现。从理论到样机的开发,团队经历着工业界的考验。“从实验室走到工业化不只是优化的过程,更多是推翻重塑的过程,我们经历着技术和思维的双重考验。也正是在这个过程中,我的思维有了转化,同时也被团队成员的执着精神一次次感动。”黄教授提道。
作为基于赛纳生物S100测序仪的第一批用户,黄岩谊教授对该测序仪的应用满怀期待。S100测序仪能产生前所未有的高精度测序数据,或许可以从根本上改变很多研究方式,进而改变高通量测序应用。例如,高精度测序数据能否从根本上改变已经惯用的高通量测序方法,以获取更多此前未发现的基因信息。另外,高精度数据能否简化相关生物信息学算法、模型。同时,S100测序仪还会提供一种快速的测序模式,在要求快速鉴定的应用场景将有重要应用,例如病原体鉴定。目前,ECC测序策略已经为高通量测序精度提供了新高度,但对于技术的升级优化并不会中断。黄岩谊教授对ECC测序策略未来的升级方向非常明确:首先提升通量,并增加通量灵活性,适配多种应用场景;其次,增加测序读长,实现技术突破;第三,测序准确度再升级,不断刷新测序精准度。“对于精度的升级不只是追求极限,更多的是使得实验环节更简化,为生信算法的简化提供有力保障。这对于生物信息学来说也是一个革命性的契机。”整个采访过程,黄岩谊教授的讲述低调而有力,带给我们的是一名科研工作者的严谨,和一种掷地有声的中国力量。
随着我国大批有情怀、有能力、有科研精神的团队和企业家加入到测序技术的研发队伍,国产测序仪已然逐步突破国外寡头垄断的技术壁垒,同时也为从业者提出了更多要求。ECC测序策略凭借超高的精确度、超长读长以及灵活的快速测序模式,为测序领域提供了更多选择。黄教授坚信,基因测序在未来将是比较常规的研究和临床诊断方法之一。同时,基因测序也会向着更准确、更快速和更低成本方向发展。
1. Fluorogenic DNA sequencing in PDMS microreactors, nature methods ,20112. Highly accurate fluorogenic DNA sequencing with information theory–based error correction,nature biotechnology,20173. A virtual sequencer reveals the dephasing patterns in error-correction code DNA sequencing,National Science Review,2021
· END ·