第三代基因测序腾“云”起航 企业降本增效可以交给这朵云
“你很难想象当我们的通量提升呈现指数级增长后,在算力和存储资源上的那种束缚感。“
北京希望组生物科技有限公司(简称希望组)的首席信息官朱赢,在谈到一年多前业务发展遇到IT瓶颈时,举了一个形象的例子:我们目前满载通量每天能够产生100TB的数据,假设线下机房现在有一个PB的存储能力,只要10天就会存满。这100TB的存储资源我前期可能已经花费了一百多万元,还只是硬件上的投入,不算电力消耗和人力维护成本。资源不够怎么办?又要再花一百万,又要去巨资投入系统建设?
作为全球最大的第三代基因测序企业之一,希望组在2017到2018年配置完成了完整的三代测序技术平台,正式面向全球用户开始提供PromethION人类基因组重测序服务。简单地说,相对于二代测序技术,三代基因测序的应用落地如同将燃油车换成了高铁。
“速度”快了,测序能力也大幅提升,但是通量爆发式增长的同时,希望组也遇到了最大的“瓶颈”。除了前面朱赢提到的存储资源难题,公司在算力、IT运维、成本控制和人力调配等很多方面都遇到了挑战。
基于第三代基因测序技术,虽然可以同时进行大量基因片段的快速测序,数据的存储量也呈现指数及增长。“如果要对这些数据文件进行分析和计算的话,大概每天都需要有十万核小时的时间来完成计算。这是原有机房的算力无法想象的。”
朱赢表示,希望组的科学家、工程师主要是从事基因研究,就不太会在IT方面耗费太多心力和资源。“我们必须要让研究人员从IT基础设施的复杂性里解放出来,让大家投入更多的精力,回归自己应该起到作用的基因组学研究上。”
“实际上,这要求我们在算力和存储方面,不仅是资源充足的问题,还要有极强的扩展性,随时能够不断地往外扩充这种能力,并按照需求能收能放。”朱赢斩钉截铁地说到,“我们决定全面上云!”
可以说,希望组在一两年前遇到的这些困阻,也是整个基因测序行业的共同挑战。
随着上世纪90年代“人类基因组计划”的启动至今,人类的30亿个碱基和数万个基因序列已被测定完成。基因测序,这一针对人类生命密码进行“读取”的技术,也从最初的一代,二代,逐步进入了第三代。
与此同时,随着基因测序技术的成熟,个人基因测序行业快速进入繁荣时期,越来越多关注健康和生命质量的人开始对基因测序提出了更大的需求。不过,第三代基因测序数据量较二代也出现了百倍增长,在呈现更加科学、精准测序结果的同时,第三代基因技术也遇到了算力、存储能力等方面的IT资源瓶颈,迫切需要解决效率迟缓、投资巨大、成本增加的难题。
而与基因测序企业的挑战相对应的,是公众在享受基因测序服务时面临的痛点:测试时间耗时较长;专业测试费用高昂,市场价格不透明甚至混乱;缺乏权威的测试结果分析解读……
有一点可以确定,基因测序行业在解决自身痛点的同时,也将解决公众需求方面的难题。
在懂懂看来,“上云”正是整个基因测试行业面对挑战的首选路径,通过云计算、大数据和AI算法等科技手段的助力,解决这个行业的普遍痛点,最终在“降本、增效和创新”这三个关键词上取得跨越性的突破。
“其实上云的问题,我们两年前就已经开始考虑了。首先术业有专攻,作为一家基因测序的公司,我们的主业不在IT;其次,我们希望能够和一家理解、懂得基因行业的云服务商合作。”
朱赢当时对比过好几家云服务厂商,前期在云化的过程中也踩了不少坑。而之后正式确定使用华为云,主要是因为与华为云在三个方面的高度契合:“一方面是华为云在软件层面,跟我们在IT规划上的理念比较契合;第二个方面是我们认可华为云在底层技术方面的实力,比如说它在全球电信网络设备、芯片方面的研发实力;最后一个方面是因为华为云在后端的技术支持和服务方面做得非常到位。”
朱赢坦言,华为云在云计算领域并不是启动最早的企业,但恰恰是这三个方面的契合,让希望组决定与华为云共同成长,在双方于各自领域即将腾飞的阶段,一起在云计算和基因行业实现更多创新举措,为两个领域的融合发展带来一些改变。
朱赢在谈到“理念契合”时强调,原先希望组就已经选定了用云容器(Container)技术方案来实现自己对于计算资源的多项需求,而华为云恰好将精准基因组分析容器化解决方案作为了业务重点。
华为云近年来一直在研发方面持续加大投入,先后推出了云容器实例(CCI)服务、FPGA加速云解决方案和基因容器服务(GCS)等创新技术。其中颇受希望组青睐的基因容器技术,已成为基因行业的首选。华为云基因容器的特点是能提供大规模的算力资源池,极大地提升基因数据分析效率,30X的全基因组测序(WGS)测序速度可提升近10倍。
同时,针对基因行业普遍存在的工具碎片化、开发语言多样、系统维护困难等瓶颈,华为云的基因容器解决方案也着重在“快、省、易、捷”这四字上做足了准备。
“快”,是指极速测序:支持10万容器规模,可以超高并发运行测序分析流程,可极大的缩短测序时长,面对大规模并发,得益于高性能容器批量计算平台Volcano的高效任务调度能力,可以避免任务的死锁、减少等待时间,进一步提升测序分析效率 ;
“省”,来自于高性价比:算力资源按需、按秒计费,CPU/内存根据业务诉求灵活配比,避免浪费,提升性价比;
“易”,在于免运维:基于Serverless架构的容器服务,集群资源自动化扩缩容,分析流程根据预置规则可以自动化触发和执行;
“捷”,就是一站式:将基因测序分析与数据挖掘能力统一到一套流程里面,避免多套系统操作带来的不便。
希望组与华为云联合打造的精准基因组分析容器化解决方案即将发布。该方案以华为云基因容器作为基础平台,结合希望组在基因行业内多年来的业务积累,更贴近基因测序行业客户的诉求,实现了更快、更易运维、更高性价比的结果。这套方案将希望组原有的单流程时长从22小时降低到了17小时,并节约测序成本30%。
华为云负责基因测序行业的解决方案总监严斌告诉懂懂笔记, “我们通过对客户深度的理解,更好地配合用户的需求,为他们提供底层的IT技术能力,同时也希望包括希望组这样的企业能够结合自身业务提出更多诉求,促使我们的研发团队提供更强大的支持力度,陪伴用户共同发展和成长。”
除了与客户共同成长,华为云还希望通过合作为基因行业的生态环境做出贡献,“为了更好地服务于基因测序行业,我们和希望组打造了联合实验室。初衷和目的就是满足基因行业客户的需求,能在第一时间快速响应、快速闭环,同时协力帮助行业创造更好的生态氛围。”严斌表示。
如今,通过与华为云的合作,希望组的200多位科研人员得以聚焦自身的核心工作,同时在融合创新中取得了更多基因领域的学术和技术创新,包括在权威学术期刊发表多篇论文,以及联合发布了基因行业的通用计算标准。
同时,在国内基因行业中Top15的企业已经有13家采用了华为云的服务。其中,上海其明信息技术有限公司在华为云容器CCI支持下,其基因检测与基因云计算的综合平台GCBI已完成25万例基因数据分析和挖掘、协助作出1万多次基于基因信息的临床决策。数据显示,将业务部署在CCI后,上海其明的实际计算成本降低了30%~50%,实现了K8S和物理资源免运维。
在AI辅助宫颈癌筛查领域,广州金域医学携手华为云取得了重大突破。今年6月中旬,双方联合宣布首次基于病理形态学,通过深度学习技术训练出精准、高效的AI辅助宫颈癌筛查模型。尤其在AI技术支持方面,华为云全流程模型生产服务ModelArts从标注、训练模型、图片判断、推理等方面,都为AI模型的训练和应用提供了极为坚实的基础。
另外,金橡医学携手华为云共建的肿瘤精准医疗基因大数据分析平台,图灵生物与华为云联合开发的生信数据分析处理平台——GenoStack生信云平台,峰科计算与华为云共同推出的基于FPGA的基因加速云解决方案等,都已经成为国内基因科学领域行业云化的成功案例。
数据显示,2016年国内参与消费级基因检测并拥有自身数据的个人用户总量约为10万人,2017年约为30万人。目前,中国个人基因检测服务的人口渗透率是0.03%,而未来5年这一数字会达到3.5%。
这些数字意味着,到2022年中国将有5000万人拥有自己的基因组数据。面对迅速爆发的市场需求,国内基因测序势必要加快全行业云化的步伐,以应对行业转折的机遇与挑战。
【结束语】
随着基因科学领域的全面发展以及数据中心的全面云化,基因测序行业“上云”是大势所趋。在基因测序领域,以数据分析、云计算为主导的IT技术已经成为驱动行业创新、变革的重要因素。通过强大的资源、完整而先进的产品组合以及强大的服务能力,华为云正在为更多基因测序和生物科技企业提供着差异化、专业化的服务,这也是华为云能在行业内Top15企业中合作率超过85%的主要原因。
基因测序企业的上云目标是降本、增效和创新,而公众对于基因测序的需求则是更加实惠、检测更快,以及实现自己对生命品质的高层次追求。于这两方面,相信华为云可以做到更多。