技经观察 | DNA存储有望成为下一代存储介质的技术方向
纵观数据存储历史可以发现,随着人类社会数据量的不断增加,存储介质也在持续不断地迭代变化。人类历史的脚步不会停下,碳基生物存储尤其是DNA存储是我们不得不关注的重要前沿技术方向。
DNA是已知最古老的信息存储系统,存储着碳基世界中从微生物到人类的亿万生命数据。人类的存储介质经历了从骨骼、毛皮、竹简、纸到电脑硬盘的演变,但在DNA上“写入”和“读取”数据似乎只是造物主才能做的事情。近年来,随着DNA合成技术(数据写入)和DNA测序技术(数据读取)的突破性发展,DNA存储已成为下一代存储技术热点。2019年7月1日,著名科普杂志《科学美国人》公布了2019年十大突破性技术榜单,DNA存储技术榜上有名。
5G通信、万物相联、人工智能……在大数据时代的未来,虽然传统存储硬盘随着科技进步在不断优化提升,但人类社会日益增长的信息数据的存储需求,必将使传统存储硬盘面临巨大挑战。有数据显示,2015年至2019年期间,机器对机器间的流量以44%的年复合增长率增长,并且到2020年全球每月将产生高达6.3ZB(1ZB>10亿TB)的数据量。这必然造成硅基半导体材料的巨大消耗、数据维护期间的电力供应问题以及海量电子垃圾引发的生态环境危机。
相比之下,一个边长约1米的DNA立方体就足以容纳等量数据。DNA存储技术以其体积小、数据密度大、稳定性强、能耗极低等优势,成为解决未来因数据爆发产生系列危机的潜在技术路径之一。此外,人工智能尤其是类脑智能的发展,硅基人工智能在未来或有向更高层次的碳基人工智能发展的可能性。届时,DNA存储技术将成为不可或缺的配套技术之一。
一、DNA存储简介
DNA即脱氧核糖核酸(英文Deoxyribonucleic acid的缩写)是磷酸基团、多糖和四种碱基构成的双螺旋结构大分子,是主要的遗传物质。DNA四种碱基A、T、G和C的排列顺序代表遗传信息,控制合成不同功能的蛋白质,用以构建生命体和催化一系列体内生化反应。
DNA存储是将二进制文件通过编码映射成DNA里A、T、G和C碱基序列,按序列顺序通过人工合成技术形成长链DNA来保存数据的方法。数据写入即人工合成DNA,数据读取即DNA测序,数据拷贝即DNA复制。利用DNA中碱基序列编码存储二进制数据具体实例如下所示。
二、DNA存储的优势与挑战
DNA存储的优势显而易见。一是数据密度大、占地小。理论上1克DNA可存储455EB数据量。二是DNA特殊的双螺旋结构使其性能十分稳定、存储时间长。在干冷条件下可保持数万年以上,常温下可保持几百甚至上千年。三是能耗低。常温保存时基本不需要电力。
但该技术的挑战也与之并存。一是成本过高。目前DNA存储200MB数据需要耗资80万美元。二是读写速度慢。在DNA中写入20MB数据可能需要1天时间。近年来,“数据读取”技术(DNA测序技术)发展较快,代表性企业包括Pacbio、Illumina和华大基因等公司,但“数据写入”技术(DNA合成技术)发展慢,需要较大的理论和技术突破。三是数据存储的准确性有待提高。目前DNA测序时的重复读取导致读错概率较大。四是随机读写困难。目前DNA合成技术无法一次性产生较长的DNA分子,只能合成众多的短片段。这使得在众多DNA小片段组成的混合物中快速调取出特定数据较为困难。
三、DNA存储技术不断获得突破
实际上,DNA存储并非新名词,相关研究已持续了30余年。1988年,美国艺术家Joe Davis与哈佛大学科学家合作,首次把0与1的电子数据和DNA的四个碱基对应,将古日耳曼代表着生命和女性的图片编辑到大肠杆菌的DNA序列中。2001年,以色列科学家研制出世界第一台DNA计算机,它的输出、输入和软硬件全由DNA分子组成。2007年,日本科学家成功使用细菌DNA储存数据。2010年,美国合成生物学家克雷格·文特尔带领研究团队化学合成了整个支原体基因组DNA,并将该课题研究者的名字、研究所网址和爱尔兰诗人詹姆斯的诗句等信息编码进新合成的DNA中。
而当美国哈佛大学教授乔治·丘齐在2012年将650KB数据写进DNA,使DNA存储数据容量的纪录提高了1000倍后,DNA存储技术进入快速发展的新时期。
2013年,欧洲生物信息实验室(EMBL)将20MB数据写进DNA存储;2016年4月,美国微软公司向美国生物科技初创公司 Twist 购买了1000万个DNA分子,用于研究数据储存。同年7月,微软公司和华盛顿大学分子信息系统实验室(MISL)合作,耗资约80万美元将200.2MB的数据(包含100本书籍的信息)成功存入DNA。2017年,微软公司投资20亿美元,为其高能耗的数据中心开发DNA服务器,并计划在10年内部署一台复印机大小的商用DNA存储装置。同年,美国哥伦比亚大学和纽约基因组中心研究人员开发一种喷泉码技术,使DNA高效存储数据和无损读取,并将DNA存储效率在乔治·丘齐技术水平上再提高100倍。2018年,爱尔兰沃特福德理工学院(WIT)研究人员开发出一种新型DNA存储方法,可在1克大肠杆菌DNA中存储1ZB的数据。
2019年3月,美国微软公司和华盛顿大学的研究人员开发出一个完全自动化的系统,用于编写、存储和读取DNA编码的数据。虽然成本和耗时依然居高不下,但全自动合成和读取是DNA存储技术从实验室走向商业数据中心的关键步骤。
四、DNA存储技术受到西方科技强国重视
DNA存储技术具有解决未来社会因数据量激增引发的一系列挑战的潜力,尤其是近些年DNA存储技术的难点不断被攻克,商业化应用曙光微显。西方科技强国们敏锐地嗅到DNA存储技术的前景,纷纷走上DNA存储的餐桌,不愿缺席这场未来技术盛宴。
国家层面。美国在DNA存储技术方面的研究一直处于世界领先地位,政府层面也高度重视该技术的发展。2018年2月,美国高级情报研究计划局(IARPA)发布“分子信息存储”(MIST)项目,旨在开发可部署的存储技术,利用DNA存储取代传统存储方式。IARPA项目经理David Markowitz表示,建设一个10亿GB的数据中心需要10年时间,花费100亿美元以及数百兆瓦的电力,但存储相同的数据量仅需1千克DNA。英国政府也注意到DNA存储技术的应用潜力,资助Goldman等科学家成立专门的公司,用于研发下一代DNA存储技术。此外,以色列、爱尔兰、法国和日本等国也纷纷开展了DNA存储方面的研究工作。
研究机构层面。美国哈佛大学是全球最早开展DNA存储技术研究的科研机构,积累了丰富的研究成果;华盛顿大学的DNA存储技术也处于世界领先地位。此外,美国的加州大学、约翰霍普金斯大学、伊利诺伊大学、劳伦斯伯克利国家实验室、哥伦比亚大学和纽约基因组中心;欧洲生物信息研究所;法国的查尔斯-赛德伦高分子研究所和艾克斯-马赛大学;爱尔兰沃特福德理工学院和瑞士苏黎世理工学院等高校或科研机构均开展了DNA存储技术的相关研究并纷纷取得突破性成果。
企业层面。美国微软公司是当前全球研究DNA存储技术最活跃的高科技公司。值得一提的是,微软公司近年来经过一系列变革和战略调整,积极投身云计算、生物存储等业务,公司市值由2013年的2000多亿美元增长到2019年的破万亿美元,成为全球市值最高的上市公司。微软对DNA存储技术的重视,值得重点关注。除传统科技巨头外,近些年DNA存储行业也涌现出众多初创科技企业,如美国Catalog公司、Molecular Assemblies公司、Twist Bioscience公司和Iridia公司等,以及英国的Evonetix公司、法国的DNA Script公司、爱尔兰的Helixworks Technologies公司和奥地利的Kilobaser公司等。
五、DNA存储技术的战略意义及相关建议
(一)DNA存储技术具有重要战略价值
传统存储器的主要材料是硅晶片,其制作需要熔融、切割、刻蚀和清洗等过程。伴随着数据存储需求激增的同时是硅晶片使用量的激增,以及由此造成的环境污染问题、水资源和能源消耗问题等。此外,硅基半导体的摩尔定律也在走向物理极限。另一方面,5G通讯的普及将促进物联网社会的构建,海量电子元器件必然产生电子垃圾泛滥的新问题。DNA存储技术将在减少半导体材料、电力能源、水资源的使用,减少化学工艺造成的废水废物排放,尤其是使用可生物降解的DNA代替不可降解的电子垃圾等方面,或可发挥重要作用。因此,DNA存储技术对国家开发替代性的数据存储介质、维护生态环境安全和能源安全等具有重要战略意义。
(二)DNA存储技术或将增加数据管理难度和数据失窃风险
存储数据的DNA可整合到细菌基因组、动物基因组甚至是人类基因组(如手指的一小块细胞群,不会对整个身体基因组造成影响)上,数据可随细胞复制而拷贝扩增。DNA存储技术或将使生物体尤其是人体成为自由行走的“硬盘”。DNA因其微型性、生物相容性等隐蔽性特点,以及非金属材料导致的传统安检设备失效,将严重冲击当前的数据管理模式。尤其是某些人员通过DNA秘密携带重大机密数据出入海关,将增加数据失窃风险。西方科技强国在DNA存储领域的快速发展,使我国数据安全面临新挑战、新变局。密切跟踪全球DNA存储技术的研究进展,积极促进和提升我国DNA存储技术的研发能力,与时俱进更新数据管理理念和模式,研发DNA存储相关的新型监测和监管设备,是我国面对DNA存储技术挑战的重要应对之策。
(三)DNA存储技术或将成为特殊加密用途的数据存储手段
DNA存储作为一种新兴多能的存储方式,或将成为军事领域、经济领域等特殊加密用途的数据存储手段。军事应用方面。美国科学家曾在1999年发表过“DNA隐写术”的文章。研究人员将“JUNE 6 INVASION:NORMANDY”(6月6号入侵:诺曼底)这段历史上的军事密令转化成100bp左右的DNA信息,然后将该DNA与30亿bp的垃圾DNA信息混在一起。只有通过密钥(也就是一对引物)进行PCR扩增获取目的DNA片段,测序后解码方可获得该信息。金融应用方面。近期,Facebook推出了电子加密货币Libra,一石激起千层浪,众多国家央行高度警惕和密切关注,不少大型企业也蠢蠢欲动推出自己的电子加密货币。从比特币到Libra,电子货币似乎将成为未来社会的一个重要趋势,而个性的、稳定的和安全的新型存储方式也就成为必然需求。美国初创公司Carverr推出将数字货币密码存储在DNA中的服务,以保护数字货币财产,28位客户已与其签约。Carverr公司目前还在与银行和其他大型加密货币控股公司进行谈判,以扩大服务范围。
(四)其他生物存储技术也值得重点关注
近期,除DNA存储技术外,其他生物存储技术也涌现出新成果。例如,2019年5月,美国哈佛大学开发出利用蛋白质存储数据的新技术。该技术减少了合成新分子的难度和消耗时间,同时避免了从线性DNA大分子中编码和读取数据的难题。7月,美国布朗大学将2000bp数字图像数据储存在含有糖、氨基酸和其他类型小分子的液体混合物阵列中,并能够在其中进行数据检索。据称,小分子代谢物具有比DNA更大的信息密度。
传统半导体存储方式或许在未来一段时间内仍将占据数据存储方式的主流,而包括DNA存储、蛋白质存储和小分子代谢物存储等形式的碳基生物存储方式在技术层面尤其是成本方面还有很长的路要走。但是,纵观数据存储历史可以发现,随着人类社会数据量的不断增加,存储介质也在持续不断地迭代变化。人类历史的脚步不会停下,碳基生物存储尤其是DNA存储是我们不得不关注的重要前沿技术方向。
作者简介:
刘发鹏,国务院发展研究中心国际技术经济研究所 研究二室 助理研究员