在人工染色体中存储图片和视频:天津大学元英进团队验证DNA数据存储新方法|NSR
天津大学元英进教授团队从头编码设计合成了一条长度为254,886 bp、专用于数据存储的酵母人工染色体,借助无线通信中前沿的纠错编码将两张经典图片和一段视频存储于高效组装的人造染色体,利用酵母繁殖实现了数据稳定复制,用便携式的三代纳米孔测序器件实现了数据快速读出与无错恢复。
近年来,随着合成生物学的快速发展,DNA信息存储由于其高信息密度与低能耗处理等特点,成为应对数据存储发展挑战的新机遇。2021年1月,美国半导体产业协会(SIA)发布的《半导体10年计划》,已将DNA数据存储列为未来海量数据存储的重要选项。
![](http://n4.ikafan.com/assetsj/blank.gif)
天津大学元英进教授带领跨学科团队,借助团队在酵母人工基因组化学合成领域的积累,设计合成了一条存储数字信息的酵母人工染色体,存储了两张图片及一段视频,并实现了数据的稳定复制与快速可靠读出。该工作首次将单菌内用于数据存储的DNA碱基数量提升到了百kbp级,容纳数据量为37.8 KB。日前,该研究以“An artificial chromosome for data storage”为题在线发表于《国家科学评论》(National Science Review, NSR)。天津大学微电子学院青年教师陈为刚副教授、化工学院博士研究生韩明哲以及周见庭助理研究员为论文共同第一作者,元英进教授为论文通讯作者。
![](http://n4.ikafan.com/assetsj/blank.gif)
人工染色体中存储的两张经典照片:1968年12月24日阿波罗8号机务人员威廉·安德斯拍下的“地球升起”(jpg;4029 Byte)和1957年Harold Edgerton首次结合高科技频闪灯与相机快门拍摄的“牛奶皇冠”(jpg;6624 Byte)。
人工染色体中存储的视频“母女”(一个通信领域常用的测试视频;mp4;26,092 Byte)
研究者从染色体的编码设计、组装与稳定复制、数据可靠恢复等方面展示了这种数据存储模式的潜力。
染色体的编码设计中,借助叠加伪随机序列应对三代测序的插入/删除(insertion/deletion)错误,采用现代通信中已广泛验证的低密度奇偶校验(Low-Density Parity-Check,LDPC)码纠正替代错误,实现了纳米孔测序高达10%错误率的数据可靠恢复。
染色体组装与稳定复制方面,设计插入一定数量的酵母自主复制序列(autonomously replicating sequence,ARS),提升的染色体稳定性,支撑高效组装和稳定复制。实验验证染色体稳定复制100代,依然能可靠读出数据。
数据读出过程中,利用三代纳米孔测序在大约10分钟获得足够的原始读段后,结合研究者设计的生物信息学与纠错译码混合流程,原始图片及视频可以从高错误率约10.79%的原始读段中可靠恢复,所需测序覆盖度仅为16.8x。
![](http://n4.ikafan.com/assetsj/blank.gif)
数据存储工作流程
该存储模式中,数据逻辑密度(包含载体)为1.19 bit/bp,与目前文献中指标最高的四进制编码DNA喷泉方案相当(Erlich and Zielinski, 2017)。文章进一步指出了该存储模式与传统光盘存储的相似性,也即一次写入,多次读出,低成本可靠复制和便携式读取。作者还提及了降低合成成本、构建多条人工染色体存储更多数据的可行性。