存储新图谱:DNA 存储的边界与天地
数字信息时代,无论是生产数据的各大视频网站、应用平台等,还是消费者们使用的各类电子设备,都无不在时时刻刻产生数据。
拿自动驾驶举例来说,平均每辆自动驾驶车每天产生的数据量高达 10TB。根据 IDC 机构的预测,2020 年到 2025 年间,全球生成的数据 (包括新数据和副本数据) 量预计复合年增长率为 23%,到 2025 年达到 180ZB,每天几乎产生 490EB 的数据。
数据也成为继土地、劳动力、资本、技术之后的第五种生产要素,所有基于数据的挖掘和增值都离不开存储。存储成为数据应用的基础,其存储方式也随着数据量的激增与需求不断发生变化。在信息与技术的不断发展演进中,存储开始面临不少的挑战。
存储设备、介质(磁性材料和半导体材料)随时间的老化与更新不及时,存储维护成本高,存储密度的局限以及能源功耗大等。这些现实的困境驱动业界开始寻找更好的替代方案,满足不断增高的性能、低功耗、稳定性等需求。
DNA 存储成为基础的新存储技术被作为优先的研究方向,以解决数据存储中存在的负荷与问题。我们经常会在新闻中看到,考古学家通过什么 DNA 测定,了解到几百年、几千年的信息。据悉,在合适的条件下,DNA 可以持续存在数十万年,甚至几百万年。
不考虑 DNA 的其他存储特性,仅仅凭借着恒久的保存时间,我们的数据也有可能成为和"化石"一样的存在,这个特性就十分值得我们长久地下功夫去研究与投资。当然,DNA 存储的优势不止如此。
存储效率的千倍提升
简单来说,DNA 存储原理就是将 DNA 分子中的碱基序列与存储信息编码一一对应,将文字、图片、声音等信息转化为 DNA 序列进行存储。这是一门需要多学科交叉的高精尖技术,涉及生物、计算机、化学等学科。
在生物分子中储存信息,非常复杂。科学家们将目光与精力投入到 DNA 存储的领域,最根本的原因是看重其极高的存储密度特性。据悉,1 克 DNA 即可储存 215PB 的信息,而硬盘的存储量不过几 TB。要知道,1PB=1024TB=1024X1024GB,按照高清电影每部 10GB 算,1 克 DNA 能够存储 2.2 亿部电影。与此同时 DNA 存储的维护成本也相较数据中心低很多。在能耗方面,1GB 的数据硬盘存储能耗约为 0.04W,而 DNA 存储的能耗则远远小于硬盘存储能耗,可忽略不计。
在数据量日渐激增的信息时代,高存储密度,低成本维护与低能耗储存信息的方式,使得科研机构与资本都将精力与金钱押码在这个可能成为未来主流存储方式。不过虽然有资金与科研的投入,但其进展仍较为缓慢。我们能在公开渠道中看到的成果都是实验室的最佳成绩。例如 2012 年,哈佛大学研究人员用 DNA 储存了一本五万字的图书。欧洲生物信息研究所在 DNA 储存了莎士比亚的十四行诗以及马丁・路德・金的演讲《我有一个梦想》的录音带。
从上世纪 50 年代提出,DNA 的数据存储研究的进展一直缓慢,没有什么较为重大的变化。不过在近两年,DNA 存储的技术开始有了一些新的进展。近日微软研究院对外宣称,研究出新的分子控制器,使得 DNA 的存储写入的速度相较以往提高了 1000 倍。微软研究院作为 DNA 数据存储的早期入局者,2015 年开始进行相关研究,直到 2019 年才有研发进展,到如今速率千倍的升级,还是着实下了一番功夫。
与此同时,国内的东南大学生物科学与医学工程的刘宏团队也实现了 DNA 存储的新突破:立足自主开发实现了 DNA 合成与测序环节的一体化,仪器设备也实现了小型化。DNA 存储在国外的技术路线大都是存储的合成与测序环节分开进行,需要大型的仪器设备,操作也相对复杂一些。刘宏团队将仪器设备等朝着便携式改进了许多。
佐治亚理工学院 (GTRI) 近期也公布了新进展,他们的团队设计了一种微芯片,可以显著提高以 DNA 形式写入数据的速度。该团队预计将比当前的 DNA 存储技术提高 100 倍。
研究机构的各种进展也使得嗅觉灵敏的投资机构风闻而来,中科碳元(深圳)、密码子(杭州)等创业公司获得数千万的天使轮融资。
而政策方面,DNA 存储已经成为国家层面部署的重点发展方向。国家"十四五"规划中提到要加快布局量子计算、量子通讯、神经芯片、DNA 存储等前沿技术。我们可以看到,DNA 存储在政策、资本与技术的集中发力中开始蓄势待发,不过对于这类高精尖的技术来说,距离其真正的商业化落地进程还尚早。
难以突破的结构性障碍
虽然 DNA 存储具有较为明显突出的优势,政策、资本等也在全方位的支持,应用的前景广阔,但商业化的进展仍然十分缓慢。其最大屏障来自于其存储技术本身。
为了便于理解 DNA 存储的面临的技术困境,我们简单介绍一下 DNA 存储数据的过程。主要分为以下五个步骤:编码 -- 将数字信息编码为 DNA 序列;合成 -- 将序列融入实际的 DNA 分子;存储 -- 将合成的 DNA 片段保存在载体或细胞中;访问 -- 检索和选择性读取序列信息;解码 -- 将测定的序列信息转换回数字信息。
在整个存储的过程中,编码与合成是 DNA 存储中较为关键和困难的环节。尤其是 DNA 的合成过程最为艰辛,在碱基序列融入 DNA 分子的过程中,很容易随机损失掉合成的 DNA。
而编码是 DNA 存储中成本与难度较大的环节,不过随着 AI、纳米微孔等技术的发展,编码环节的难度与成本都开始逐渐降低。
DNA 存储的合成过程使得数据输入和读取的效率无法提上去,花费的时间较长、成本较高。据佐治亚理工学院 2021 年 12 月披露的信息称,DNA 存储速度提升到了每天写入 20GB 数据,这是目前已知 DNA 存储最快的写入速度,而目前固态硬盘的读写速度最快大约为每秒 500MB。
成本方面,2017 年哥伦比亚大学的实验显示,合成 2MB 的 DNA 数据需要 7000 美元,而读取数据需要 2000 美元,如果用户需要以 DNA 形式储存 1GB 的电影,编码大约需要花费 358 万美元,而读取数据还需要 102 万美元。DNA 存储技术的读写速度与成本,大大制约了其规模商业化的发展。
另外一个较大的影响因素跟科研人才相关,由于 DNA 存储技术领域的强学科交叉性,必须依靠计算机、生物、化学、数学等多个相关学科的协同,这也就对科研人才的复合能力水平要求较高。
当然除了技术的进阶、人才的需求以外,存储的便携式要求也是其较为重要的发展方向需求。对于这类高精尖技术的设备,传统的设备都较为笨重,便携式的优化也困难重重。总的来说,DNA 存储的各个环节都有较多的难关需要克服,DNA 存储真正意义上的走入商业市场,进一步发展成为主流的存储设备,还需要长时间的沉淀,才能让 DNA 存储技术有实质的进阶。
终极存储:深空与亘古
对于数据的存储来说,多元化、智能化、绿色化是其主要的发展风向标,尤其是绿色的数据中心是主推的发展方向。
据研究机构预测,若能源利用效率得不到持续提高,数据存储用电量到 2030 年可能增长到全球用电总量的 3% 至 13%。数据存储的能源功耗令人担忧,降低能耗将成为数据中心建设的首要目标,存储设备作为数据中心中最为耗能的设备,成为革新的排头兵。
目前改进常见的思路是从存储设备的硬件层面进行考量,如架构设计、芯片、硬盘介质等。而 DNA 存储可谓是存储的终极进化方向。据悉,麻省理工学院生物工程教授 MarkBathe 称,理论上,一个装满 DNA 的咖啡杯就可以存储世界上所有的数据。如果未来可以实现,DNA 存储一定会革新存储领域的格局。
在生物科技领域,近年来因为人工智能技术的飞速发展,一些生物科技和人工智能交融的方面,例如蛋白质的结构预测、新药的研发、制备都有了质的飞跃。DNA 存储在 AI 技术的加持下,其编码的环节效率也获得了极大地提升。未来随着纳米技术与 AI 技术的加持,DNA 存储的技术也会一步步解除智识的限制禁锢,逐步升级,为存储领域带来质的飞跃。
当然 DNA 存储除了数据的存储外,也有一些新应用方向的可能。比如,可以把个人健康历史数据存储进 DNA,这种存储方法与人体更兼容,医生可以随时的调用参考这些病例数据,更加精准全面地进行治疗,改善病患的健康情况,甚至促进寿命的增加。
未来人类深空宇航飞行的时候,可以用 DNA 存储信息,只要制备适宜的保存条件,这些讯息就会留存,向宇宙深处传播;也可能存在这种情形,新人类在考古的时候,发掘出我们存储在 DNA 的彩蛋,DNA 的数据展开是一部先辈留存的文明与技术讯息,诉说着我们的辉煌与经验,感觉有种终极的浪漫。我们最后要留下什么传承,如何实现这个技术,这个终极的存储进化值得我们去研究与等待。
2022-05-06 00:37:25