00 00 00:00:00 周几

从“阴阳”中获得灵感,华大团队研发全新“DNA硬盘”

科技 2022-04-26 17:14:02
5阅读

本文转自:深圳商报

读创/深圳商报记者 袁斯茹

起源于几千年前的中国古代哲学思想“阴阳”,为今天的大数据研究提供了灵感。4月25日,《自然-计算科学》发表一项来自深圳的最新成果,该研究开创了一套独具优势的“阴阳”编解码系统,用以解决当前DNA信息存储领域的技术难题。

研究由深圳华大生命科学研究院主导,深圳国家基因库、首都师范大学、美国哈佛大学等多个研究团队共同参与。

△此前,华大研究团队曾将《开国大典》影片存储于DNA中

存储信息,DNA是“资深前辈”

我们正处在前所未有的信息大爆炸时代。据估算,2025年全球每天将产生491EB数据,相当于每天制造出2亿张DVD光盘。如此海量数据,如何长期稳定存储?

2019年,“DNA数据存储器”入选《时代周刊》年度100项最佳发明。

如何用DNA存储数据?华大相关负责人用一句话进行了解释。所有信息在计算机中由二进制的方式存储,即0和1两个数码;而储存在DNA中的生物遗传信息,则储存在DNA中,以A、T、G、C四种碱基表现。“如果把信息语言的0和1,转换为生物语言的ATGC,DNA就有望成为‘完美’存储器了。”该负责人说。

事实上,在信息存储界,相较于现有的U盘、硬盘、磁带等,DNA可以说是坐拥数十亿年经验的资深前辈。

△科学家曾成功完成100万年前猛犸象DNA测序,证明DNA可存储信息时间之长

第一是超高的信息密度,2012年《科学》杂志文章指出,1克DNA理论上可以存储455EB数据,相当于数千万个1TB移动硬盘的大小;第二是超长的待机时间,DNA作为相对稳定的分子,其半衰期长达521年,在理想状态下甚至可保存成千上万年;第三是超强的生物兼容性,DNA作为绝大多数生物遗传信息的载体,相对无机物、金属等存储介质而言,具有更强的生物兼容性。

研究10年,“DNA硬盘”还有烦恼

从2012年开始,科学家们不断进行DNA信息存储的相关尝试,前期主要致力于解决信息密度和生物兼容性的难题。

2017年,科学家引进信息通信领域的编码方法——喷泉码,以条件过滤的方式筛选DNA序列,唯有满足筛选条件方可进行最终生成,基于此实现了对生物技术的兼容。

DNA喷泉码的诞生,几乎解决了此前的技术瓶颈,但实际应用中也出现灵活性与适用性的问题。

一方面,喷泉码技术的建立是基于通信技术领域的原理基础,对原始数据类型偏好较强,如需要01分布相对均匀等,因此面向生物与信息融合新兴领域的DNA存储技术应用,存在一定的局限性。另一方面,通信领域的信号传输是即时的、可及时纠错的,而生物领域的DNA分子存储是异步异时的,一旦发生部分信息丢失或错误,便存在原有信息无法恢复的风险。

如何在保证信息转换效率和技术兼容的同时,大幅提高信息恢复的稳定性?此次华大研究院主导的研究,从“阴阳”思想中找到了全新思路。

“阴阳”思想,解DNA存储难题

“DNA的双链模型,是否能如‘阴阳’一样对立、统一和互化?”基于此,研究团队开创了一套名为“阴阳”的比特-碱基编解码系统,验证了该系统在信息密度、技术兼容性、数据恢复稳定性等多方面的优势。

△DNA存储流程图,与传统信息存储的“信息写入-保存-读取”步骤类似

“我们以两套不同的规则,分别对两条二进制信息进行‘一对一’编译转换,再取两者统一交集的部分为最终解,实现将两条独立的信息组合统一为一串DNA序列。”华大相关负责人表示。

据悉,目前常用的保存方法分为体内和体外两种模式,两者孰优孰劣尚未形成明确定论。为了全方位验证“阴阳”系统的信息恢复稳定性,华大研究院团队通过体外DNA干粉和细胞体内大片段两种存储环境进行测试,皆实现了原始存储数据的完整恢复。

△“阴阳”编解码规则示意图

一方面,研究团队采用不同浓度的原始DNA文库溶液,进行了共200多组测试。结果证明,“阴阳”编码采用的线性数据恢复模式,在每种DNA分子的平均拷贝数仅有100时,仍然能恢复最高88%的原始数据。而同样条件下,DNA喷泉码使用的编码方式,平均恢复率仅有1.3%。

另一方面,团队还将信息存在了酵母活细胞的体内,酵母菌株经过1000代以上传代之后,信息仍可以被完美恢复。“这在一定程度上意味着,利用活体细胞作为DNA存储的载体,上千年后原始信息或仍能被解读,”华大表示,“这样一来,每克DNA能存储的信息量约为432.2 EB,接近于天然DNA分子存储理论极限的物理信息密度。”

the end
免责声明:本文不代表本站的观点和立场,如有侵权请联系本站删除!本站仅提供信息存储空间服务。