研究团队提出了一种在DNA链中存储信息的方法

描述

合成DNA作为一种高密度数据存储介质,多年来一直吸引着数字未来学家。整个互联网可以被编码成鞋盒大小的DNA链,而DNA分子非常稳定,可以持续数万年甚至几十万年。例如,2013年,科学家们对一具70万年前的马化石的整个基因组进行了测序。

一旦储存起来,DNA几乎不需要任何维护。毕竟,化石在地下生活了数百万年后仍然保存着DNA序列。DNA存储也不需要任何能量--在有人决定访问它之前,只需要一个凉爽、黑暗的地方就可以了。

然而,将一种数据格式转换为另一种格式并不简单。德克萨斯大学奥斯汀分校(University Of Texas At Austin)的研究团队提出了一种在DNA链中存储信息的方法,同时也纠正了错误。他们开创了一套DNA数据编码和解码算法,可能会开创高密度、长期数据存储的新领域。

其工作让人想起了开创量子密码技术领域的里程碑式的BB84 protocol,有朝一日,它将成为基因组数据存储应用领域的基础,而基因组数据存储应用是以每克千兆字节为单位重新想象而来的。

Stephen Jones是Press所在小组的博士后,也是《美国科学院院刊》(Proceedings of the National Academy of Sciences)论文的合著者,他说,最好从了解数据存储错误通常在哪里蔓延开始。

像所有的数据存储方法一样,DNA也有一些缺点。最重要的前期障碍是成本。除此之外,DNA也容易出错。回想一下组成DNA阶梯的四个核苷酸碱基。平均而言,DNA在每100到1000个核苷酸中会引入一个错误。它们可以采取三种形式:替换、插入和删除。

在替换突变中,一串核苷酸中的一个字母可能会被换成另一个,DNA链的长度保持不变。然而,在插入或缺失时,DNA会获得一个额外的核苷酸碱基,或者移除一个碱基。但与计算机代码中的错误不同的是,在移除的碱基曾经居住的地方没有留下任何空间,当你去解码存储在DNA中的数据时,这可能很快就会出现问题。

事实上,DNA数据存储的相对性质是Press,Jones和合著者的HEDGESprotocol的关键。他们的研究方案中没有一个单独的核苷酸包含有用的数据。相反,正是核苷酸序列的积累提供了一个强大的存储系统,他们预测这个系统可以实现DNA的高密度潜力,同时还能经久不衰。

研究小组使用了L. Frank Baum的The Wizard of Oz,并将其翻译成世界语,作为他们要存储的样本数据集。Jones说,现在合成的DNA通常是由大约100对碱基组成的。这就是他们的“硬盘”的基础。

因此,他们的研究方案需要能够被分割成数千或数百万的几百个核苷酸序列,每一个序列都包含重组源文本所需的信息,即使存在未知数量的替换、插入和删除错误。

然后,将The Wizard of Oz编码成DNA,涉及到通过“外部”编码层和“内部”编码层传递数据。(将这些步骤看作是复杂密码标准中的两个独立算法。)

外层将源数据对角化,这样任何给定的DNA链都将包含信息许多部分的碎片。内层,即模糊限制,然后根据一种算法将每一位转换成A、C、T或G,该算法既依赖于该位的零或一个值,又取决于它在数据流中的位置的附加信息,以及它前面的数据位。

然后,一旦Oz被翻译成核苷酸的语言,它就可以被写在合成的DNA链上了。

“我把DNA打得粉碎,”Jones表示,“它显示了DNA是多么强大。”从DNA存储器中解码数据需要首先对the Wizard of Oz的基因组进行测序,然后将这些遗传数据转换回位。一旦他们弄清楚哪些位是“address”位,他们就可以将剩余的信息位串回到一个单独的、连接的数据文件中。

博士后研究员、合著者John Hawkins表示,“展望未来,基于DNA的存储的潜力几乎是无限的。他提出了一种未来的愿景,在那里,用数据编码的DNA可以被合并到其他材料中。”

即使团队已经取得了突破,但基于DNA的数字存储还需要一段时间。研究人员表示,“数据能否保存到未来只是问题的一半。你还需要在另一端能够阅读。只要人类是由DNA构成的,我们就会一直希望周围的机器能够读取DNA。但我不认为它会在十年或更长时间内可成为大众市场产品。”

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分