今日中国


DNA:终极存储


2013-04-17 15:21:03     作者: 马 迪    字号: T|T    来源:

“信息爆炸”这个词已经落伍了,现在流行“大数据”。据美国互联网数据中心IDC估算,互联网上的数据洪流正在以每年50%的速度增长。目前全世界90%以上的数据都是最近几年才产生的,其总量之大,已经无法用GB或TB来衡量了——“大数据”的起始计量单位是普通人闻所未闻的PB(1000TB)、EB(100万TB)、ZB(10亿TB)和YB(1000亿TB)。

新的信息正在不断涌来。如今主流的磁存储(如磁带、硬盘)、光存储(如蓝光DVD)、硅存储(如闪存盘)已经逐步接近传统电子制造的极限,很难走得更远了。我们那些无处安放的数据该如何是好呢?

1克能存700T

近日,哈佛大学的生物工程师和遗传学家成功开发了一项新技术,将一本5.34万字的书籍、11张图片和一段Java程序存进了不到一沙克(亿万分之一克)DNA中。按照这种比率,1克DNA将能存储700TB数据,相当于1.4万张蓝光光盘,或233个3TB的硬盘。团队负责人乔治·切尔奇表示:“今后,拇指大小的设备或许就能存下整个互联网的信息。”

作为天然的生物数据库,DNA是当前已知存储密度最高的介质。4种碱基(鸟嘌呤G、胸腺嘧啶T、腺嘌呤A、胞嘧啶C)两两相对相互缠绕,构成阶梯状的螺旋结构。碱基对排列顺序千变万化,一个最短的DNA分子也有 4000个碱基对,排列方式有44000种。理论上,一毫克DNA便可将整个美国国会图书馆纳入囊中,尚且绰绰有余。把DNA作为储存介质并非首次尝试,每次研究成果出炉都颇具科幻色彩。麻省理工学院的乔·戴维斯早在1986年便将5×7像素的电子图片编码录入到DNA中。2007年,日本科学家成功使用细菌DNA储存数据,去年又有台湾国立清华大学和德国一研究所合作,用三文鱼的DNA制造出单次写入、多次读取的存储器。

他们的共同之处在于,都是向活体DNA里写入数据,这显然面临诸多困难:因为细胞会死亡、分裂、复制甚至变异,这对其中存储的数据将是致命性的打击。

合成DNA生物硬盘

为了避免以上的问题,此番哈佛的科学家们采用了人工方法合成DNA,与生物体所用“遗传语言”有着完全的区别。切尔奇说:“DNA原本就是一个自然数据库。它记录着与生命有关的一切数据。我们只是简单地利用它的高容量达到一些新的目的。”他表示,此次研究将之前使用DNA存储数据容量的纪录提高了1000倍。

研究人员先将文件(包括图片、文字、java程序)转为HTML格式,并将它们编为由 0和1组成的2进制数据,然后将2进制数据转为4种碱基(胸腺嘧啶和鸟嘌呤=1,腺嘌呤和胞嘧啶=0),最后对基因序列进行合成。每一个DNA片段还包含一个“数字条码”,记录它在原始文件中的位置。读取数据其实就是为DNA测序:先按照“条码”将所有DNA片断排列顺序,再还原成二进制格式的数据。

但将数据“写”入DNA实际上非常困难。目前已有的合成仪一般只能连接20到30对碱基,再长就难以实现了。与写入数据费时费力相比,利用测序仪来读取DNA存储数据虽然速度也不快,但是拥有大幅提高的可能。

微流体技术的发展让DNA测序变成了一项较为简单方便的工作。在此之前,人类基因组计划为含有30亿对碱基测序要耗费数年的时间。现在,在微流体芯片的帮助下,这项工作只要几个小时就能完成。如果用于长期存储,这样的速度还是可以接受的。

突破传统存储的极限

与目前流行的存储方式相比,DNA存储的绝对优势就是单位存储量大。这不仅与四位运算的特性有关,也与DNA特有的双链螺旋结构有关。这一结构利用了整个立体空间,比磁介质和光介质的平面存储更具优势。

此外,合成DNA的稳定性也很优秀。切尔奇认为,“我们都知道DNA是一种很稳定的存储信息的介质,因为我们可以从千万年前的猛犸象的骨头里提取DNA,可见它能保存非常长的时间。”

现在的问题是,DNA 存储和读取都很耗时,且昂贵得惊人(目前每MB需要1.24万美元),如何覆盖和重写数据也还是个问题。有科学家推断,如果人工合成DNA和测序的成本以现有速度持续下降,利用DNA存储数据的商业服务将会在未来50年内迅速成长。等到DNA存储技术成熟,我们就可以把全人类的信息资料都存储起来。几百公斤的DNA就能够胜任这个工作。

“你可以用电子邮件把有价值的文件、相片和材料寄给DNA存储公司,一天或一周之后,他们将寄给你一点点DNA。你可以把它放在冰箱中,或者埋在花园里。成千上万年之后它们依然会完好如初。”这无疑是一幅令人向往的远景。

此外,作为生物介质之一,DNA存储与人体更具“亲和力”,未来有一天也许可以嵌入人体内工作。虽说逃不开细胞死亡和细胞分裂的问题,但短时间内保障数据的安全是没问题的,在某些特殊情境下(比如007系列电影内)完全可以采用。

到2020年,全世界所产生的数据量将跨过40ZB大关。这些大组数据并非由人类亲自写就,而是由机械,包含机械传感器和与其他设备通信的智能设备所创造。届时,摩尔定律可能将不再适用,它所阐述的趋势——集成电路上可容纳的晶体管数目大约每两年便会增加一倍——可能也会不再延续。DNA或将作为存储领域的主要继任者,在未来成为一种更好的选择。

在线订阅

在线试读 杂志订阅

今日中国 2013-12

中国改革进入深水区,2013年11月召开的十八届三中全会,对中国全面深化改革做出了总体部署,明确提出到2020年改革要取得决定性成果,形成更加成熟定型的制度体系。

微博互动