大数据文摘出品

来源:微软

编译:林安安、夏雅薇、周素云

现代存储技术已经无法满足字节的海啸式增长,但是大自然也许已为这个难题提供了解决方案。

比如,DNA。

上个月,来自微软和华盛顿大学的研究人员宣布:以人工合成为DNA为载体的存储和读取数据的全自动系统研制成功,迈出了该技术从研究实验室走进商业应用关键的一步。

在一次概念验证测试中,该研究团队成功地在人工合成的DNA片段中编码了“hello”一词,并使用全自动端到端系统将其转换回数字数据。

其实早在2016年7月,微软和华盛顿大学的研究人员就已经宣布,利用DNA存储技术完成了约200MB数据的保存,相对于当时最大存储为739KB的EBI文件来说已经实现了信息存储了飞跃。

该研究声称,如果信息封装密度像大肠杆菌的基因那么高,全世界的存储需求可用1千克的DNA来满足。

这一结果发布在当年9月份的《自然(Nature)》杂志上。

两年多的时间过去了,微软和华盛顿大学的研究人员又取得了新突破:不仅存储量翻了5倍——能够在DNA中存储1000MB的数据,还实现了从存储到提取信息的重大突破。也就是说,用DNA存储数据已经成为可能。

该研究结果发表在一篇名为《DNA自动存储端到端自动化演示》的论文中,并于3月21日出版在Nature Scientific Reports版块。

论文链接:

https://www.nature.com/articles/s41598-019-41228-8

人工合成DNA存储

DNA存储数字信息的空间比目前建造的数据中心要小好几个数量级。我们每天都在产生海量数据,从商业信息到可爱的动物视频再到医学扫描图像和外太空图像,因此DNA非常适合用来存储大规模的数据。

微软首席研究员Karin Strauss称:“我们的最终目标是将一个全自动系统投入到实际应用。对终端用户来说,这类似于云端存储服务——将数据上传到数据中心并存储在那里,用户随时可以查看并下载云端数据。要做到这一点,我们首先需要从自动化角度证明这是可用的。”

华盛顿大学的高级研究科学家Chris Takahashi说:“信息存储在人工合成的DNA分子中(而不是人类或其它生物的DNA分子),并且可以在发送到系统之前进行加密。 虽然这个过程的关键部分可以由DNA合成器和DNA测序仪等机器完成,但到目前为止,许多中间步骤都需要在研究实验室中进行人工操作,这在实际应用中是很难实现。”

“总不能让一群人带着移液器(一种用于定量转移液体的小型器具)在数据中心里四处奔跑,而且移液器在使用过程中容易出现人为错误,成本也很高。”

从信息存储商业化的角度来看,人们需要降低合成DNA的成本,包括合成存储信息的DNA双链和提取信息的DNA测序。

自动化是DNA存储商用关键

微软的研究人员说,自动化是另一个关键因素,因为它可以实现商业级规模的存储并极大降低成本。

现有的存档技术在几十年内将不再适用,而DNA存储信息的时间要比它长得多。比如说:DNA可以在猛犸象牙和原始人骨骼中存在数万年。

值得强调的是,这还不是理想的储存条件。DNA包含的遗传密码是通用的,也就是说自然界所有生物共用同一套遗传密码,基于此,理论上来说人类可以解读所有生物的遗传信息。

DNA是由四个碱基:腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)和鸟嘌呤(G)构建而成的。微软和华盛顿大学联合开发了一套DNA数据自动存储系统,将数字数据的1和0转换为构成DNA的A、T、C和G,然后将其它必要反应液注入合成器,合成器就能合成DNA片段并将其推入储存器。

将1和0 转换成DNA的A、T、C、G

当系统需要检索信息时,它会添加其它化学物质来提取所需的DNA,并使用微流体泵将液体推入系统的其它部分。接着“读取”DNA序列并将其转换回计算机可以理解的信息。

研究人员表示,研究项目的目标不是要证明系统能够以多快的速度或多低的成本运作,而只是为了证明自动化是可行的。

DNA自动化存储系统的一个直接好处是,它可以让研究人员从繁复的实验中挣脱出来,去解决更深层次的问题。

微软研究员Bichlien Nguyen说:“自动化系统能进行重复性的工作,这使得人们能够从更宏观的角度制定新策略,从根本上进行更快的创新。”

分子信息系统实验室的团队已经证明DNA可以存储宠物照片,文学作品,流行视频和档案信息,并且在检索数据的过程中不出错。

研究人员还开发了一些技术来执行很有意义的计算任务——比如只搜索包含苹果或绿色自行车的图像,使用的是DNA分子本身,而不必将文件转换回数字格式。

华盛顿大学的Luis Ceze教授说:“我们肯定会看到一种新型计算机系统的诞生,人们可以使用DNA分子存储数据,用电子设备进行控制和处理。将DNA和计算机结合到一起为未来提供了无限的可能。”

人类的DNA存储探索

人类对DNA数据存储能力的探索早已有之。

1988年,艺术家乔•戴维斯与哈佛的学者合作,第一个将数字信号0和1对应到DNA的四个碱基。他们把DNA序列插入到大肠杆菌里,仅仅编码了35个字节。当排列成一个5*7的矩阵时,1对应到暗像素,0对应到亮像素,它们组成了一幅古代日耳曼如尼字母图画,代表生命和女性的地球。

现在戴维斯已经加入了丘奇的实验室,该实验室2011年起开始探索DNA数据存储。哈佛团队希望该应用可以减少合成DNA的高成本,就像基因组学的测序成本已经降低了许多。丘奇与加州大学洛杉矶分校的瑟里• 库苏里(Sri Kosuri)以及约翰•霍普金斯大学的基因组专家高原(Yuan Gao)于2011年11月实施了概念证明性实验。

他们的团队使用了很多短DNA片段编码了一本丘奇与他人合写的659KB数据的书。每个片段的一部分用来进行排序后片段组装顺序,剩余部分用于编码数据。将数据保存在DNA之中需要将二进制0和1数据转换为4种核苷酸,其中0用腺苷酸或胞嘧啶来编码,而1则用鸟苷酸或胸腺嘧啶。

这种灵活性帮助团队设计序列,避免测序中高GC区读取错误、重复序列或发卡结构导致的绑定彼此的片段发生序列折叠。他们没有做严谨的纠错,而是依靠每个片段拥有多个拷贝的信息冗余。结果对片段测序后,他们发现了22个错误,大大高于可靠存储的要求。

同时在EBI,高德曼、伯尼和他们的同事也在使用很多DNA片段来编码一个739KB的数据存储,包含一个图片、ASCII文本、声音文件和一个PDF版的华生和克里克标志性的双螺旋结构。为了避免重复碱基和其他来源的错误,EBI领导的这个团队使用了一个更加复杂的系统(见“制作存储体”)。

一方面是将0和1组成的二进制数据编码修改成以3个数为基础,即0,1和2,然后持续地轮换使用每一个数的代表,因此而避免在读取数据时序列可能出现的问题。通过利用序列重叠,100个碱基长度的片段持续位移25个碱基,EBI的科学家们确保有4个版本的片段来做错误检查和互相比较。

液体转移DNA难点

与基于硅的计算系统不同,基于DNA的存储和计算系统必须使用液体来转移DNA分子。流体本质上与电子不同,这意味着我们需要全新的技术解决方案。

华盛顿大学的团队与微软正在合作开发一种可编程系统,利用电和水的特性在电极网格上移动水滴,从而实现实验自动化。名为“Puddle”和“PurpleDrop”的一整套软件和硬件可以混合、分离、加热或冷却不同的液体并按标准实验步骤进行实验。

MISL团队下一步要做的是将简单的端到端自动化系统与PurpleDrop等技术以及能够使用DNA分子进行搜索的技术相结合。研究人员专门设计了模块化的自动化系统,使其能够随着新的DNA技术的出现而发展。

相关报道:

https://news.microsoft.com/innovation-stories/hello-data-dna-storage/?utm_source=stories&utm_campaign=1385

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31562039/viewspace-2640306/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/31562039/viewspace-2640306/

让DNA说Hello!微软成功研制用DNA存储读取数据的全自动系统相关推荐

  1. 微软成功测试氢燃料电池,为数据中心连续供电 48 小时

    微软今天宣布,已经成功测试氢燃料电池(250千瓦),为一排数据中心的服务器连续供电48小时.微软正在考虑将氢燃料电池作为柴油发电机的替代品.微软现在使用的柴油燃料占其总排放量的比例不到1%.柴油动力发 ...

  2. 微软黑科技:DNA存储技术催生方糖大小的数据中心

    凤凰科技讯 北京时间4月12日消息,据科技网站Computerworld报道,微软和华盛顿大学研究人员已经展示了利用人工合成DNA作为数据存储介质的技术. 研究人员表示,如果这一技术成熟到适合主流应用 ...

  3. 国产台式计算机型号,国产台式电脑排行榜_华为首台“台式电脑”成功研制!内置自研...

    华为首台"台式电脑"成功研制! 内置自研芯片.搭载国产操作系统 华为首台"台式电脑"成功研制!内置自研芯片.搭载国产操作系统! 说起电脑,大家都会想到联想,联想 ...

  4. ​我国科学家成功研制全球神经元规模最大的类脑计算机

    来源 | 之江实验室(ID:zhejianglab) 9月1日,浙江大学与之江实验室举办成果发布会,共同发布我国首台基于自主知识产权类脑芯片的类脑计算机(Darwin Mouse). 浙江大学校长吴朝 ...

  5. 微软成功尝试:员工周休三天、待遇不变,工作效率却提高40%!

    "上四休三",微软成功试行了! 近日微软宣布,在今年8月举行的 "工作生活选择挑战(Work-Life Choice Challenge)"活动中,微软日本子公 ...

  6. 我国成功研制EB级云存储系统:可满足大数据量存储落地需求

    国家863计划云计算关键技术与系统(二期)项目课题验收会11月29日在天津召开,由我国高性能计算领军企业中科曙光承担的"EB级云存储系统研制"课题通过技术验收. 为促进我国云计算核 ...

  7. 这台计算机似乎没有安装操作系统_前沿科技 | 我国科学家成功研制全球神经元规模最大的类脑计算机...

    点击蓝字关注我们 我国科学家成功研制全球神经元规模最大的类脑计算机 1.6米高的三个标准机柜并排而立,黑色的外壳给人酷酷的感觉,红色的信号灯不停地闪烁,靠得近些似乎能听到里面脉冲信号飞速奔跑的声音. ...

  8. 住友重机械工业成功研制出质子治疗用超导回旋加速器

    -推动质子治疗的广泛应用 东京--(美国商业资讯)--住友重机械工业株式会社(Sumitomo Heavy Industries, Ltd.,以下简称"SHI":TOKYO:630 ...

  9. 人族机器人叉兵_707所成功研制外骨骼机器人,未来可打造超级单兵战士

    美国科幻大片经常出现超级英雄拯救世界的桥段,备受全球观众们的欢迎,美国电影公司更是大肆收割全球票房.随着科学技术的发展,曾经的科幻,却在越发地靠近抵近显示世界.超级战士,在人类真实世界中的诞生,也并非 ...

最新文章

  1. 视图属性+对象动画组件ViewPropertyObjectAnimator
  2. h5软盘占位把定位内容往上顶_安徽省计算机一级考试选择题、操作题、打字题库2012年上半年版.xls...
  3. ubuntu怎么关防火墙
  4. 第六章实验报告(函数和宏定义实验)
  5. Java动态追踪技术探究 1
  6. arm export 汇编_C/C++与汇编混合编程有什么好处?
  7. go语言和java比_闲话Python, Go, Java
  8. python保留sqrt_python:quot;因式分解quot;引出的知识盲点
  9. Maven实战读书笔记
  10. 融合应急指挥调度系统
  11. 2021最新域名授权系统网站源码 全新一键安装源码+卡密自助授权+全新UI界面
  12. 简单密码验证:重复的数字字母或连续的数字字母
  13. Oracle中文排序 NLSSORT
  14. 电子木鱼 微信小程序源码 今天你积功德了吗?
  15. nginx平台初探(100%)
  16. linux命令:查询某个字符串在哪个文件中存在,贼拉管用!
  17. linux系统基本运维命令
  18. Java 设计模式 - 单例模式
  19. 根据经纬度获取城市名
  20. 软电话测试工具:SIPP

热门文章

  1. 2.系统测试流程规范
  2. 阿里专家梁笑:2018双十一下单成功率99.9%!供应链服务平台如何迎接大促 1
  3. 数字规律问题--面试题43、44、45、62
  4. 【论文翻译_无数据知识蒸馏_元学习_2022】Up to 100× Faster Data-free Knowledge Distillation
  5. module blacklist
  6. lazada发货_LAZADA怎么发货?lazada发货流程详解
  7. HA高可用集群与RHCS集群套件
  8. C++作业 设计一个程序实现油桶面积与体积的计算(构造函数与析构函数)
  9. 高中主要物理学史和物理学家及其贡…
  10. 质量保证和质量控制(QA / QC),你们知道区别在哪里吗?