我科学家引入信息论 刷新基因测序精度

张佳星

2017年12月28日09:27 | 来源:科技日报

小字号

原标题:我科学家引入信息论 刷新基因测序精度

  自从Alpha Go成了围棋界的No.1,“智能”的潜力被广而周知,尤其对于大量的重复性工作,写个“算法”让电脑“跑”,得出的结果说不定比人强。

  科学家不仅有足够大的脑洞,还有着非凡的执行力。这次是生物学者,他们借鉴了信息学科的思维,发明了基因测序的新方法。日前,一篇名为《基于信息理论来修正错误的高准确度荧光产生DNA测序方法》的论文在《自然·生物技术》上在线发表。研究者来自北京大学黄岩谊教授带领的团队。

  “这个设计很巧妙,”东南大学教授陆祖宏说,“或许在信息科学里是‘小伎俩’,但在生物学研究中是一种思维方式的突破,而且奏效了。”

  测序精准是“王道”

  和体育界的“更快、更高、更远”类似,基因测序界的“金标准”是“更快、更长、更正确、还不贵”。

  大名鼎鼎的“人类基因组计划”基于1代测序技术,耗时十余年测出一套完整的人类基因组密码,而利用现有的2代测序技术,这个时间可以缩短到半天内。

  “2代测序技术,又叫高通量测序技术,”陆祖宏介绍,它能够在一个生物芯片上一次完成上亿个反应。“每个反应一次测定一个碱基。”

  生物芯片上的反应单元非常小,几平方微米的芯片上会包含1000个待测DNA单链分子,在DNA聚合酶(促成单个碱基聚合)的作用下,单个碱基会按照配对规律合成已有DNA分子的互补链,每次合成一个,同时释放出荧光。不同的碱基(A、T、C、G)带有不同的荧光,检测到荧光的不同就能判断是什么碱基,进而读取DNA。

  然而,每个单元中1000个分子的合成很难同步,“这个分子合成到99个时,那个分子可能合成到101个,这样捕捉到的荧光波长将会有所差异,可信度显著下降,”陆祖宏说,因此,2代基因测序仪的单次“读长”目前的极限在200个碱基对(bp)。通过DNA二端测序能做到400个bp,但很难进一步提高。读得越长,测得序列的正确性就会越低。

  在人体基因测序领域,这是一对相差悬殊的数字:30亿、200。前者是人类基因组的碱基对数量,后者是目前测序准确度最高(99%)的2代基因测序仪的单次“读长”。可见以200为单位完成目标DNA的测序,不可避免会造成大量的误差。

  测序技术正在向着满足“金标准”的路上不断推进,而此次我国学者发表的ECC(纠错编码)测序法正是对现有手段的校正和补充。

  “软件推导”补硬件不足

  生物学的研究方法一直是所见即所得,这次引入了信息论的方法,利用冗余信息、通过计算得出准确结论,陆祖宏认为,ECC测序法是对上面提到的2代测序方法的完善,其基本原理与2代测序方法相一致,令人称道的是其打破思维定势,迂回计算出碱基信息。

  打个比方,要解答“甲乙丙丁分别住在哪个房子里,”之前的方式是直接开门看,ECC是通过测量得到一组逻辑题,诸如红房子在蓝房子的右边,白房子的左边;黄房子的主人来自香港,而且他的房子不在最左边,爱吃比萨的人住在爱喝矿泉水的人的隔壁……等等提示,通过计算最终判断出结论。

  “之前一个一个测,现在是一群一群测,每次采样量一样,但是采样方法不同了,单次看获得的信息更多,”陆祖宏说,冗余信息可以互为校验,将“精准”的努力更多地让“软件推导”去承担,弥补酶的均一性、信号捕捉等硬件上无法避免的不足。

  资料显示,ECC编码和解码策略已被广泛应用在信息通讯和存储等其他领域中,并被证实可以有效检测和纠正数据传输或存储时发生的错误。此次研究团队在测序技术中首次引入ECC,并自主合成了低错误率的荧光发生底物,二者结合在实验室搭建的原理样机上获得了单端测序超过200碱基读长无错误的实验结果。

  “BT与IT的结合越来越成为业界共识,”蒋慧说,就在12月初,谷歌发布了一款名为DeepVariant程序工具,称其拥有人工智能(AI)深度学习能力,将2代测序技术中的片段精确的拼接,更准确识别DNA序列中的突变。

  应用还有很长的路要走

  “基因测序仪很复杂,涉及到光机电、生化反应、软件计算等不同领域,”作为国内唯一自主生产基因测序仪的企业领头人,华大智能副总裁蒋慧感触颇深,她说,测序仪生产和制造的进入门槛很高。

  基因测序行业是有上下游链条的,“除了要生产出高精密的测序仪,还要配备有效的试剂盒,以及成套的解决方案,”蒋慧说,同时要具备与下游应用开发企业的承接能力。“测序仪就好比一款手机,要用得广,要能够搭载、兼容不同的‘APP’,即产前筛查、肿瘤检测等应用场景。”

  经过近5年的持续投资研发,目前具有临床测序仪量产能力的国产测序仪生产商只有华大基因一家,它的测序仪从研发到走向市场就是在一路“披荆斩棘”中走来。“我国造出自己的测序仪之后,受到过国际大公司的排挤,例如通过试剂、酶等的供应上实施封锁的方法。”陆祖宏说,新技术就算好,让市场“弃旧用新”的阻力却是很大的,尤其国外企业的龙头地位很难撼动。

  在巨大的阻力下,我国的测序仪产业虽步履蹒跚,但仍在崛起,除了黄岩谊团队宣布制造出样机之外,我国南方科技大学瀚海基因日前发布了全球最准三代基因测序仪。

我科学家引入信息论 刷新基因测序精度相关推荐

  1. ICCV 2019 | 旷视提出新型抠图方法AdaMatting,刷新最高精度

    本文中由于作者认为抠图可分为 trimap adaptation 和 alpha estimation 两个任务,受此启发,旷视研究院提出了一个简单但强大的抠图框架,称之为 AdaMatting (A ...

  2. 何恺明团队最新研究:3D目标检测新框架VoteNet,两大数据集刷新最高精度

    [导读]FAIR何恺明等人团队提出3D目标检测新框架VoteNet,直接处理原始数据,不依赖任何2D检测器.该模型设计简单,模型紧凑,效率高,在两大真实3D扫描数据集上实现了最先进的3D检测精度. 当 ...

  3. 南开大学提出最新边缘检测与图像分割算法,精度刷新记录(附开源地址)

    作者 | 刘云.程明明.胡晓伟.边佳旺等 译者 | 刘畅 整理 | Jane 出品 | AI科技大本营 近日,南开大学媒体计算实验室提出的最新边缘检测和图像过分割(可用于生成超像素)被 IEEE PA ...

  4. 新的信息论诞生前的若干问题分析

    个人认为仿生学是最好的机器学习.哲学有助于科学研究的推进,有助于思想火花的碰撞.万物皆有灵性,或许整个自然界都在遵守着固定的规律向前走.因为导师的研究方向是EEG信号的处理,最近看了些有关EEG信号处 ...

  5. 单精度和半精度混合训练

    单精度和半精度混合训练 概述 混合精度训练方法,通过混合使用单精度和半精度数据格式,加速深度神经网络训练的过程,同时保持了单精度训练所能达到的网络精度.混合精度训练能够加速计算过程,同时减少内存使用和 ...

  6. PyTorch-混合精度训练

    简介 自动混合精度训练(auto Mixed Precision,amp)是深度学习比较流行的一个训练技巧,它可以大幅度降低训练的成本并提高训练的速度,因此在竞赛中受到了较多的关注.此前,比较流行的混 ...

  7. 信息论知识——基础梳理

    一条信息的信息量与其不确定性有着直接的关系,想要量化这种不确定性,需要引入信息论的相关概念,通常来说: (1) 非常可能发生的事件信息量要比较少 (2) 较不可能发生的事件具有更高的信息量 (3) 独 ...

  8. 3D塔防游戏实现 4.2 3D怪物连续刷新(Feekood语言)

    (Feekood语言介绍与习) http://www.wooyoogame.com/doc/index(学习) http://www.wooyoogame.com(首页) http://www.fee ...

  9. 【Android】上拉加载更多,下拉刷新数据快速实现

    项目需求 在页面数据中,每次只显示一部分,当手指操作从下往上滑动时,进行请求加载更多数据,当从上往下滑动时,进行整个所有数据的刷新. 需求实现 1.引入依赖 //刷新implementation 'c ...

最新文章

  1. Linux下编译vtk的java版本,Ubuntu 16.04 编译VTK7.1
  2. python算法与数据结构-选择排序算法
  3. jquery.validate.js插件的使用方法
  4. 代码缺乏装饰?使用ts装饰器来装饰你的代码
  5. 每个Java学习者都会犯的10大常见错误1
  6. photoshop script
  7. LeetCode 92. 反转链表 II(双指针)
  8. C/C++信息隐写术(一)之认识文件结构
  9. 【Tensorflow】深度学习实战01——Tensorflow实现简单的卷积网络(MNIST)
  10. 【Elasticsearch】Elasticsearch通过reroute api 重新分配分片
  11. 周鸿祎:做产品体验先把自己切换到二傻子模式
  12. 拓端tecdat|matlab脉冲响应图的时域特征
  13. 在windows下制作grub2引导的多启动U盘(可启动wepe,安装centos7,debian10等)
  14. POJ 6184 【三元环 +分治】
  15. Windows改装成Linux,Windows系统改装成Linux系统
  16. 每周分享第 36 期
  17. Filter中chain.doFilter(req, res)的理解
  18. Fitbit表高兴太早,廉价手环和智能手表的威胁就在眼前
  19. java-net-php-python-ssm车辆保养管理系统计算机毕业设计程序
  20. 【链环科技】如何利用“私域流量”——小程序直播做到高转化低退货

热门文章

  1. python快速开发游戏_快速游戏开发的10个关键
  2. 13-Liunx笔记
  3. C++将图片转换为马赛克效果
  4. 把握性能测试重点,5步解决问题!
  5. 5.10杂谈正能量日记
  6. FineReport使用笔记
  7. PostgreSQL命令行执行查询
  8. GOT-10k数据集以及通过GOT10k工具包导入的数据的形式
  9. Anaconda 查看、添加、删除 安装源
  10. 利用zabbix自带模板监控网络设备及配置邮件告警