重磅!中国科学家研发新的全基因组组装算法

2019-12-10 00:01

北京时间12月10日0时,《自然—方法学》在线发表了第一个能够跟上基因组测序产生速度的组装算法。

这篇论文只有两位作者,他们是 中国农业科学院农业基因组研究所阮珏博士,与美国哈佛大学医学院李恒博士。

该新的第三代测序数据组装算法,被他们称为Wtdbg。

李恒(左)和阮珏。阮珏供图

十年前,Illumina基因组测序技术进入市场时,前所未有的庞大数据量,淘汰了较早开发的测序分析工具。

历史总是重演。

如今,第三代测序技术,已经达到低成本群体测序规模的临界点。

三代测序的尴尬

20年前,破译人类遗传密码还是极具挑战的大科学工程。

当时,人类基因组测序计划,与曼哈顿原子弹计划、阿波罗计划,并称为三大科学计划。

如今,完成一个人的全基因组测序,已经是普通实验室、甚至家庭都可以负担起费用的“平常”事情。

用第三代测序技术完成个体全基因组测序仅需一天时间,费用也已经低于5万元。

2011年,PacBio公司正式宣布三代单分子测序开始商业化。

相比于二代测序每个序列的几百碱基对测序读长,三代测序的平均读长达到了几万碱基对,最长可以达到数百万碱基对。

西北工业大学生态环境学院教授邱强告诉《中国科学报》,这一技术出现时,科研人员期待利用它填补基因组序列中高重复高杂合的区域,挑战高难度的基因组。

然而,人们迅速发现,这一新技术的普及和应用遇到了很大的困难。

“这主要由两个原因所导致。第一,三代测序的成本在初期要远高于二代测序;第二,由于三代测序错误率较高,此前用于第二代基因组测序的组装方法纷纷失效,缺乏有效率的组装工具,特别是PacBio官方推出的falcon方法,消耗资源极多。”

邱强介绍,数年后,Ont公司推出纳米孔测序技术,市场竞争逐渐拉低了第三代测序的成本。

在基因组组装方面,尽管已经出现了canu、marvel等多个组装软件,“但组装仍然是一个十分费时费力的过程,一个哺乳动物基因组的组装时间要以数周来计算”。

以人类基因组组装为例,在2014年需要消耗50万个CPU小时,只能在超大计算机集群上进行。

“这种情况下,同时对大量个体进行组装分析是难以想象的。”但现实是,“以全基因组组装方式对群体进行测序分析,已经成为生物医学研究的趋势”,阮珏说。

首次:数据分析比数据产生更快

“wtdbg和即将推出的工具,可能会从根本上改变当前测序数据分析的实践。”阮珏说。

此前,“数据产出速度远高于数据分析速度。”

因此,近年来,生物信息学领域的科学家群体致力于改变这种尴尬状况,不断开发出更高效的组装分析算法。

例如,继falcon、canu等算法之后,2019年4月,美国加利福尼亚大学圣地亚哥分校NIH计算质谱中心主任Pavel A. Pevzner在《自然—生物技术》上发表了Flye算法,其速度远高于falcon、canu。

阮珏和李恒正式发表的第三代测序数据组装算法wtdbg,比之Flye算法,分析速度提升了5倍,也首次让数据分析时间少于数据产出时间。

西北工业大学生态环境学院的科学家,已经用wtdbg组装了十多个哺乳动物基因组。

西北工业大学教授陈垒说:“我们用过falcon和canu等组装方法,相比较而言,wtdbg组装运算时间最快,占用资源少,能节省大量时间。组装出的基因组连续性很高,组装质量均符合现在主流的基因组评估。”

特别是,对超大型基因组的组装,wtdbg应该是目前为数不多的可以高效使用的组装软件。

“对于人类基因组数据,wtdbg比已发布的工具快几十倍,同时实现了相当的连续性和准确性。它代表了算法上的重大进步,并为将来群体规模的组装分析铺平道路。”阮珏说。

模糊布鲁因图问世

上世纪90年代,Pavel A. Pevzner将德布鲁因图(de BruijnGraph,德布鲁因图是一个展示符号序列之间重叠关系的有方向的图)引入了基因组组装领域。

阮珏介绍,由于第二代测序错误率低,大部分短串(k-mer)是正确的,相同的短串间可以利用德布鲁因图的原理合并起来构成组装图。

但三代测序数据的错误率非常高,如果还是使用短串k-mer的话,大部分短串带有测序错误,不可以合并起来。

因此,德布鲁因图从未成功应用在第三代测序数据。

突破性的方法基于突破性的理论基础。

2013年开始,阮珏和李恒着手解决三代测序组装的问题,分别开发的SMARTdenovo和Miniasm在领域内均有较好的表现。

随后在德布鲁因图基础上,设计出一个新的组装图理论——模糊布鲁因图(Fuzzy Bruijn Graph)。

他们重新定义了“短串”,将测序数据切分为固定长度的新型短串k-bin,k-bin比k-mer的长度更长。

“新设计的模糊布鲁因图能够容忍高噪音数据,并随后对生成组装图与恢复基因组序列做了大量相应的重构,使其兼具高效率和高容错的优点。”阮珏说。

“一般软件组装第三代测序数据的思路是,先对测序数据进行比对纠错,再进行基因组序列的构建。”邱强说,wtdbg则直接进行基因组组装,避免了需要提前纠错的耗时步骤,直接得到一个相对可靠的组装结果。

组装费时费力这一问题的真正改善,正是由阮珏和李恒所研发的wtdbg算法开始。

课题组中,wtdbg算法得到了广泛使用,极大提高工作效率。

不仅如此,他们还与阮珏进行了深入沟通,对超大基因组组装进行了优化,“我们得以获取基因组大小40G左右的高质量基因组序列”。

公众参与下的技术改进

2016年,为了让基因组测序领域可以及时使用新技术,阮珏和李恒将wtdbg研究成果对所有人免费开放使用。

3年来,wtdbg不仅被几十篇学术论文引用,还被国内多家基因组测序分析公司作为主要组装分析工具,并且在2019年世界大学生超算竞赛中做为性能测试赛题。

“我们通过邮件、GitHub网站等方式收到大量反馈,这些反馈不仅帮助我们修订算法软件中的漏洞,还给我们带来新的想法和思路。换个角度来讲,现在发表的论文已经经历了3年多的‘公众审稿’,感谢多年来参与和关注wtdbg开发的同行。”阮珏说。

邱强认为,wtdbg算法不仅相对于更早的falcon、canu等算法具有效率和准确性的优势,相比此后出现的flye等组装算法也具有更好的可靠性。“

这一研究成果代表我国在基因组算法领域具有不输于国际甚至引领国际的实力,也代表了我国科技发展的软实力”。

现在,科学家们可以使用全基因组组装的方式,对大群体开展研究了。

http://doi.org/10.1038/s41592-019-0669-3

中国科学家研发新的全基因组组装算法相关推荐

  1. 提高复杂网络分析效率!中国科学家研发强化学习新框架

    提高复杂网络分析效率!中国科学家研发强化学习新框架 近日,中国国防科技大学.美国加州大学洛杉矶分校和哈佛医学院的研究人员研发了一个深度强化学习框架FINDER.相比于现有的解决方案,FINDER能够更 ...

  2. 全基因组组装,注释与评估软件

    全基因组组装,注释与评估软件集锦(更新于2020.03.20) 1.Assembly 1.1质体基因组 1.1.1NOVOPlasty program language:Perl Reference: ...

  3. a标签点击后变色_中国科学家研发的不退色的变色环保图料登上《科学》子刊...

    再高级的染料都可能退色,但是从来没有甲壳虫的颜色退色或者是蝴蝶翅膀退色,因为这些颜色都是结构色,具有色彩反射率高.饱和度高.不易褪色.环保等特点. 复旦大学材料科学系教授武利民团队将直径为数微米至十几 ...

  4. 全鲸董事长韩耀宁受邀出席第十九届中国科学家论坛,发表重要演讲

    9月18日,第十九届中国科学家(国际)论坛在京隆重开幕.来自全国各地行业的院士.科学家.教授.学者.科技工作者以及2000多名各行业领军企业家出席了本次年度盛会.大会以"推动科技国际合作,提 ...

  5. 【3月30日直播】新冠病毒全基因组测序——Midnight试剂盒及整体解决方案

    识别上方二维码 或点击「阅读原文」 免费报名参加 新冠疫情肆虐全球,基于Nanopore测序技术和数据分析在全球感染性疾病防控中的优势充分显现出来.该平台使用灵活.操作简便.产出快速.分析实时等特征为 ...

  6. 纳米孔测序高错误区域恢复率高达99%,肖传乐/刘奕志/王建新等在Nature子刊发表新校正组装算法

    纳米孔测序高错误区域恢复率高达99%,肖传乐/刘奕志/王建新等在Nature子刊发表新校正组装算法 2021-01-07 15:54 新基因组组装是基因组学最重要的任务之一.三代测序技术(PacBio ...

  7. Nat Biotechnol | 大神李恒团队开发不依赖于亲本的单倍型基因组组装工具hifiasm

    对基因组相关研究而言,单倍型基因组组装是研究结构,进化与变异的最理想方式.随着长读长测序技术的进步,高质量单倍型组装已经成为了可能.然而,大部分组装算法的结果仍是混合多个单倍型的压缩序列,而不是完整的 ...

  8. 新一代国产洗涤日化领军品牌——全鲸董事长韩耀宁受邀参加中国科学家论坛千人峰会

    9月18日,第十九届中国科学家(国际)论坛在京隆重召开,大会以"推动科技国际合作,提高我国科技创新国际影响力,塑造创新发展新优势"为主题,旨在培育一批"专精特新" ...

  9. 首个中国自主研发DRAM正式投片!长鑫存储迎来新CEO

    origin: https://www.esmchina.com/news/201807171201.html 首个中国自主研发DRAM正式投片!长鑫存储迎来新CEO 2018-07-17  Kit ...

最新文章

  1. 题目1197:奇偶校验
  2. ASP.NET MVC 3 Internationalization
  3. 模板类的析构函数如何写_顶尖文案如何写?这6大模板、29个方法,奥美大咖都在用!|优惠最后1天...
  4. NYOJ--218--Dinner(含题目意思)
  5. js基础练习:实现资料查找
  6. 36款免费可商用字体 附字体分享链接
  7. C 和 Java 没那么香了,Serverless 时代 Rust 即将称王?
  8. 袋鼠云研发手记 | 袋鼠云EasyManager的TypeScript重构纪要...
  9. 接受密码和用户名,若用户名为‘admin‘,密码为‘‘123456‘则显示用户登录成功,否则一直登录
  10. telegram自动发信息_创建telegram 机器人 并发送消息
  11. 作为产品经理的你,画原型图时崩溃过吗?
  12. 蓝奏云获取直API源码
  13. 800个有趣句子帮你记忆7000个单词
  14. xxx不在 sudoers 文件中,此事将被报告
  15. 一个故事搞懂经济危机(少儿不宜)
  16. C#/Unity不允许发送UDP到255.255.255.255的解决方法
  17. 空间计量溢出效应的动态GIF演示
  18. 继解决Spring data jpa 批量插入重写saveAll()后遇到符号不兼容问题
  19. 人在职场,要接受“丢车保帅” (转)
  20. Engine Biosciences宣布获得超额认购的4300万美元A轮融资,以通过机器学习和新一代组合遗传学破译新药开发遗传密码

热门文章

  1. 计算机书籍-Scratch少儿编程
  2. 卫星覆盖区域分析 基于网格点法
  3. 大盘点 | 2020年5篇目标检测算法最佳综述
  4. #@python常见的代码自己编写问题
  5. AAAI2020 | SNERL:抛开mention级别的监督,实体链接、关系抽取我都行
  6. Factorization Machine
  7. 3d旋转相册代码源码_如何使用CSS开发精美3D旋转相册?
  8. 生信分析流程构建的几大流派
  9. 零基础入门学习Python(26)-文件1
  10. MPB:西农焦硕组-​土壤微生物响应环境变化的系统发育保守性和环境阈值