图1. NextDenovo V2.0-beta.1上线Github

测序中国2019年10月18日消息,希望组面向全球释放三代测序数据高效纠错、组装软件NextDenovo最新版本V2.0-beta.1  (https://github.com/Nextomics/NextDenovo),并免费开放用于学术和其他非商业用途。据悉,本次希望组发布的最新版本NextDenovo是专为三代测序数据开发的纠错、组装软件,不但解决了现有三代测序数据组装工具资源占用大、运行时间长、组装质量不稳定的瓶颈问题,还实现了单Contig一条染色体和超大型基因组组装的突破,为利用三代数据组装基因组扫清了组装算法的障碍。

三代测序数据组装已经成为基因组De novo的主流方案,其中Nanopore的读长可达数百kb甚至超过2Mb,在解决染色体着丝粒/端粒区域、性染色体等基因组复杂区域以及复杂基因组组装问题方面,具有更大的优势[1]。前不久,加州大学圣克鲁斯基因研究所等单位的研究人员利用Nanopore的ultra-long reads成功拼接出了首个人类X染色体基因组完成图序列[2]。

但目前的组装算法仍存在较多的瓶颈,使三代测序的优势不能完全发挥。现有三代测序数据组装软件如:Falcon[3]、Canu[4]、Miniasm[5]、Wtdbg[6]等存在以下几类问题:

1. 部分软件不具备纠错功能;2. 纠错过程耗费大量时间和计算资源;3. 组装出的基因组准确度不够;4. 组装出的基因组大小与预估有偏差。

胡江

针对以上问题希望组胡江团队研发出专门用于三代测序数据纠错、组装的软件——NextDenovo。其包含NextCorrect和NextGraph两个模块,依次进行测序数据的高效纠错、组装,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组。基于NextDenovo,希望组已经实现了小基因组物种近完成图和>10Gb基因组物种的组装工作。

高效纠错

NextDenovo原始数据纠错模块可对PacBio和Nanopore的三代测序原始数据进行纠错。表1为NextDenovo与现有主流三代测序数据校正工具(Canu、Falcon和Racon[7]),对不同三代测序平台(PacBio和Nanopore)数据的纠错性能比较。NextDenovo能够在极大减少运行时间的情况下,达到甚至高于与其他软件的纠错精度。

表1. 三代测序原始数据纠错软件性能评估

注:测试数据为人20号染色体PacBio和Nanopore数据各100×,运行环境CentOS Linux release 7.4.1708 (Core),128G内存,32线程(Intel(R) Xeon(R) Gold 6151 CPU @3.00GHz),参数默认。

高效组装

NextDenovo组装模块是基于String graph算法,利用纠错后的三代测序数据进行基因组高效组装。之前的评测结果https://mp.weixin.qq.com/s/8P9KeTpGc5-hIpVy4T4XxQ表明利用相同的Nanopore数据,NextDenovo在组装速度、结果连续性等指标均明显优于Canu(图2)。

图2. NextDenovo与Canu用相同Nanopore数据组装结果共线性比较

高准确度

Nanopore数据用NextDenovo组装的结果再结合NextPolish直接进行2轮或多轮二代数据polish后,平均碱基准确度能达到99.99%以上(关于NextPolish的详细评测结果见https://github.com/Nextomics/NextPolish/blob/master/doc/TEST1.pdf)。

NextDenovo组装案例

在实际项目应用中,NextDenovo的表现非常抢眼,某禾本科植物Plant1基因组组装Contig N50高达66.3Mb,某同源多倍体植物Plant2的Contig N50也达到了59.7Mb(表2)。与参考基因组比对的共线性图几乎呈一条对角线(图3)。值得一提的是这两个物种基因组都含有大量的重复序列,而NextDenovo的组装版本邻接性要远高于其他版本。

表2. NextDenovo的组装案例

图3. NextDenovo组装基因组共线性

单Contig一条染色体

利用NextDenovo软件对水稻93-11(Oryza sativa L. 2n=24)的273X深度ONT测序数据进行组装。最终获得的水稻93-11基因组仅包含18条 Contigs,Contig N50 高达29.43Mb。水稻93-11基因组的12对染色体中,至少有一半的单条染色体由单个Contig装出。BUSCO评估显示,在该组装中可以找到约98.1%的完整基因元件,反映组装结果真实可靠。进行基因组单碱基错误率的统计,该组装基因组的单碱基准确率在99.99%以上。与其他组装策略相比,利用Next系列软件组装的水稻93-11基因组质量明显优于其他组装结果[8]。

图4. 水稻93-11基因组不同组装结果比较

超大型基因组

超大型基因组大量高重复区域和动辄Tb级别的数据量对组装算法是一个巨大挑战。NextDenovo能够很好的处理超大型基因组组装问题,对一个预估基因组11.02Gb的超大型基因组进行组装,NextDenovo组装版本的基因组与预估大小非常接近约为10.42Gb,Contig N50达5.02Mb,明显优于常规基因组组装工具(表3)。

自成立以来,希望组致力于三代测序技术应用与服务。2017年,希望组搭建Oxford Nanopore测序平台以来陆续开展ONT Ultra-long测序、低起始量建库测序等前沿技术研发工作,并率先于2017年底推出ONT Ultra-long测序服务,目前已经完成近百个物种的ONT Ultra-long测序、组装工作。该公司自主研发的基于ONT数据的系列组装、纠错算法软件NextDenovo、NextPolish,在运行效率、组装质量、适用范围方面均优于现有组装工具,实现了单Contig一条染色体和超大型基因组组装的突破。在分析服务方面,希望组与华为云合作,将纳米孔测序数据分析流程整合到云计算平台上,实现急速基因组组装与注释,为全球客户提供快速、高效的纳米孔长读长测序计算和存储服务。在三代测序服务领域,希望组技术顶尖,算法领先,服务全面,目前已完成了数百个三代测序科研项目,在Nature genetics、Nature Communications、Molecular Cell、Developmental Cell等国际权威杂志合作发表多篇研究论文,累积影响因子超过380。

参考资料:

[1]高胜寒, 禹海英, 吴双阳, 等. 复杂基因组测序技术研究进展[J]. 遗传, 2018, 40(11): 944-963.

[2]Miga K H, Koren S, Rhie A, etal. Telomere-to-telomere assembly of a complete human X chromosome[J]. BioRxiv,2019: 735928.

[3]Chin C S, Peluso P, Sedlazeck F J, et al. Phased diploid genome assembly with single-molecule real-time sequencing[J]. Nature methods, 2016, 13(12): 1050.

[4]Koren S, Walenz B P, Berlin K, et al. Canu: scalable and accurate long-read assembly via adaptive k-mer weighting and repeat separation[J]. Genome research, 2017, 27(5): 722-736.

[5]Li H. Minimap and miniasm: fast mapping and de novo assembly for noisy long sequences[J]. Bioinformatics, 2016, 32(14): 2103-2110.

[6]Ruan J, Li H. Fast and accurate long-read assembly with wtdbg2[J]. BioRxiv, 2019: 530972.

[7]Sanders A D, Falconer E, Hills M, et al. Single-cell template strand sequencing by Strand-seq enables the characterization of individual homologs[J]. Nature protocols, 2017, 12(6): 1151.

[8]Zhang J, Chen L L, Xing F, et al. Extensive sequence divergence between the reference genomes of two elite indica rice varieties Zhenshan 97 and Minghui 63[J]. Proceedings of the National Academy of Sciences, 2016, 113(35): E5163-E5171.

nextpolish安装_希望组自主三代组装软件NextDenovo最新版本全球学术开源!相关推荐

  1. Canu|三代组装软件

    Canu Canu是基于OLC算法,具有长reads的自纠错和组装功能,是应用最为广泛的三代组装软件(速度相对较慢). Canu相关使用方法来啦!!! 一.Canu的安装 方法一:conda安装 co ...

  2. 三代组装软件canu学习笔记

    三代组装软件canu学习笔记 (2017-08-07 14:17:43) 转载▼   分类: 三代 1:这个组装软件起源于PBcR包含在Celera Assembler中(http://wgs-ass ...

  3. 三代组装软件Canu使用

    Canu简介 Canu是Celera的继任者,能用于组装PacBio和Nanopore两家公司得到的测序结果. Canu分为三个步骤,纠错,修整和组装,每一步都差不多是如下几个步骤: 加载read到r ...

  4. 三代组装软件miniasm笔记

    我们用来练手的文章发表在 Nature Communication ,"High contiguity Arabidopsis thaliana genome assembly with a ...

  5. ipad1最新版本_如何将您的iPad更新到最新版本的iPadOS

    ipad1最新版本 It's a good idea to keep your iPad's operating system (iPadOS) up to date. iPadOS updates ...

  6. nextpolish安装_「三代组装」使用Pilon对基因组进行polish

    软件安装 官方提供了编译好的jar包,方便使用 wget https://github.com/broadinstitute/pilon/releases/download/v1.23/pilon-1 ...

  7. nextpolish安装_NECAT: Nanopore数据的高效组装工具

    对MECAT2感兴趣的话,或者在MECAT2使用时遇到了什么问题,可以加'MECAT和NECAT问题解决群', 群号是:316859622 NECAT是肖传乐老师团队开发的一个针对Nanopore数据 ...

  8. nextpolish安装_NECAT | Nanopore数据的高效组装工具

    NECAT是肖传乐老师团队开发的一个针对Nanopore数据组装的软件,目前该工具尚未发表,除了https://github.com/xiaochuanle/NECAT有软件的介绍外,暂时没有中文资料 ...

  9. canu三代组装软件安装

    官方推荐流程: 1. 下载canu-2.2.tar.xz(官方推荐不下source code) 1.1 curl命令下载 curl -L https://github.com/marbl/canu/r ...

最新文章

  1. Vant 1.6.11 发布,有赞轻量级移动端 Vue 组件库
  2. bzoj2049 Cave 洞穴勘测 LCT模版
  3. 如何使用WCF调试器WcfTestClient.exe
  4. bzoj2916: [Poi1997]Monochromatic Triangles 思路
  5. 4列变成5列 datatable_云南美食界“5巨头”,谁才是NO.1?你家乡的那道菜也在列...
  6. 【opencv图像基础】图像常见的通道模式:RGB、YUV、HSV
  7. Nature重磅封面:复活死亡大脑!
  8. 使用Flexible实现H5页面的终端适配
  9. linux下c 上传图片到mysql_Linux下C连接MySql数据库
  10. [渝粤教育] 中国农业大学 大学计算机基础 参考 资料
  11. 信息安全技术第五章应用安全(完整详细笔记)
  12. 第19节 扫描技术——基于Windows系统的工具
  13. Python操作Redis之mset和mget
  14. Pandas:利用Styler对象设置Series、Dataframe在Jupyter Notebook中的输出样式(2)——内置样式
  15. LFM雷达实现及USRP验证【章节2:LFM雷达测距】
  16. 谷歌开发者大会焦点:TensorFlow.js可制作微信小程序,Android 10原生支持5G,TF2.0大更新...
  17. 【深度学习入门系列】径向基函数(RBF)神经网络原理介绍及pytorch实现(内含分类、回归任务实例)
  18. 剑指Offer题目:从扑克牌中随机抽 5 张牌,判断是不是顺子,即这 5 张牌是不是连续的。 2-10 为数字本身,A 为 1,J 为 11,Q 为 12,K 为 13,而大小王可以看成任意的 数字。
  19. html蚊子背景色,室内养这10种植物超级驱蚊,再也不用担心家里被蚊子骚扰了!...
  20. TOJ 4354 HDU 4262 Juggler / 树状数组

热门文章

  1. android md5使用方法,android 使用DigestUtilsmd5加密的方法
  2. matlab para for,matlab并行之parafor
  3. python自动化办公入门-[Python] 自动化办公 docx操作Word基础代码
  4. python学来干什么-学python出来到底能干嘛
  5. python培训班靠谱吗-Python培训班多少钱
  6. python画柱状图-Python画柱状统计图操作示例【基于matplotlib库】
  7. python简单程序实例-Python简单基础小程序的实例代码
  8. 【java笔记】基本类型与字符串之间的转换
  9. 【c语言复习笔记】初始c源程序及其数据类型
  10. WebRTC-集成qsv硬解码实现