Nanopore sequencing technology and tools for genome assembly: computational analysis of the current state,bottlenecks and future directions  Nanopore 测序技术和基因组组装工具:当前状态、瓶颈和未来方向的计算分析

纳米孔测序技术有潜力淘汰其他测序技术,因为它能够产生长读,并提供可移植性。然而,高错误率的技术提出了一个挑战,同时产生准确的基因组装配。用于纳米孔序列分析的工具至关重要,因为它们应该克服该技术的高错误率。我们在这项工作中的目标是全面分析当前公开可用的纳米孔序列分析工具,以了解它们的优点、缺点和性能瓶颈。为了开发更好的工具,了解当前工具在哪些方面表现不好是很重要的。为此,我们

(1)使用纳米孔序列数据分析多个步骤和基因组组装管道中的相关工具,

(2)为确定每个步骤的适当工具提供指导。

基于我们的分析,我们提出了四个关键的观察结果:

(1)在克服纳米孔测序技术的高错误率方面,基础检测工具的选择起着至关重要的作用。

(2)read-read overlap find Tools(GraphMapMinimap)在准确性方面表现相似。然而,Minimap的内存使用量较低,而且它比GraphMap更快。

(3)在选择合适的装配工具时,需要在精度性能之间进行权衡。

快速但精度较低的装配体可用于快速的初始装配,并可在其上进行进一步的抛光以提高精度,从而提高整体装配速度

(4)最先进的抛光工具Racon产生高质量的一致序列,同时提供了比另一种抛光工具Nanopolish显著的加速。

我们分析了不同工具的各种组合,并揭示了准确性、性能、内存使用可伸缩性之间的权衡。

我们的结论是,我们的观察可以指导研究人员和从业人员使用纳米孔序列数据对基因组组装管道的每一步做出有意识的和有效的选择。此外,在我们发现的瓶颈的帮助下,开发人员可以改进现有的工具或构建新的工具,以克服纳米孔测序技术的高错误率。

Introduction

自2005年以来,新一代测序(NGS)技术已经彻底改变并主导了基因组测序市场,因为它们能够以更快的速度更低的成本生成大量数据[1 3]。能够快速、准确地处理和分析如此大量数据的成功计算工具的存在,对于利用NGS技术在科学、医学和技术上的优势至关重要。

由于大多数生物的整个基因组不能同时测序,基因组被分成更小的片段。每个片段测序后,会产生一小段DNA序列(即reads)。然后可以通过以下两种不同的方法分析这些读操作:读映射从头组装读映射是根据参考基因组调整读的过程,以检测已排序的基因组中的变化。重新组装是指当一个参考基因组不存在时,将读序列结合起来构建原始序列的方法。由于基因组中的重复区域,最主要的NGS技术(如100 150 bp reads)的短读长度导致了读映射的错误和歧义[5,6],并给从头装配[7]带来了计算挑战和准确性问题。重复序列通常比短读的长度长,一个完整的重复序列不能由一个短读跨越。因此,短读会导致高度碎片化不完整的组装[7 9]。然而,长读可以跨越整个重复序列,并支持连续和完整的组装器。对测序技术的需求可以产生更长的解读,导致出现了甚至更新的替代测序技术。

纳米孔测序技术[10]就是这种可以产生长read长度的技术的一个例子。纳米孔测序是一种新兴的、有前途的单分子DNA测序技术,它具有许多有吸引力的特性,并有可能在不久的将来超越目前的测序技术。Nanopore测序具有测序通量高、成本低、读取长度长等优点,测序前不需要扩增步骤[11 14]。

使用生物纳米孔进行DNA测序在20世纪90年代的[15]被首次提出,但是第一个纳米孔测序设备MinION[16]直到最近(2014年5月)才由牛津纳米孔技术公司(ONT)商业化。MinION是一种廉价的、口袋大小的、便携的、高通量测序仪器,可以实时生成数据。这些特性为基因组测序提供了新的潜在应用,如埃博拉病毒、寨卡病毒或其他流行病的快速监测、近距离患者检测以及其他需要实时数据分析的应用。此外,奴才技术有两大优势。首先,它能够生成超长的读取(例如882千碱基对或更长[19,20])。MinION s long reads通过减少计算量大大简化了基因组装配过程[8,21]。其次,它体积小,便于携带。“小黄人”被命名为第一个用于外层空间的DNA测序设备,借助其体积和可携带性帮助探测宇宙其他地方的生命。通过对奴化装置和纳米孔化学的不断更新,仅使用MinION装置[19]就生成了第一个纳米孔人类参考基因组。

结论:

我们分析多个步骤和相关的基因组中先进的工具组装管道使用纳米孔序列数据的准确性、速度、内存效率可伸缩性(我们留给未来工作定量研究工具对不同纳米孔测序的应用,如变异召唤,修改检测基地(即。甲基化研究[91])和病原体检测。通过对整个管道的实验分析,得出了四个主要结论。

首先,具有更高精度和性能的基础调用工具,如Scrappie,可以克服nanopore测序技术的主要缺点,即错误率高。

其次,read-to-read重叠查找工具(Minimap和GraphMap)在准确性方面也有类似的表现。但是,在速度和内存使用方面,Minimap比GraphMap表现得更好,因为它只存储最小化器,而不是所有的k-mers,而且当运行在内存相对较小的机器上时,GraphMap是不可伸缩的。

第三,快速但精度较低的汇编程序Miniasm可用于快速初始装配,并可在其上进行进一步抛光以提高最终装配的精度。

第四,一个最先进的抛光工具,Racon,产生高质量的一致序列,同时提供了一个显著的加速超过另一个抛光工具,纳米级。

我们希望并相信,我们的观察和分析将指导研究人员和从业人员在使用纳米孔序列数据决定基因组组装管道的每个步骤的不同工具时做出有意识和有效的选择。我们还希望我们发现的瓶颈或设计选择的影响能够帮助开发人员构建新的工具或改进现有的工具。

Nanopore sequencing technology and tools for genome assembly: computational analysis of the current相关推荐

  1. The power of single molecule real-time sequencing technology in the de novo assembly of a eukaryotic

    The power of single molecule real-time sequencing technology in the de novo assembly of a eukaryotic ...

  2. PacBio vs. Oxford Nanopore sequencing

    PacBio vs. Oxford Nanopore sequencing PacBio与牛津纳米孔测序 发表于 2017年6月16日通过Bhagyashree Birla 由太平洋生物科学公司和牛津 ...

  3. Oxford Nanopore sequencing, hybrid error correction, and de novo assembly of a eukaryotic genome

    Oxford Nanopore sequencing, hybrid error correction, and de novo assembly of a eukaryotic genome 牛津纳 ...

  4. Oxford Nanopore MinION Sequencing and Genome Assembly

    Oxford Nanopore MinION Sequencing and Genome Assembly Oxford Nanopore MinION测序和基因组组装 摘要 在成功的第二代测序(se ...

  5. Error Correction and DeNovo Genome Assembly for the MinION Sequencing Reads mixing Illumina Short Re

    Error Correction and DeNovo Genome Assembly for the MinION Sequencing Reads mixing Illumina Short Re ...

  6. The Third Revolution in Sequencing Technology

    The Third Revolution in Sequencing Technology  第三代测序技术 Erwin L van Dijk 1, Yan Jaszczyszyn 2, Delphi ...

  7. The impact of third generation genomic technologies on plant genome assembly 第三代基因组技术对植物基因组组装的影响

    题目:The impact of third generation genomic technologies on plant genome assembly 第三代基因组技术  对植物  基因组组装 ...

  8. 基因组组装(Genome Assembly)

    基因组组装(Genome assembly)是指使用测序方法将待测物种的基因组生成序列片段(即read),并根据reads 之间的重叠区域对片段进行拼接,先拼接成较长的连续序列(contig),再将c ...

  9. The Third Revolution in Sequencing Technology 测序技术的第三次革命

    The Third Revolution in Sequencing Technology 测序技术的第三次革命 重点 长读/第三代测序技术正在基因组学领域引发一场新的革命,因为它们提供了一种以前所未 ...

最新文章

  1. 【微信支付】微信端的手机网页支付 开发流程
  2. sscanf用法(转)
  3. linux cut列截取工具使用示例
  4. 不好,两群AI打起来了!“幕后主使”是上海交大~
  5. C# Linq处理list数据
  6. Myeclipse6.5中安装maven
  7. 微信小程序|样式布局篇
  8. u-boot2020.04移植(1、u-boot的编译)
  9. 前端学习: 用css设置文字样式
  10. ev6 ev8 ev4a加密视频破解翻录提取教程
  11. 【机器学习实战】k-近邻算法案例——改进约会网站的配对效果
  12. 在H5中使用qrcode, qrcodejs2生成二维码
  13. java 设计模式
  14. postman中如何设置全局变量?
  15. Mac——开启键盘F1 - F12功能键
  16. STM32实战总结:HAL之GUI
  17. LeetCode 2105. 给植物浇水 II
  18. 文本数据“关键词渲染”的高频词可视化——词云图。
  19. 【011】17GRE-自动根据艾宾浩斯曲线铺排学习计划
  20. 【合集】智能优化算法与神经网络预测、分类及时间序列优化程序总结

热门文章

  1. 双调整!清华大学迎来新任书记、校长
  2. CVPR 2021| 基于深度图匹配的鲁棒点云配准框架
  3. 一名算法工程师,对流量和时代红利的思考
  4. 一分钟详解Git使用技巧(一)
  5. 1. 验证集 -- 批量测试和可视化 2. 测试集 -- 批量测试和可视化
  6. 怎么两边同时取ln_脏辫发型怎么编编发教程图解简单易学!
  7. OC从plist文件中获取数据
  8. HTMl中内联边框是怎样实现连接的
  9. Nat. Biotech.|药物设计的AI生成模型
  10. Python计算数据相关系数(person、Kendall、spearman)