Jabba: hybrid error correction for long sequencing reads using maximal exact matches

机译:Jabba:使用最大精确匹配对长序列读数进行杂交错误校正

hird generation sequencing platforms produce longer reads with higher error rates than second generation sequencing technologies. While the improved read length can provide useful information for downstream analysis, underlying algorithms are challenged by the high error rate. Error correction methods in which accurate short reads are used to correct noisy long reads appear to be attractive to generate high-quality long reads. Methods that align short reads to long reads do not optimally use the information contained in the second generation data, and suffer from large runtimes. Recently, a new hybrid error correcting method has been proposed, where the second generation data is first assembled into a de Bruijn graph, on which the long reads are then aligned. In this context we present Jabba, a hybrid method to correct long third generation reads by mapping them on a corrected de Bruijn graph that was constructed from second generation data. Unique to our method is that this mapping is constructed with a seed and extend methodology, using maximal exact matches as seeds. In addition to benchmark results, certain theoretical results concerning the possibilities and limitations of the use of maximal exact matches in the context of third generation reads are presented.展开▼

机译:与第二代测序技术相比,第三代测序平台可产生更长的读数,错误率更高。尽管提高的读取长度可以为下游分析提供有用的信息,但高错误率对基础算法提出了挑战。使用准确的短读来纠正嘈杂的长读的纠错方法似乎很有吸引力,可以生成高质量的长读。将短读与长读对齐的方法不能最佳地使用第二代数据中包含的信息,并且运行时间长。近来,已经提出了一种新的混合错误校正方法,其中第二代数据首先被组装成de Bruijn图,然后在其上对齐长读。在这种情况下,我们介绍了Jabba,这是一种通过将它们映射到由第二代数据构建的经过校正的de Bruijn图上来纠正较长的第三代读取的混合方法。我们的方法的独特之处在于,此映射是使用种子和扩展方法构造的,并使用最大精确匹配作为种子。除了基准测试结果外,还提供了一些有关在第三代阅读中使用最大精确匹配的可能性和局限性的理论结果。

背景
第三代测序平台比第二代技术产生更长的读取时间和更高的错误率。虽然改进的读取长度可以为下游分析提供有用的信息,但底层算法受到高错误率的挑战。用准确的短读数来纠正有噪声的长读数的错误校正方法似乎对产生高质量的长读数很有吸引力。将短读与长读对齐的方法不能最优地使用第二代数据中包含的信息,而且运行时较大。最近提出了一种新的混合纠错方法,将第二代数据组装成de Bruijn图,然后将长读数据对齐。
 
结果

在此背景下,我们提出了一种混合方法Jabba,通过将长第三代读取数据映射到由第二代数据构造的修正的de Bruijn图上来修正长第三代读取数据。我们的方法的独特之处是使用伪校准方法和种子-扩展方法,使用最大精确匹配(MEMs)作为种子。除了基准测试结果之外,还介绍了在第三代读取环境中使用MEMs的可能性和局限性的某些理论结果。
结论
Jabba产生高度可靠的校正读数:几乎所有校正读数都与参考对齐,而且这些对齐具有非常高的一致性。许多对齐的读数是没有错误的。此外,Jabba使用非常少的CPU时间来纠正读取。由此我们得出结论,利用MEMs伪比对是一种快速而可靠的方法,可以在de Bruijn图上映射长且高度错误的序列。

背景
准确测定生物的DNA序列,即建立DNA分子中核苷酸A、C、G和T的精确顺序,是生物学中一个基础性和挑战性的问题。从本质上讲,这个过程包括两个步骤:(1)用化学方法对DNA进行测序,产生大量的reads;(2)基因组组装,对reads进行处理,重建完整的DNA序列。每一种测序技术都会产生包含错误的读取结果,不同平台之间的错误描述差别很大。第二代读取和第三代读取之间有明显的区别,第三代读取的特点是读取长度大大提高,但错误率也高得多。
 
对于第二代测序,我们主要考虑Illumina平台。不同的Illumina技术可以产生许多短的(100 300个核苷酸)读取,具有很高的准确性(2%的错误,主要是替换),高通量和低成本。新的算法,基于de Bruijn图,专门开发了有效处理装配大量的第二代测序数据。然后,短读取之间的重叠在具有k-mer(即长度为k的子串)的读取之间的线性时间内建立。然而,de Bruijn图中的重复分辨率受到第二代数据非常短的读取长度的严重阻碍。

最近,第三代测序技术(太平洋生物科学,2013;Oxford Nano Technologies, 2014)开始出现。太平洋生物科学公司的SMRT测序结果具有更长的reads(平均5000个核苷酸),尽管有更高的错误率(高达15%,大部分是插入和删除,少量是替换)。尽管有这么高的错误率,但由于错误在读取过程中是均匀分布的,因此可以获得非常高的一致精度。如果覆盖率足够高,并且正确地建立了读取之间的重叠,这种统一的错误分布允许非常准确的一致调用。利用de Bruijn图无法有效地计算这些重叠,因为较高的错误率会导致过多的错误k-mers。因此,已经发展了其他有效的方法来计算第三代读取之间的成对对齐

误差修正
对读取序列进行测序的过程通常涉及到将它们映射到其他序列,要么将读取序列彼此对齐以建立潜在的重叠,要么将它们映射到参考基因组。读取中的错误会给这些对齐带来噪声,导致比相应的无错误读取更弱的对齐。低额定值对准可能会被丢弃以供进一步分析,潜在地丢弃关键信息。当处理低覆盖率地区的低质量读取时,这可能会产生特别大的问题。为了处理这种序列噪声,可以采用误差校正方法。通过纠正读数中的错误,可以更准确地确定最佳对准,并更适当地评级,从而产生更好的下游分析,如从头组装的[3]。

Jabba: hybrid error correction for long sequencing reads using maximal exact matches机译:Jabba:使用最大精相关推荐

  1. Iterative error correction of long sequencing reads maximizes accuracy and improves contig assembly

    长序列读取的迭代误差校正可以最大限度地提高准确性,并改进叠架装配 抽象 新一代测序仪(例如Illumina)现在可以以高通量产生高达300 bp的读数,这对于基因组组装具有吸引力.基因组组装的第一步是 ...

  2. Hybrid Error Correction approach and DeNovo Assembly for MinIon Sequencing Long Reads

    Hybrid Error Correction approach and DeNovo Assembly for MinIon Sequencing Long Reads 混合纠错方法和从头组装的Mi ...

  3. Hybrid error correction and de novo assembly of single-molecule sequencing reads

    Hybrid error correction and de novo assembly of single-molecule sequencing reads 混合误差校正和重新组装的单分子测序读取 ...

  4. Ratatosk - Hybrid error correction of long reads enables accurate variant calling and assembly

    Ratatosk - Hybrid error correction of long reads enables accurate variant calling and assembly   长读的 ...

  5. Oxford Nanopore sequencing, hybrid error correction, and de novo assembly of a eukaryotic genome

    Oxford Nanopore sequencing, hybrid error correction, and de novo assembly of a eukaryotic genome 牛津纳 ...

  6. Bi-level error correction for PacBio long reads

    Bi-level error correction for PacBio long reads 双级错误校正PacBio长read 最新的测序技术,如太平洋生物科学公司(PacBio)和牛津纳米孔机器 ...

  7. Bi-level error correction for PacBio long reads. PacBio长读数的两级纠错

    Bi-level error correction for PacBio long reads. PacBio长读数的两级纠错 作者: Liu Yuansheng; Lan Chaowang; Blu ...

  8. Efficient Hybrid De Novo Error Correction and Assembly for Long Reads

    Efficient Hybrid De Novo Error Correction and Assembly for Long Reads       长read的高效的混合从头纠错和装配 Abstr ...

  9. ParLECH: Parallel Long-Read Error Correction with Hadoop

    ParLECH: Parallel Long-Read Error Correction with Hadoop  使用Hadoop并行的长读错误更正 Abstract: Long-read sequ ...

最新文章

  1. 乐观锁和悲观锁的区别(最全面的分析)
  2. linux go 安装
  3. uri和url的区别
  4. Java设计模式分为创建模式, 结构模式, 行为模式 3种类型
  5. mesos,marthon集群部署详细步骤
  6. 基于生成对抗的知识图谱零样本关系学习 AAAI2020
  7. python simdjson_python+json
  8. 饿了么想解决外卖小哥马路杀手的问题,但用无人机?
  9. Nothing is impossible!——致敬Uzi
  10. 计算机网络中的mac全称,计算机网络中MAC地址与IP地址
  11. Atitit 信息处理设备与历史与趋势 目录 1. It设备简史与艾提拉觉得常见重要的设备 2 2. 第一部分 IT萌芽期(约公元前4000年至1945年) 2 2.1. 苏美尔人的象形文字(约公元
  12. 浅谈算法和数据结构: 三 合并排序
  13. 【Elasticsearch】高亮查询 highlighting (一)
  14. 开源免费的pdf文档编辑器LibreOffice
  15. nginx判断手机端还是电脑
  16. windows 7 自带计算器详解
  17. Unity3D绘制两圆柱体相贯线
  18. RobotFrameWork(二)Ride简单使用及快捷键
  19. erlang使用httpc:request报错nxdomain
  20. 图纸设计管理平台,彩虹图纸管理软件设计管理功能

热门文章

  1. 服务器信号为970101,cDIN_EN_ISO_306.970101精选.pdf
  2. 一文详解点云库PCL
  3. 可逆矩阵性质总结_伴随矩阵
  4. pgsql 相关的命令
  5. js通过正则表达式解析xml 获取指定的内容
  6. Welsh色彩迁移算法
  7. Nat.Commun. | AI指导发现炎症性肠病保护治疗方法
  8. SMILES | 简化分子线性输入规范
  9. RDKit:化合物相似性搜索
  10. list对象_list对象,容量自适应的数组式容器