参考:https://www.biorxiv.org/content/biorxiv/early/2017/02/06/106252.full.pdf

Non Hybrid Long Read Consensus Using Local De Bruijn Graph Assembly

非混合长read共识 使用局部De Bruijn装配

While second generation sequencing led to a vast increase in sequenced data, the shorter reads which came with it made assembly a much harder task and for some regions impossible with only short read data. This changed again with the advent of third generation long read sequencers. The length of the long reads allows a much better resolution of repetitive regions, their high error rate however is a major challenge. Using the data successfully requires to remove most of the sequencing errors. The first hybrid correction methods used low noise second generation data to correct third generation data, but this approach has issues when it is unclear where to place the short reads due to repeats and also because second generation sequencers fail to sequence some regions which third generation sequencers work on. Later non hybrid methods appeared. We present a new method for non hybrid long read error correction based on De Bruijn graph assembly of short windows of long reads with subsequent combination of these correct windows to corrected long reads. Our experiments show that this method yields a better correction than other state of the art non hybrid correction approaches.

虽然第二代测序导致了测序数据的大量增加,但随之而来的较短read使得装配成为一项更加困难的任务,而且对于某些区域来说,仅使用较短的read数据是不可能的。

随着第三代长读测序仪的出现,这种情况再次发生了改变。

长读的长度允许更好地解决重复区域,但它们的高错误率是一个主要的挑战。

成功地使用数据需要消除大多数测序错误。

第一个混合校正方法用低噪声第二代数据正确的第三代数据,但是这种方法有问题时不清楚短读的位置由于重复也因为第二代测序失败序列一些第三代测序工作的区域。后来出现了非混合方法。提出了一种新的非混合长读纠错方法,该方法基于长读短窗口的德布鲁因图集,并将这些长读短窗口组合起来进行长读纠错。

实验结果表明,该方法比其他非混合校正方法具有更好的校正效果。

第一代测序可以确定重要基因组的基因组序列,如人类(cf.[14,28])和苍蝇(见[3])基因组。虽然该技术适合实现这些非常重要的目标,但对于许多应用程序来说,它太昂贵、速度太慢。第二代测序带来了高通量测序的出现,而且更加经济和快捷。

然而,第二代技术,特别是考虑到基因组组装的应用,其主要缺点是产生比第一代更短的读长。第二代读取通常不超过150个碱基对(bp)长,与以前使用的平均读取长度为700bp的第一代读取相比,能够更低地正确解析基因组重复区域。

像由太平洋生物科学公司(PacBIO)和牛津纳米孔公司(Oxford Nanopore)制造的第三代测序仪,其测序长度可达50000 bp,平均为15kb。此外,这些测序仪可以在单分子上工作,这在原则上使聚合酶链反应(PCR)变得不必要,从而消除了这一过程中产生的偏差。然而,这些特性的代价是平均基础错误率大大提高,达到15%甚至更高。这给算法带来了巨大的挑战。

有效地处理在许多情况下获得的数据,包括单核苷酸多态性(SNP)检测和基因组装配,需要纠正这些错误中的大部分。第二代错误校正主要处理短读数据中常见的替换错误,不适合处理长读数据,因为长读数据中的大多数错误是插入或删除。第一个用于纠正第三代读取错误的算法方法使用了第二代读取(参见[4,10,18,24])。这些方法被称为混合,因为它们结合了两种不同类型的测序数据。然而,这种方法不可避免地会遇到两个问题。

首先,如果长读重复了长读,而短读不能解决这个问题,那么往往不清楚在长读上应该将短读数据映射到哪里。其次,短读数据存在放大偏差,因此对于某些可以使用第三代技术成功测序的区域,将不会覆盖通过第二代数据。

最近建立了仅基于第三代数据的非混合方法(如[6,7,12,25])。提出了一种基于局部德布鲁因图集的非混合长读误差校正方法。虽然基于基因组宽的德布鲁因图的装配是不可行的使用长读数据,我们表明,即使在高错误率的情况下,德布鲁因图的方法在小窗口是有效的。实验表明,我们的方法与以前发表的工作是有竞争力的。

Conclusion 
 We have presented a new method for long hybrid long read error correction. The approach is practical and our implementation outperforms state of the art competitors in terms of reconstruction accuracy. In upcoming work we will discuss more involved alignment filtering to remove repeat induced alignments and thus improve error correction for long repeat regions. While our approach works for data produced by Oxford Nanopore sequencers the resulting corrected data still contains a high rate of errors. Solving this may require a more sophisticated model for sequencing events.

结论

提出了一种新的长混合长读纠错方法。该方法是实用的,我们的实现在重建精度方面超过了现有的竞争对手。

在接下来的工作中,我们将讨论更复杂的校准滤波,以消除重复诱导的校准,从而改进长重复区域的误差校正。

虽然我们的方法适用于由牛津纳米孔测序仪产生的数据,但得到的校正数据仍然包含很高的错误率。

解决这个问题可能需要一个更复杂的事件排序模型。

Non Hybrid Long Read Consensus Using Local De Bruijn Graph Assembly相关推荐

  1. HG-CoLoR用一个变阶de Bruijn graph混合校正高噪声长读数

    HG-CoLoR用一个变阶de Bruijn graph混合校正高噪声长读数 1 简介 几年来,长读长测序技术不断发展,可以解决大型复杂基因组的组装问题,在此之前,仅使用短读长测序技术很难解决这些问题 ...

  2. Metagenome Assembly - Part1:基于德布莱英图(De Bruijn graph)的宏基因组de novo拼接

    最近在做一批宏基因组数据的拼接工作,这里的拼接主要指从Read到Contig这个水平.然后因为是第一次做,有很多没懂的地方,在学习和实践的过程中,总结了一下.写成几篇博客记录一下,以后又不清楚了可以回 ...

  3. Toward perfect reads: self-correction of short reads via mapping on de Bruijn graphs

    走向完全读:通过在de Bruijn图上的映射,实现短读的自我校正 动机 短读精度对于下游分析(如基因组组装和杂交长读校正)非常重要.尽管在短读校正方面做了大量的工作,但是现在的校正器要么不能很好地在 ...

  4. Accurate self-correction of errors inlong reads using de Bruijn graphs LoRMA使用de Bruijn图对长read中的错误

    Accurate self-correction of errors inlong reads using de Bruijn graphs               LoRMA使用de Bruij ...

  5. (组合数学笔记)Pólya计数理论_Part.10_Pólya定理的推广——De Bruijn定理的母函数形式

    文章目录 写在前面 引入 模式清单 引理1 引理2 母函数型的De Bruijn定理 定理的特殊情况 XXX上没有置换群 YYY上没有置换群 X,YX,\,YX,Y上均没有置换群 例题 分析 写在前面 ...

  6. (组合数学笔记)Pólya计数理论_Part.9_Pólya定理的推广——De Bruijn定理

    文章目录 写在前面 问题引入 推导1 定理 推导2 De Bruijn定理 定理的特殊情况 CCC上没有置换群 HHH上没有置换群 C,HC,\,HC,H上均没有置换群 例题 分析 写在前面 总结推广 ...

  7. De Bruijn 序列生成的本原多项式方法

    De Bruijn序列可以看成是包含全0子序列的伪随机序列.伪随机序列是反馈移位寄存器的输出序列,可以通过反馈移位寄存器的本原多项式求出.50阶以内的反馈移位寄存器的本原多项式可以查表得到,下面表格给 ...

  8. 高通量测序技术和序列拼接算法探析

    高通量测序技术和序列拼接算法探析 时间:2019-05-27 来源:计算机科学 作者:周卫星,石海鹤 本文字数:16853字 摘    要: 高通量测序 (High-throughput Sequen ...

  9. Evaluation of hybrid and non-hybrid methods for de novo assembly of nanopore reads

    Evaluation of hybrid and non-hybrid methods for de novo assembly of nanopore reads 混合和非混合方法对nanopore ...

最新文章

  1. 《Android进阶之光》--多线程编程
  2. UI设计师必须收藏,超好用Figma工具包
  3. Linux 中的FHS文件系统风格标准---File Hierarchy Standard
  4. unity自带后期处理插件PostProcess
  5. 春运12306购票指南
  6. java+围棋+棋谱回放_聂卫平对战围棋高手Master完整比赛视频回放 全局棋谱复盘...
  7. 信道编码技术——卷积码编码与译码
  8. dxgi的概念以及奇怪问题处理
  9. html右键打印,怎么在鼠标右键添加打印选项?
  10. win10 Administrator账户被禁用怎么办?
  11. Android自带浏览器打开网页
  12. 数学猜想验证步骤_猜想验证思想在数学教学中的应用
  13. 计算机的USB接口可以扩展吗,电脑USB接口不够用怎么解决
  14. Servlet文件上传的实现
  15. php下载到指定目录,下面这段代码如何下载到指定目录
  16. 教师职称论文发表在哪些杂志有效
  17. 滚烫出炉:06中国IT十大财经人物
  18. PPT在线转换成视频的步骤
  19. Centos使用yum报错---网络问题
  20. 【算法讲11:卡特兰数】默慈金数 | 那罗延数 | 施罗德数

热门文章

  1. VS中dll以及lib生成路径设置
  2. 第三课.运算符与表达式
  3. 附录3:Pandas实例记录
  4. map集合遍历_集合框架的部分内容
  5. 双稳态电路的两个稳定状态是什么_振荡器基础4——什么是多谐振荡器(又称:弛张振荡器)?...
  6. 成年人过敏的N种变态表现
  7. 美国辛辛那堤儿童医学中心招生物信息博士, 博士后和访问学者——单细胞转录组和表观方向...
  8. excel中使用CORREL函数计算两个时间序列数据列之间的滚动相关性(Rolling correlations)、例如,计算两种商品销售额之间的3个月的滚动相关性
  9. R语言广义线性模型函数GLM、(Model fit and regression diagnostics)、模型充分性评估方法、使用plot函数以及car包函数
  10. R语言plotly可视化:plotly可视化水平直方图(Horizontal Histogram)