改进了使用FM索引的从头组装的长读校正

摘要

长读测序正在改变基因组研究的前景,特别是从头组装。尽管长读技术固有的高错误率,增加的读长极大地提高了基因组装配的连续性和准确性。然而,这些技术的成本和产量限制了它们在复杂基因组上的应用。

一种解决方案是通过利用“混合”程序集来降低组装新基因组的成本和时间,“混合”程序集使用长读来进行扫描,而短读来进行精确扫描。为此,我们描述了一个具有辅助FM索引的多字符串Burrows-Wheeler变换的新应用,该变换使用一组互补的短读来纠正长读序列中的错误。结果表明,与现有的混合纠错方法相比,该方法能有效地生成高质量的纠错序列。我们证明了我们的方法与最先进的混合和长期阅读的新组装方法的有效性。

Introduction

从头开始的基因组组装从所谓的“长读”测序技术的引入中获得了巨大的收益这些技术,如Pacic Biosciences的SMRT测序和Oxford nanopore technologies的nanopore测序平台,产生的读数通常为10k碱基,而不是数百碱基这些读取可以跨越基因组的重复或低复杂区域,以前只能使用“短”的下一代测序。不幸的是,这些长读技术相对较高的错误率带来了新的信息学和分析挑战。为了实现全基因组组装的这些长读的潜力,纠正这些错误需要有效和精确的方法[10,2,16,22]

长读纠错算法可以大致分为自纠错算法和混合纠错算法。
自校正算法只使用其他长读序列校正长读。包括sprai[20]、hgap[10]和pbcr[16]在内的自校正算法将长读数据相互对齐并生成一致序列。为了产生准确的一致性,这些方法需要较高的长读序列覆盖率来克服高错误率。
不幸的是,相对较高的每一个精确核苷酸的成本  长读排序技术通常使得仅使用长读的深度排序变得昂贵。

相比之下,混合校正算法使用相同样本的短读排序来补充和校正长读。短读测序的测序错误更少,每个碱基测序的成本更低,因此每个准确的核苷酸的成本要低得多。目前最先进的混合校正算法包括LoRDEC[22]、Cerulean[26]、ECTools[14]、DBG2OLC[9]和hybrid spades[1]。这些混合方法通常能够以更低的成本构建比专门的长读组装方法更精确连续的组装。

要使这两种方法对生物医学或经济上重要的大型复杂基因组有用,关键的挑战是在尽可能短的时间内用最少的计算资源尽可能准确地进行组装。当前的方法在高性能计算集群上通常需要花费数百到数千个小时来访问具有大内存配置的许多节点[4,22]。考虑到为程序集确定适当的参数通常是一个迭代过程,这些高计算成本是一个障碍。

我们引入一个新的混合方法纠正错误读序列称为FM-index长读校正(FMLRC)纠正读取使用多层管柱burrows - wheeler变换(BWT)变体已经适应了字符串集合[3]和FM-index短期看测序数据集的隐式de Bruijn图[6](见图4)。FMLRC可以使用各种输入读取和不需要预装配的短的读取。简而言之,我们从一组如Illumina序列这样的短的高精度读序列中构造了一个多串BWT。这个多字符串BWT允许数据压缩和多个数据集[15]的组合。

此BWT用作隐式的de Bruijn图,以实现类似于LoRDEC[22]中使用的种子-扩展或种子-桥接策略。LoRDEC 首先短读[22]中生成一个由k-mers组成的de Bruijn图。Then,图被修剪,这样任何低频k-mers (speci ed的user-de ned threshold)从graph.中删除然后将长读数据与此图进行比较,并将其划分为标记为实读或弱读的区域。实体区域内的所有k-mers都包含在经过修剪的短读de Bruijn图中。弱区域内的所有k-mers都不在de Bruijn图中。一般情况下,LoRDEC的假设是,弱区是由排序错误引起的,应该用de Bruijn图中最接近的、重叠的k-mers序列替换。When弱内部区域一致格ed长read, anking固体k-mers作为一座桥连接的端点(or path) de Bruijn连接两个固体regions.如果有多个支持的桥,则选择与原始序列编辑距离最近的桥。图的头部和尾部是对称的特殊情况,只有一个边的实体区域。在这两种情况下,LoRDEC都会搜索与弱头尾序列最匹配的单个实体区域的最佳扩展。

虽然LoRDEC已被证明可以纠正长读序列[22]中的大部分错误,但用户必须选择一个经过筛选的短k-mer大小和经过筛选的阈值进行修剪。使用显式的de Bruijn图从根本上限制了LoRDEC解决重复或低复杂度元素的能力,这些元素的长度超过k。在de Bruijn图中,低复杂度序列往往看起来像“相互连接的节点的毛团,其中有太多可能的路径可供探索”。当LoRDEC进入一个低复杂度区域时,它通常无法找到一个路径,因为它达到了自己对图数据探索的限制。此外,参数通常是启发式地选择的,更改参数需要在重新运行校正之前重新计算整个de Bruijn图。

相比之下,FMLRC发现k-mer种子“在BWT中具有高支持度的长读序列,然后在种子之间搜索最符合中间长读序列的高权重路径。多次校正通过使用增加锚点大小,k,允许我们解决小规模的错误,同时避免不准确的de Bruijn图遍历造成的重复k-mers短。由于fm索引可以搜索任意长度的子字符串,因此我们的方法不受限于单个装箱的k-mer大小,因此它表示所有可能的de Bruijn图读取测序数据。此外,BWT是短读的无损编码,允许动态调整任何修剪阈值,而不需要重构整个de Bruijn图。我们的方法是独特的,因为它适用于短k-mer和长k-mer de Bruijn图的校正过程,允许校正算法通过低复杂度区域进行校正,直到长k-mer的大小。我们的方法概述如图1所示。

FMLRC是一种用于纠正长序列错误的混合方法,它的关键优点是使用了具有FM-index的BWT,可以通过隐式的de Bruijn图构造路径来迭代纠正任意长度序列的错误。
图中k-mer节点的存在性使我们能够比现有的混合纠错方法更有效地解决低复杂度和重复的元素,并具有更高的准确性。
我们通过比较使用现代重叠布局汇编和FMLRC的长读汇编来说明这一点。

Improved long read correction for de novo assembly using an FM-index相关推荐

  1. Oxford Nanopore sequencing, hybrid error correction, and de novo assembly of a eukaryotic genome

    Oxford Nanopore sequencing, hybrid error correction, and de novo assembly of a eukaryotic genome 牛津纳 ...

  2. Hybrid error correction and de novo assembly of single-molecule sequencing reads

    Hybrid error correction and de novo assembly of single-molecule sequencing reads 混合误差校正和重新组装的单分子测序读取 ...

  3. MECAT: fast mapping,error correction, and de novo assembly for single-molecule sequencing reads

    MECAT: fast mapping,error correction, and de novo assembly for single-molecule sequencing reads MECA ...

  4. de novo assembly是新的基因组装配

    de novo assembly是新的基因组装配,(de novo 的意思是全新,assembly是序列拼接),即在没有参考序列的情况下进行序列拼接,对未知基因组序列进行测序,利用生物信息学分析手段, ...

  5. The power of single molecule real-time sequencing technology in the de novo assembly of a eukaryotic

    The power of single molecule real-time sequencing technology in the de novo assembly of a eukaryotic ...

  6. Tools and Strategies for Long-Read Sequencing and De Novo Assembly of Plant Genomes

    Tools and Strategies for Long-Read Sequencing and De Novo Assembly of Plant Genomes 用于植物基因组长读测序和从头组装 ...

  7. Evaluation of hybrid and non-hybrid methods for de novo assembly of nanopore reads

    Evaluation of hybrid and non-hybrid methods for de novo assembly of nanopore reads 混合和非混合方法对nanopore ...

  8. Genome-scale de novo assembly using ALGA 使用ALGA进行 基因组规模的从头组装

    使用ALGA进行 基因组规模的从头组装  Sylwester斯瓦特, 阿图尔·拉斯考斯基(Artur Laskowski ) 扬·巴杜拉(Jan Badura ) 沃伊切赫Frohmberg , 帕维 ...

  9. Hybrid Error Correction approach and DeNovo Assembly for MinIon Sequencing Long Reads

    Hybrid Error Correction approach and DeNovo Assembly for MinIon Sequencing Long Reads 混合纠错方法和从头组装的Mi ...

最新文章

  1. vue在created调用点击方法_vue中created、mounted等方法整理
  2. java HashMap和LinkedHashMap区别
  3. OnScrollListener回调分析
  4. 利用Excel或LibreOffice的业务输入进行单元测试约束
  5. java定义一个方法,向控制台输出99乘法表
  6. Java thread(4)
  7. 关于cocos2dx 3.x版本移植 dragonbones 4.5版本的解决方案
  8. 大师林语堂的英文学习要诀
  9. Postman下载与安装操作步骤【超详细】
  10. python算法书籍-推荐 10 本程序员必读的算法书
  11. IGBT基本工作原理及IGBT的作用是什么?
  12. linux polkitd 漏洞,Ubuntu Linux中的特权提升漏洞Dirty Sock分析(含PoC)
  13. 淘宝API签名异常,如何正确计算SIGN参数?(error code:25 Invalid Signature)
  14. nepctf pwn easystack(_stack_chk_fail)
  15. java通过SMS短信平台实现发短信的功能
  16. 电脑连接手机Termux后保持在后台运行
  17. NISP二级证书换CISP证书是怎么回事?
  18. 2012年第23周限时免费游戏应用点评
  19. IT审计?CISA?
  20. 编写程序,从键盘输人 10个整数,之间以一个空格隔开,存放在一维数组中。找出值最大和最小的元素,第一行输出最大值及其所在的元素下标,之间以一个空格隔开;第二行输出最小值及其所在的元素下标,之间以一个空

热门文章

  1. cesium 渲染解析(Scene的调度机制)
  2. osgEarth3.0 加载天地图
  3. 摊牌了,巴塞罗那自治大学3D视觉课件(免费获取)
  4. 立体匹配成像算法BM,SGBM,GC,SAD一览
  5. React +antd +wangEditor 富文本编辑器
  6. Advanced Sci | 打破生成式深度学习限制:低量数据下的“one-shot”药设计法
  7. 英语中那些缺钱的表达~
  8. Android中的service全面总结
  9. 电脑主板跳线_电脑基础进阶必学知识,详解电脑主板跳线!
  10. 在线作图|如何绘制一张三元相图