A Crowdsourcing Method for Correcting Sequencing Errors for the Third-generation Sequencing Data

一种用于纠正第三代测序数据的测序错误的众包方法

第三代测序数据在读取长度上显示出极大的优势,极大地有利于基因组分析。然而,第三代测序数据意味着错误模型不同于第二代数据带来的。建议纠正测序错误,可显著减少下游分析的误报。现有的纠错方法在混合读取呈现多样性或覆盖范围变化时,往往会出现精度损失。在本文中,我们提出了一种基于众包策略的新方法,并将其实现为CLTC。

CLTC也是一种混合校正算法,它由四个步骤组成。首先收集第二代读取并将其映射到第三代读取。然后,定义基础困难度,描述第2代读断量所覆盖的一组基础之间的差异。对每个第2代读断的能力进行评估,它考虑整个读的基本困难级别、重叠读之间的一致性以及第2代和第3代读之间的映射质量。设计了一种计算能力的启发式算法。最后使用期望最大化算法来计算每个碱基对的校正结果。我们在不同的数据集上测试CLTC,并与现有的方法进行比较。结果表明,该算法具有较高的精度较快的执行速度

关键词第三代测序数据,测序误差,误差修正方法,混合众包算法

Introduction

近几十年来,DNA/RNA测序提供了分子多态性的全面图景。它还加深了对许多疾病(如癌症)的遗传流行病学的认识,这为精确诊断和治疗提供了临床意义[1,2]。作为一对相互促进的技术,测序技术本身也在迅速发展。如今,第三代测序技术正在兴起。开发了PacBio系列、Oxford NanoPore等新型测序平台。一些著名的基因组测序项目,如1000个基因组,正在发布第三代测序数据用于基因组分析和方法开发[3]。

虽然不同的技术在获取DNA片段信号方面存在差异,但第三代测序数据在读取长度上具有很大的优势。与第二代测序产生的100 ~ 200个碱基对的读取长度相比,第三代测序能够将平均读取长度扩展到1k-10k的范围。得益于这一巨大的进步,研究人员能够研究更大、更复杂的基因组变异[4,5]。该方法在提高纯度、克隆估计、倍性检测等方面也有一定的应用前景。毫无疑问,随着准确性通量(并行测序能力、酶活性等)的提高,新一代测序必将在未来一段时间占据主导地位。

然而,由于技术的限制,基因组的物理结构(如基因组缠绕的三维空间结构)仍然在很大程度上影响着测序的准确性。测序误差是不可避免的。不同代的测序数据具有不同的测序错误模式。第二代测序通常带有替换错误,这种错误更可能发生在测序读取[8]结束时。据报道,第三代测序读包含一组隐藏的错误,其读的位置可能遵循均匀分布。换句话说,这些误差被认为与序列比对无关。在第三代数据中,大多数报告的测序错误是插入和较小程度的删除[9]。替换错误的比例很小。

如何捕获排序错误的模式并加以修正是一个重要的计算问题。这是一个有意义和价值的步骤,在多个基因组分析管道,以防止排序错误转移到下游的分析。否则,测序错误将严重影响变异调用[4,5]、基因组装配[10]等生物信息学工具的性能。一些先锋研究评估了PacBio SMRT[11]和Oxford NanoPore[12]的误差模式。近年来,出现了一系列新的计算模型和算法被设计用于误差校正。根据给定数据的类型,现有的方法可以分为两类。

第一类是自我修正方法。核心思想是比较第三代读法(缩写为long reads, LRs)。这些算法包括PBcR[10]、HGAP[11]和LoRMA[13]。他们计算每组长读之间的重叠片段,然后根据对多个比对的评估进行错误校正。但是,这些方法需要高水平的覆盖率来确保质量。在某些算法中,过多的错误k-mers可能会显著降低识别效率。

混合校正方法属于第二类,既使用长读,又使用第二代读(缩写为short reads, SRs)。误差修正是在长读和短读的不同误差模式比较的基础上进行的。这些算法包括PacBioToCA[9]、LoRDEC[14]、Jabba[15]、LSC[16]proovread[17]等。在这些算法中,经常交替使用对齐装配步骤。对齐步骤将短读调整为长读,而组装步骤则基于短读构造一个de Bruijn图。这种混合校正方法在实际应用中更受欢迎,因为它不仅具有较高的精度,而且大多数项目同时具有第二代和第三代测序数据。

在本文中,我们还采用了混合校正策略。我们正在努力提高准确性和速度性能。当混合读取呈现多样性或覆盖范围变化时,现有的方法往往会出现精度损失。现有方法中最耗时的部分是组装步骤。我们提出了一个众包标记和选择模型来克服这些弱点,这也是机器学习[18]的一个热门研究课题。我们的方法基于以下观察:长读通常比短读有更高的错误率。因此,如果我们将短读映射为长读,则映射位置是有偏差的。该校正是一个计算问题,以找到最低数量的碱基对重叠长读,以修复偏差。我们提出的新方法被实现为CLTC软件。针对低质量读取和低覆盖率的情况,CLTC在长读的基础上引入了每个基的难度级别。困难度是用来描述它所涵盖的短篇阅读之间的多样性的。CLTC还介绍了每个短读的能力,它考虑了覆盖基的难度、映射质量重叠短读之间的一致性。通过期望最大化算法,进一步聚合短读来估计长读的未知真基。我们在不同的数据集上测试CLTC,并将其与两种流行的混合校正方法LoRDEC和proovread进行比较。结果表明,在不同的配置下,CLTC通常比现有的CLTC具有更高的精度和更快的性能。

结论

第三代测序技术在读取长度上显示出优势,极大地方便了基于测序数据的基因组分析。处理测序错误是应用第三代测序数据的挑战之一。混合校正是目前流行的第三代测序数据误差校正策略。提出了几种基于混合校正策略的算法。然而,现有的方法通常需要高水平的覆盖率,并在覆盖率变化时暴露弱点。一些方法还受到运行时间和内存消耗的限制。

在本文中,我们提出了一种新的混合校正方法,它将众包标记和选择模型相结合。它不仅能够在低覆盖率的情况下提高性能,而且还优化了运行时间内存消耗。仿真实验表明,该方法在短读覆盖率降至20倍时,仍能达到97%的正确率。在不同的模拟配置下,它在多个关键指标上的性能优于两个流行的工具LoRDEC和proovread,并改进了运行时间和内存消耗的使用。对于未来的工作,我们正在为第二代测序设计一个新的过滤器,这可能会进一步限制校准相关的工件。此外,我们正在设计一个交叉验证步骤,其中考虑了重叠长读的信息。

A Crowdsourcing Method for Correcting Sequencing Errors for the Third-generation Sequencing Data 一种用相关推荐

  1. Denoising DNA deep sequencing data—high-throughput sequencing errors and their correction

    去噪DNA深度测序数据,高通量测序误差及其校正 Abstract 描述常见高通量测序平台产生的错误并从技术人工制品中识别出真正的遗传变异是两个相互依赖的步骤,对许多分析如单核苷酸变异调用.单倍型推断. ...

  2. Corrigendum: A window into third generation sequencing

    Corrigendum: A window into third generation sequencing  勘误表:第三代测序的窗口 抽象 第一代和第二代测序技术引领了基因组学领域及其他领域的革命 ...

  3. Moving Towards Third‐Generation Sequencing Technologies 迈向第三代测序技术

    Moving Towards Third‐Generation Sequencing Technologies 迈向第三代测序技术 Within just the past few years, ne ...

  4. Vue相关面试问答TOP2(能不能在method中使⽤箭头函数、如何定义组件的data、v-if 和 v-show的区别、computed、watch、methods的区别、axios的特点....)

    1.能不能在method中使⽤箭头函数?               理论上可以使⽤,但是我不会使⽤,因为箭头函数中的this的指向与⼀般函数不同 ⼀般函数执⾏调⽤ 它的对象              ...

  5. LoRDEC: a tool for correcting errors in long sequencing reads 纠正长序列读取错误的工具

    LoRDEC: a tool for correcting errors in long sequencing reads Eric Rivals 21st August 2015 Abstract ...

  6. Jabba: hybrid error correction for long sequencing reads using maximal exact matches机译:Jabba:使用最大精

    Jabba: hybrid error correction for long sequencing reads using maximal exact matches 机译:Jabba:使用最大精确 ...

  7. Single Molecule Real-Time Sequencing

    Single Molecule Real-Time Sequencing Published July 9, 2016 Recently, I have witnessed the uprising ...

  8. Long-read sequencing for improved analysis

    OEM代工 ,NGS ,Tecan合作 ,基因组学 ,Cavro ADP 下一代测序现已在整个生命科学领域得到广泛使用,但是常用的短读测序方法经常会受到GC碱基对的影响.结合短读数固有的作图模糊性,通 ...

  9. PacBio SMRT Sequencing

    细节 CD Genomics 提供 PacBio SMRT 测序以补充我们的 NGS 设施.通过利用 PacBio 开发的长读长和单分子测序能力,我们很自豪能够提供先进的基因组 从头 组装解决方案和全 ...

最新文章

  1. 不懂编程可以自学python吗-给初学python的朋友的一些忠告和建议
  2. html5表单动态添加,js动态添加表单实例
  3. mysql-修改root密码的方法
  4. php定时红包,PHP随机红包和等额红包的简单实现
  5. java三个取最大值、菜单新增修改、猜数字大小
  6. DevOps知识地图实践指南
  7. 【AdaBoost算法】积分图代码实现
  8. 006 认识BeanNameAware
  9. Is there anyway to discover which ip addresses are connected to the db?
  10. 使用Nexus3搭建Maven私服+上传第三方jar包到本地maven仓库
  11. 移动磁盘哪种格式更好
  12. 拓端tecdat|使用R语言随机波动模型SV处理时间序列中的随机波动率
  13. DeBank和非小号网站的数据分析-实习工作小结
  14. 您使用的是不受支持的命令行标记 -no-sandbox
  15. python爬虫入门爬取lpl选手价值排行榜
  16. 蓝桥杯单片机决赛(国赛)第十一届题目加代码
  17. 将Dos文档格式转换为Unix格式
  18. MC.9,库存分析,LIS之乱谈一气
  19. 【5】依赖注入DI(Dependency Injection)
  20. 搭建YApi接口管理平台+IDEA插件easyYapi一键生成接口动态发布到YApi平台

热门文章

  1. 通过pcl 库的八叉树方法实现点云压缩与解压缩
  2. 2021院士候选人,近150人获提名!看看有没有自己的母校~
  3. 如何将深度学习研究论文实现为代码的几个要点
  4. 汇总|实时性语义分割算法(全)
  5. python批量jpg转png(顺序排列1.2.3……)、修改文件夹尺寸
  6. 创建一个触发器新增字段的时候设置某个字段的值
  7. NLP(2) | 中文分词分词的概念分词方法分类CRFHMM分词
  8. 根据某一列的进行去重的小工具----duplicated.exe
  9. Clumpify:能使 Fastq 压缩文件再缩小 30% 并加速后续分析流程
  10. 【不容错过】12月10日:纳米孔测序科研团队大会NCM 2020亚太区特别专场