原文为《Sparc: a sparsitybased consensus algorithm for long erroneous sequencing reads》,鉴于PeerJ期刊2016年6月8日(影响因子为2.183,投稿命中率为52.22%,在各类SCI期刊中属于比较普通的水平)

第三代测序(3GS)技术可以产生数千个碱基的长序列。然而,其目前的错误率估计在15-40%,明显高于目前流行的下一代测序(NGS)技术(不到1%)。基本的生物信息学任务,如基因组从头组装和变异呼叫,需要从这些长但错误的3GS序列中提取高质量的序列。

结果。我们描述了一个通用和高效的线性复杂度共识算法Sparc,以促进基因组从头组装。Sparc利用目标基因组区域的序列集合构建稀疏k-mer图。通过稀疏诱导重加权图搜索最接近最可能基因组序列的最重路径作为共识序列。Sparc支持将NGS和3GS数据结合使用,这大大提高了成本效率和计算效率。

Sparc实验表明,利用PacBio和Oxford Nanopore测序技术,我们的算法可以有效地提供高质量的一致序列。Sparc仅使用30× PacBio数据,可以达到0.5%的误差率。对于更具挑战性的Oxford Nanopore数据,Sparc也可以在与NGS数据结合时获得类似的错误率。

与现有方法相比,Sparc计算一致性的准确性更高,内存和时间减少约80%。

摘要:

Sparc软件通过高效的线性复杂度一致性算法,将目标基因组区域的序列构建k聚体图,帮助基因组的从头组装。权重最大的路径最近似于基因组真实序列,通过稀疏分解诱导的算法对序列图谱不断重新调整权重,从而得到一致性序列。Sparc 能够支持同时使用NGS和3GS数据,极大改善成本和计算方法有效性。

使用测序深度为30× 的PacBio 数据,Sparc能够达到错误率低于0.5%;使用更具有挑战性的OxfordNanopore 数据,Sparc能够达到和NGS数据相似的错误率。与现行方法相比,Sparc对于一致序列的计算更加准确,并且节省80%的内存和时间。

前言:

与前面几代测序技术相比,三代测序技术在每个片段能够提供5-120kb的读长。然而,根据2012年和2015年两篇文献的介绍,Pac Bio测序错误率大约为15%(2012年),OxfordNanopore 测序的错误率高达40%(2015年),高的测序错误率为使用3GS测序进行基因组拼接提出了很大的挑战。

使用三代测序数据进行基因组的从头组装,主要需克服三个瓶颈:1)找到重复序列;2)序列对比;3)序列优化/序列纠错。高效地纠正这些长错误序列是个重大的难题,下图显示这三个主要挑战,其中最后一步是这篇文献的主要解决的问题:

一致性算法对于基因组拼接非常关键,有以下几个原因:1)一致性算法是汇编程序产生高质量输出结果的必要部分。2)纠错程序提高了输入序列的准确 度。每个组装重叠序列(或者称为主干序列-backbone)作为靶序列,每次测序结果作为查询序列(query sequences)与靶序列对比。另一种情形,每个长错误测序结果作为靶序列,NGS或者3GS序列作为查询序列;通过同时使用NGS数据和3GS数据,即混合组装方法,是广泛采用的组装方法。由于NGS短序列的成本更低、准确率更高,因此将两种数据结合可以降低成本,并且缓解整个管线的计算压力。3)最后一个步骤占用了大部分的计算时间,因此,高效的一致性算法极大地加速了基因组组装过程。

我们借助了着名的de Bruijn/k聚体图,针对3GS数据设计了一种更简便的方 法。在我们的sparc算法中,每个节点是一个k聚体,为节省内存,同一位置的k聚体进行合并,k聚体之间的连接的得分代表连接的可靠性,因此,最终得分 最高的路径是最近似于一致序列。Sparc可以在低内存的条件下提供极好的结果,而不用使用其他作图简化技术。由于技术的简便性,此算法相比较主流的 3GS测序项目PBdagcon,速度加快五倍,内存也节省五倍。此外,由于主流NGS测序数据的准确性(>99%)更高,所以利用成本更低的NGS代替部分高成本的3GS数据是值得的,在混合情形下,Sparc能够提供高质量的结果。

实验方法:

1、搭建原始图

首先搭建一个原始的k聚体图,称为backbone(骨 架),即靶序列,k聚体是位置特异的,不同的位置相互独立。将k聚体分配到每个位置占用大量内存,特别是在下一个实验步骤。为了节省内存,我们构建一个稀疏k聚体图,在每g个碱基存储一个k聚体,从而减少高达1/g的内存消耗。同时我们记录k聚体节点之间的连接,连接的得分代表相应路径的置信度。在原始图 中,连接的多样性是1,因此连接的得分是1。

2、与靶序列对比,建立全景图

(i) 如果查询序列显示新的路径,我们建立一个 分支,分配新的k聚体节点和连接。如下图3b中显示,当我们将Seq1的最后六个碱基与靶序列对照时,两个新的连接ACC和AAA 的复杂性是1,分配一 个k聚体节点。(ii) 如果查询序列和现有序列完美契合,我们不分配新的节点,而是增加连接的得分,我们也可以从下图3b中看出,当我们对照Seq1序 列的前五个碱基时,节点AC, GG和连接 TGG 和原靶序列重合,并且连接得分增加1分。当我们和现有图对照Seq2的最后六个碱基时,节点和连接与 Seq1重合,连接得分增加1分。这个构图过程和de Bruijn做图方法相似,但是我们区分了节点以及他们的位置。

3、调整图的权重得分通 过上一步骤,得分最高的路径具有最高的置信度,也就是最接近于真实的序列。然而,直接使用这个结果可能导致错误,一个简单的例子是长的插入错误,为了避免这种情况的发生,我们将连接得分减去一部分,减去的这部分取决于覆盖率。同时引入参数b增加可靠连接的权重(b=5~10)。

4、输出结果

实验结果:

Sparc已经在多种数据集上进行了测试,我们的实验是基于对PacBio数据集和OxfordNanopore数据集的测试。Sparc是一个碱基水平的一致性算 法,公平起见,我们用我们的程序和最相似的项目PBdagcon(主要用在HGAP和MHAP管线用来纠正序列)做了对比。

两个程序都输入一样的数据,得到组装骨架和用DBG2OLC收集每一个骨架有关联的序列。Blasr用来序列对比,最后的一致错误率通过MUMmer3里的ednadiff方程来计算。所有的实验都在一个用AMD Opteron2425HE CPUs的工作站(800MHz)。在一些实验中,我们提供二代和三代测序数据,在这些混合的组合中,50XIllumina汇编重叠群也包含在内,边界权重增长b=5~10。测序深度为 50X的Illumina提供中等的覆盖度从而允许现成的基于deBruijn图谱的汇编程序来汇编高质量重叠群。

在PacBio数据集,我们设置k=1,g=1,并运行一致算法四轮。每一个碱基的错误率在1/2/4轮次后在表1和2中分别报告为ERR1,ERR2和ERR4。在第一个实验中,我们使用大肠杆菌PacBio数据集和用不同的覆盖度测试其准确性。DBG2OLC用10X/30X的测序深度得到的最长骨架分别是1.3Mb和4.6Mb。 一个重要的汇编情境就是当我们既有二代又有三代测序数据时,我们发现Sparc可以实现混合汇编,而且使它们都有很高的计算效率和很好的成本效率。两轮之后,Sparc在混合数据处理方面只用10X的测序深度就可以达到0.09%的错误率,相比PBdagcon的0.64%的错误率是一个明显的飞跃。当用30X的测序深度时,结果正如预期一样更好(0.02%)。算法运行两轮以上结果将更加改善,表1和表2中有其各自运行两轮的时间。

Sparc对大量数据的测序表现更好,我们展示了Sparc和PBdagcon在一个更大的20X的PacBio A.thaliana 数据集 (基因组大小:120 Mbp)。DBG2OLC得到的最长骨架是7.1Mbp。Sparc跑完用了PBdagcon五分之一的时间和内存,但却产生了更精确的结果。这里我们用一个由MHAP得到的纯PacBio全基因用作参考系来计算错误率。

在Oxford Nanopore数据集中,考虑到较高的误码率我们设置k=2,g=2,运行一致算法四轮。每一个碱基的错误率在1/2/4轮次后在表3中被报告为ERR1/2/4。第一、二行为仅使用Oxford Nanopore(ON)的数据,第三、四行为使用混合数据的结果。

即使原始错码率可能高达40%,我们程序的测试错码率都低于0.5%。与此相反,非混合数据得到的结果则不那么有用。在本次测试中最长的骨架是4.6 MBP。两个程序运行四轮的时间报告在表3中。

Sparc对不同参数相对不是很敏感,因此即使对初用者来说也很容易使用。我们在第二轮变换了参数,只用PacBio数据。表4中报告了不同k、g相对应的内存、时间和结果质量。使用稍大尺寸的k聚体会增加每个碱基测序的准确性,这个效应对多倍基因组更明显。但是,这也增加了内存的使用,因为支链节点也相应产生。设置一个大一点的g可以帮助我们减少内存的消耗,不同的权重增加的对二代测序数据在混合一致数据中的影响可以在表5中得见。经验得出,在不影响准确性的前提下,这个参数被设置为b=5~15比较安全。实践中,我们将它设为一个比较低的值(b=5~10),从而更好地使用三代测序数据。

实验结论:

一致模型是一个重叠-布局-一致汇编程序框架的关键组成部分。随着三代测序技术的引入,它的重要性在进一步提高。在这项工作中,我们验证了一个简单但是高效的一致算法:使用k聚体作为基础模块和从位点特异的k聚体图谱可以产出高质量一致序列,它支持混合测序这一点使得成本效率和计算效率大大提高。该方法可望显着扩大其在测序纠错和变异发现方面的应用。一致测序质量也可以通过平台特异性、信号信息的整合进一步得到提高。

新一代测序技术Sparc相关推荐

  1. 从实验室走向大众,一文读懂Nanopore测序技术的发展及应用

    关键词/Nanopore测序技术    文/基因慧 随着基因测序技术不断突破,二代测序的发展也将基因检测成本大幅降低.理想的测序方法,是对原始DNA模板进行直接.准确的测序,消除PCR扩增带来的偏差, ...

  2. 基因测序3——三、四代测序技术来势汹汹,国产化仍在布局二代测序?

    基因测序3--三.四代测序技术来势汹汹,国产化仍在布局二代测序? 和义广业创新平台 为医械创新创业者提供一站式产业转化服务 取消关注 1 人赞同了该文章 导读 [行业分析]基因测序系列,将聚焦基因测序 ...

  3. 单分子测序技术取得重要突破

    单分子测序技术取得重要突破   由Oxford Nanopore 和Pacific Biosciences 公司开发的新的DNA 测序技术可以直接读取DNA 单分子序列,并能更清晰地观察到基因组组织结 ...

  4. 单分子实时测序技术的原理与应用

    The principle and application of the single-molecule real-time sequencing technology [题 名]单分子实时测序技术的 ...

  5. 高通量测序技术和序列拼接算法探析

    高通量测序技术和序列拼接算法探析 时间:2019-05-27 来源:计算机科学 作者:周卫星,石海鹤 本文字数:16853字 摘    要: 高通量测序 (High-throughput Sequen ...

  6. 解读生命密码的基本手段 ——DNA测序技术的前世今生

    DNA( 脱氧核糖核酸 ) 和 RNA( 核糖核酸 ) 是 生命体的两种最基本组成物质,其序列的组成和变 化造就了形形色色的生命世界.这两种承担了生命体遗传信息载体功能的物质,一方面在生命的不断 繁衍 ...

  7. 基因测序技术发展历史及一、二、三代测序技术原理和应用

    基因测序技术发展历史及一.二.三代测序技术原理和应用 红皇后学术 公众号:红皇后学术(ID: zzlphs2516) 已关注 125 人赞同了该文章 基因测序技术 基因测序技术也称作DNA测序技术,即 ...

  8. 全面解读MinION纳米孔测序技术及应用

    全面解读MinION纳米孔测序技术及应用 link:https://www.seqchina.cn/467.html [测序中国] paper:The Oxford Nanopore MinION: ...

  9. 《生物信息学:导论与方法》----新一代测序NGS:重测序的回帖和变异鉴定----听课笔记(八)

    第五章  新一代测序NGS:重测序的回帖和变异鉴定 5.1  新一代测序 从二十世纪前,人类认识到DNA的重要性后,一直以来将测序----确定一个特定DNA分子的序列----作为理解生命的重要方法. ...

最新文章

  1. lammps linux运行命令,[转载]linux下 lammps的安装以及计算初步使用
  2. R语言使用lm构建线性回归模型、并将目标变量对数化(log10)实战:可视化模型预测输出与实际值对比图、可视化模型的残差、模型预测中系统误差的一个例子 、自定义函数计算R方指标和均方根误差RMSE
  3. 802.11ac和SD-WAN有什么联系?
  4. 求1~n的全排列组合
  5. qhfl-9 微信模板消息推送
  6. java扑克牌抽牌_[java,2018-06-26] 扑克牌抽牌求和问题
  7. Swift 协议protocol
  8. javaone_JavaOne 2016后续活动
  9. 关于产品经理,常见的这六个误区,你中招了几个?
  10. Linux操作系统相关命令
  11. 汇编proto、proc、invoke伪指令与函数声明、函数定义、函数调用
  12. 【中国数据创新琅琊榜】萨纳斯大数据实验室,高校大数据教学、实训、人才培养的最佳选择!
  13. 如何推动数字经济新时代产业转型升级
  14. 各种音频线的阻抗(数字音频线,模拟音频线,麦克音频线,拖拽音频线)
  15. 3Dmax_三维模型无法处理平滑解决方案
  16. Caused by org.springframework.beans.factory.NoSuchBeanDefinitionException
  17. 【转载】软件测试行业趋势分析和思考
  18. android做试卷的页面,《Android UI界面设计》17移动互联网A卷试题和答案(3页)-原创力文档...
  19. “老百姓就是这么容易满足” ——王自健的脱口秀
  20. css3贝塞尔曲线_CSS3动画–使用贝塞尔曲线创建具有弹跳效果的扇出

热门文章

  1. slam开发|adb的用法一些总结
  2. ICCV 2021 | 最新开源!多视角几何和注意力机制实现新视角合成
  3. INQ渐进量化方法详解
  4. RDKit toolkit实战三:描述符计算及可视化
  5. 不显示调用super_super关键字
  6. mysql load报错_mysql:执行LOAD DATA LOCAL 报错
  7. 在线绘图|2分钟轻松搞定桑基图(Sankey diagrams)
  8. 沈阳生态所在保护性耕作促进农业可持续发展方面取得新进展
  9. Nature子刊:利用转细菌基因植物修复土壤有毒污染物!
  10. CEJ:西安理工赵亚乾组冠状病毒在水中传播特征、可能遏制策略与研究挑战