Evaluation and Validation of Assembling Corrected PacBio Long Reads for Microbial Genome Completion via Hybrid Approaches
    通过混合方法对微生物基因组完成的校正PacBio长读进行评估和验证

摘要

尽管不断增加的下一代测序数据和发展中的装配,几十到数百的差距仍然存在于新的微生物组装不均匀的覆盖和大量的基因组重复。第三代单分子实时(SMRT)测序技术避免了扩增伪信号,产生千倍长序列,具有完成微生物基因组组装的潜力。

然而,由于第三代序列的精度较低(约85%),需要相当数量的长读(>50X)来进行自校正和后续的从头组装。

最近开发的混合方法,使用下一代测序数据和最少5倍长的读取,已经被提出来提高微生物组装的完整性。

在这项研究中,我们评估了当代的混合方法,并证明装配校正长读数(由runCA)生产最佳的装配相比长时间阅读脚手架(例如,AHA, Cerulean和SSPACE-LongRead)和间隙填充(黑锹)。

为了生成正确的长读,我们进一步研究了长读校正工具,如ECTools、LSC、LoRDEC、PBcR流水线和proovread。我们已经证明了三种微生物基因组,包括大肠杆菌K12 MG1655、小地黄DSM1279和肝杆菌DSM2366,通过ECTools-corrected long reads成功地由runCA杂交组装成近乎完美的组合。此外,我们开发了一个工具,Patch,它实现了校正的长读和预装配的contigs作为输入,来增强微生物基因组的装配。添加20倍长读、短读的S. cerevisiae W303混合组装成115 contigs,使用验证的策略,ECTools + runCA。随后,Patch被应用于将该总成升级到35-contig的草案基因组。我们对混合方法的评估表明,通过runCA组装经过校正的ectoolst长读可以生成接近完整的微生物基因组,这表明重新分析未以最佳方式组装的现有混合数据集可以使基因组组装受益。

目前,来自太平洋生物科学公司(PacBio)的第三代单分子实时(SMRT)测序技术已被用于长读,促进了完整微生物基因组的组装[3,5 - 8]。然而,单分子读的错误率很高。因此,混合装配方法,如混合装配器(AHA)[5]和PacBio纠正读取管道(PBcR管道)[6],被提出来避免和解决这些限制——通过使用长读序列信息的支架和使用短读纠正错误;然而,一些装配仍然没有完成[9,10]。近年来,人们提出了利用长读SMRT测序数据完成微生物基因组装配的非混合方法,包括分层基因组装配过程(HGAP)自校正的PBcR管道[3,8]。基于模拟PacBio读取在科伦等调查。年代出版[3],150 x是推荐的测序深度最大化组装使用C2连续性化学,相当于8 SMRT细胞使用RS 5 mb基因组测序系统(> 100 mb吞吐量/ RS仪器SMRT细胞)。目前,PacBio RS II系统可以产生更多的长读(每个SMRT细胞超过250Mb的吞吐量),因此使用一个或两个SMRT细胞通过非混合方法(HGAP或PBcR流水线)成功地重新组装了细菌基因组[11-13]。然而,由于非混合方法需要高覆盖率(> 50X)[14],对于相对较大的微生物基因组大小的[15]来说,其成本可能高得令人望而却步。此外,放弃之前已排序的短阅读是一种耻辱。因此,利用长读来支撑短读组装的混合方法被用于细菌基因组组装的升级;其中包括AHA[5]、天蓝色[16]和SSPACE-LongRead[17]。SPAdes 3.0是一种混合的汇编程序,它将短读和长读作为输入[10,18,19];它使用长读来关闭间隙和重复解析。PBcR管道使用短读来修剪和纠正PacBio长读,然后重新组装PacBio纠正读来生成一致序列[3]。与PBcR流水线不同,ECTools使用由短读构建的预组装单核苷酸序列进行长读校正,这使其成功应用于真核生物基因组装配(基因组大小<100Mb)[15]。虽然一些混合方法已经被用于细菌基因组装配的评估[10,12,17],但是对于它们在真核生物基因组上的表现知之甚少。此外,为了提高校正精度和效率,长读校正工具最近也得到了发展。, LoRDEC [20], LSC[21]和proovread[22]。然而,这些纠正的长读数的装配性能仍然不清楚。

Evaluation and Validation of AssemblingCorrected PacBio Long Reads for MicrobialGenome Completion相关推荐

  1. Bi-level error correction for PacBio long reads. PacBio长读数的两级纠错

    Bi-level error correction for PacBio long reads. PacBio长读数的两级纠错 作者: Liu Yuansheng; Lan Chaowang; Blu ...

  2. Bi-level error correction for PacBio long reads

    Bi-level error correction for PacBio long reads 双级错误校正PacBio长read 最新的测序技术,如太平洋生物科学公司(PacBio)和牛津纳米孔机器 ...

  3. PACBIO:经历9件大事,终获一致认可?

    PACBIO:经历9件大事,终获一致认可? 2021-05-08  |  热心肠先生 原创 独家 收藏(0) | 阅读(19) ■ 肠企简介 PacBio总部在美国硅谷,为客户提供高精准的长读长测序技 ...

  4. Pacbio HiFi技术原理与应用软件实例

    Pacbio HiFi技术原理与应用软件实例 原创 生信技术 生信技术 2021-06-07 13:02 收录于话题 #基因组组装3个内容 #生物信息3个内容 #生信技术3个内容 点击上方蓝字关注我们 ...

  5. Ratatosk - Hybrid error correction of long reads enables accurate variant calling and assembly

    Ratatosk - Hybrid error correction of long reads enables accurate variant calling and assembly   长读的 ...

  6. how Lordec maps the long reads to DeBruijn Graph

     一 .how Lordec maps the long reads to DeBruijn Graph hello, I would like how LorDEC maps long reads ...

  7. PacBio sequence error correction amd assemble via pacBioToCA

    Illumina二代测序有个致命缺陷,说到底还是基于PCR扩增的,所以存在偏向性和对于高GC含量区无法扩增等系统误差,测序错误是不可避免的,其次就是测序长度短:但其价格便宜,通量非常高,准确性达99% ...

  8. PacBio HiFi测序介绍及百迈客最新下机数据公布

    PacBio HiFi测序介绍及百迈客最新下机数据公布 百迈客生物 ​ 已认证账号 已关注 3 人赞同了该文章 众所周知,要获得基因组的完整图片,就必须组装reads,以目前主要的测序技术来看,短读长 ...

  9. asr标注工具_BLASR:PacBio数据比对工具

    Pacbio数据相信大家都不陌生了,reads很长,但是错误很多而且错误分布在整条reads上而不是局部.这里给大家推荐一个工具BLASR(Basic Local Alignment with Suc ...

最新文章

  1. python循环最简单的解释_python循环-通往简洁的必经之路
  2. 32位浮点数在威纶触摸屏显示_MCGS触摸屏与与西门子 S7-1200 PLC以太网通讯
  3. 皮一皮:颜值的重要。。。
  4. iPhone X系列 的获取 - 安全区顶部和底部高度
  5. linux string
  6. 计算机教学改革主要内容,计算机教学改革主要内容和措施.doc
  7. 扫描局域网IP和MAC的有力工具BPSNMPUtil
  8. ImportError: No module named MySQLdb
  9. usb无线网卡linux驱动,Linux系统下安装USB无线网卡驱动方法
  10. revit二次开发——过滤器基础
  11. splunk : admin 没有权限问题的解决
  12. 从一道笔试题来看指针的使用
  13. 流量计算机标准,-流量计执行标准
  14. java 向量 内积_向量内积(点乘)和外积(叉乘)概念及几何意义
  15. 将1自动补位为01_苹果图标自动补位怎么关闭
  16. 【有奖调研】| 参与区块链调研,赢千元大奖!
  17. 硬盘柱面损坏怎么办_硬盘0柱面损坏数据恢复(老牌数据恢复)
  18. 【保姆级】包体积优化教程
  19. 机器学习算法-逻辑回归(LR)
  20. 【C 语言之项目实战】生成随机数并排序(详细版)

热门文章

  1. (附链接)CVPR 2022 | 模型难复现不一定是作者的错,最新研究发现模型架构要背锅...
  2. 2021年必读的10 个计算机视觉论文总结
  3. 全新池化方法AdaPool | 让ResNet、DenseNet、ResNeXt等在所有下游任务轻松涨点
  4. CV进入三维时代!Facebook在ICCV 2021 发布两个3D模型,自监督才是终极答案?
  5. 总结|C语言实现的矩阵运算(svd分解、乘法、转置等)
  6. 他被导师半夜敲门叫醒:你得诺贝尔奖了!还曾为5G频谱拍卖设计方案,担任谷歌IPO咨询顾问...
  7. RTFNet:基于可见光/红外图像的城市自动驾驶道路场景语义分割
  8. 稳健地估计单应性矩阵,需要几个特征点?
  9. ROS学习笔记—-- catkin
  10. Hi3516a移植SDL+FreeType+SDL_ttf