背景:PacBio测序等第三代测序平台近年来发展迅速。PacBio测序产生的读取比第二代测序(或第二代测序,NGS)技术长得多,具有独特的测序错误模式。有效的读取模拟器对于评估和促进PacBio测序数据分析新生物信息学工具的开发至关重要。

结果:我们开发了一种新的PacBio测序模拟器(PaSS)。它可以从当前可用的PacBio测序数据中学习序列模式。除了读取长度和错误率的分布之外,我们还包括上下文特定的排序错误模型。与现有的PacBio测序模拟器如PBSIM、LongISLND、NPBSS等相比,PaSS在很多方面都有更好的表现。装配试验也表明,通过PaSS模拟的reads与实验测序数据最相似。

结论:PaSS是一种有效的PacBio序列模拟方法。它将有助于评估和开发新的第三代测序数据分析工具。

关键词:第三代测序,下一代测序,PacBio测序,测序模拟器,测序误差,序列模式

背景

包括PacBio或SMRT(单分子实时)测序和nanopore测序在内的第三代测序技术正在基因组学研究领域掀起一场革命,因为它们为研究人员提供了前所未有的测序读取长度为[1]的基因组研究。由美国太平洋生物科学公司开发的SMRT测序是应用最广泛的第三代测序技术之一。越来越多的生物信息学工具和算法,如序列比对程序BLASR[3]和GraphMap[4],基因组装配程序canu[5]和miniasm[6],以及结构变异调用者PBHoney[7]和Sniffles[8]等,已经出现在SMRT数据分析中。此外,PacBio测序已迅速发展多个版本。对这些工具进行基准测试和评估是非常重要的,这些工具使用的是针对PacBio技术特定版本的序列模拟器模拟的reads。PacBio数据的模拟可以帮助用户为自己的研究项目[9]选择最合适的分析工具或方法。此外,生成硅数据可以显著降低改进下游分析工具[10]所需的成本和时间。

PacBio reads的特点与第二代测序reads有很大的不同。它能够产生大约10-15 kb的reads,这比现有的第二代测序方法要长得多。长读对于跨越重复的复杂的区域(如大的结构变化)很有用,因为可以更精确地确定基因组中读的映射位置。因此,长读在分析重复区域和较大的结构变化方面具有优势。相比之下,第二代测序比较困难,可能会导致错误的组装和缺口。然而,在第二代测序技术中,每个碱基的错误率大约为15%,而在不到1%的情况下,错误率主要由indels[11]控制。然而,单分子循环测序或多通道测序可以缓解高错误率。在测序过程中,可以使用圆形模板[12]对目标分子的正链和反链进行多次测序。被称为聚合酶读的输出序列可以分成多个读,称为子读。通过生成这些子序列的一致性,可以提高最终输出序列的读取质量。虽然吞吐量仍然很低,最新的测序器续集可以产生7到10倍的序列比旧的测序器PacBio RSII。它可以产生5-10Gb的基础与约365 k~ 500k读每运行[13]。此外,与NGS方法相比,PacBio测序速度更快,没有GC偏置[14]。

PaSS: a sequencing simulator for PacBio sequencing PaSS:用于PacBio测序的测序模拟器相关推荐

  1. PaSS:用于 PacBio 测序的测序模拟器

    PaSS:用于 PacBio 测序的测序模拟器 张文敏, 1 本佳, 1魏朝春1 , 2 作者信息 文章注释 版权和许可信息 免责声明 本文已被PMC 中的其他文章引用. 相关数据 补充材料 数据可用 ...

  2. PacBio Sequencing and Its Applications PacBio测序及其应用

    PacBio Sequencing and Its Applications 由太平洋生物科学公司开发的单分子实时测序比第二代测序(SGS)技术具有更长的读取长度,非常适合于基因组.转录组和表观遗传学 ...

  3. 全基因组测序 从头测序(de novo sequencing) 重测序(re-sequencing)

    全基因组测序 全基因组测序分为从头测序(de novo sequencing)和重测序(re-sequencing). 从头测序(de novo)不需要任何参考基因组信息即可对某个物种的基因组进行测序 ...

  4. python中的pass是什么意思_python中的pass代表什么意思呢

    展开全部 pass就是什么也不做,抄只是为了防bai止语法错误. 知识扩展: 1.duPython是一种面向对zhi象.直译式计算机程序设计dao语言,由荷兰人Guido van Rossum发明于1 ...

  5. python中的pass是什么意思_python中的pass代表什么意思呢?

    展开全部 pass就是什么也不2113做,只是为了防止语法错误.5261 知识扩展: 1.4102Python是一种面向对象.直译式计算1653机程序设计语言,由荷兰人Guido van Rossum ...

  6. PacBio SMRT Sequencing

    细节 CD Genomics 提供 PacBio SMRT 测序以补充我们的 NGS 设施.通过利用 PacBio 开发的长读长和单分子测序能力,我们很自豪能够提供先进的基因组 从头 组装解决方案和全 ...

  7. Late Lunch Talk: Time to consider using PacBio’s long read sequencing in your research?

    Late Lunch Talk: Time to consider using PacBio's long read sequencing in your research? Late Lunch T ...

  8. A fresh look at the genomes enabled by highly accurate long read SMRT sequencing from PacBio

    A fresh look at the genomes enabled by highly accurate long read SMRT sequencing from PacBio     由Pa ...

  9. PacBio vs. Oxford Nanopore sequencing

    PacBio vs. Oxford Nanopore sequencing PacBio与牛津纳米孔测序 发表于 2017年6月16日通过Bhagyashree Birla 由太平洋生物科学公司和牛津 ...

最新文章

  1. c语言logout_C++ 格式化日志输出实现代码
  2. UVA 10954 Add All
  3. ceph集群删除mds服务
  4. 拦截器中/* vs /** ------SpringMVC
  5. safari only css hack,css hack将Safari和Chrome同时作为目标单独使用
  6. mysql和sqlserver读写分离_C#简单构架之EF进行读写分离+多数据库Mysql/SqlServer
  7. python nonlocal的用法_python global和nonlocal用法解析
  8. 单片机仿真软件Proteus安装时遇到的问题
  9. 三步解决error: Microsoft Visual C++ 14.0 or greater is required. Get it with “Microsoft C++ Build Tools“
  10. linux 怎么彻底删除用户,linux如何完全删除用户
  11. 基于STM32单片机的智能药盒带语音播报原理图程序
  12. es6中的静态属性和方法
  13. CentOS配置yum源-本地和在线
  14. [pytorch] monai Vit 网络 图文分析
  15. 谈谈创业公司给服务器放在云端的优势和缺陷
  16. 收费企业邮箱哪个好用?怎么购买外贸邮箱?企业邮箱服务有哪些呢?
  17. 自动化签到的三种方式
  18. SASRec: Self-Attentive Sequential Recommendation阅读笔记
  19. 数据库系统概论(第五版 王珊 萨师煊 编著)
  20. #51单片机#DS18B20硬件原理以及通信的工作时序

热门文章

  1. SLAM常用函数总结,如刚体变换、时间戳对齐等。
  2. 综述|深度学习在SLAM定位与建图中的应用(近250篇参考文献)
  3. CVPR2020 best paper:对称可变形三维物体的无监督学习
  4. SLAM从0到1——ORB特征提取及特征匹配
  5. 最新的SCI-HUB访问地址
  6. 在IOS中创建get,set方法
  7. python实现获取文件列表中每个文件关键字
  8. Java编写的五子棋小游戏
  9. spring 源码 找不到 taskprovider_一步一步构建Spring5源码
  10. 数据处理压力中的自我拯救