PaSS: a sequencing simulator for PacBio sequencing PaSS:用于PacBio测序的测序模拟器
背景:PacBio测序等第三代测序平台近年来发展迅速。PacBio测序产生的读取比第二代测序(或第二代测序,NGS)技术长得多,具有独特的测序错误模式。有效的读取模拟器对于评估和促进PacBio测序数据分析新生物信息学工具的开发至关重要。
结果:我们开发了一种新的PacBio测序模拟器(PaSS)。它可以从当前可用的PacBio测序数据中学习序列模式。除了读取长度和错误率的分布之外,我们还包括上下文特定的排序错误模型。与现有的PacBio测序模拟器如PBSIM、LongISLND、NPBSS等相比,PaSS在很多方面都有更好的表现。装配试验也表明,通过PaSS模拟的reads与实验测序数据最相似。
结论:PaSS是一种有效的PacBio序列模拟方法。它将有助于评估和开发新的第三代测序数据分析工具。
关键词:第三代测序,下一代测序,PacBio测序,测序模拟器,测序误差,序列模式
背景
包括PacBio或SMRT(单分子实时)测序和nanopore测序在内的第三代测序技术正在基因组学研究领域掀起一场革命,因为它们为研究人员提供了前所未有的测序读取长度为[1]的基因组研究。由美国太平洋生物科学公司开发的SMRT测序是应用最广泛的第三代测序技术之一。越来越多的生物信息学工具和算法,如序列比对程序BLASR[3]和GraphMap[4],基因组装配程序canu[5]和miniasm[6],以及结构变异调用者PBHoney[7]和Sniffles[8]等,已经出现在SMRT数据分析中。此外,PacBio测序已迅速发展多个版本。对这些工具进行基准测试和评估是非常重要的,这些工具使用的是针对PacBio技术特定版本的序列模拟器模拟的reads。PacBio数据的模拟可以帮助用户为自己的研究项目[9]选择最合适的分析工具或方法。此外,生成硅数据可以显著降低改进下游分析工具[10]所需的成本和时间。
PacBio reads的特点与第二代测序reads有很大的不同。它能够产生大约10-15 kb的reads,这比现有的第二代测序方法要长得多。长读对于跨越重复的或复杂的区域(如大的结构变化)很有用,因为可以更精确地确定基因组中读的映射位置。因此,长读在分析重复区域和较大的结构变化方面具有优势。相比之下,第二代测序比较困难,可能会导致错误的组装和缺口。然而,在第二代测序技术中,每个碱基的错误率大约为15%,而在不到1%的情况下,错误率主要由indels[11]控制。然而,单分子循环测序或多通道测序可以缓解高错误率。在测序过程中,可以使用圆形模板[12]对目标分子的正链和反链进行多次测序。被称为聚合酶读的输出序列可以分成多个读,称为子读。通过生成这些子序列的一致性,可以提高最终输出序列的读取质量。虽然吞吐量仍然很低,最新的测序器续集可以产生7到10倍的序列比旧的测序器PacBio RSII。它可以产生5-10Gb的基础与约365 k~ 500k读每运行[13]。此外,与NGS方法相比,PacBio测序速度更快,没有GC偏置[14]。
PaSS: a sequencing simulator for PacBio sequencing PaSS:用于PacBio测序的测序模拟器相关推荐
- PaSS:用于 PacBio 测序的测序模拟器
PaSS:用于 PacBio 测序的测序模拟器 张文敏, 1 本佳, 1魏朝春1 , 2 作者信息 文章注释 版权和许可信息 免责声明 本文已被PMC 中的其他文章引用. 相关数据 补充材料 数据可用 ...
- PacBio Sequencing and Its Applications PacBio测序及其应用
PacBio Sequencing and Its Applications 由太平洋生物科学公司开发的单分子实时测序比第二代测序(SGS)技术具有更长的读取长度,非常适合于基因组.转录组和表观遗传学 ...
- 全基因组测序 从头测序(de novo sequencing) 重测序(re-sequencing)
全基因组测序 全基因组测序分为从头测序(de novo sequencing)和重测序(re-sequencing). 从头测序(de novo)不需要任何参考基因组信息即可对某个物种的基因组进行测序 ...
- python中的pass是什么意思_python中的pass代表什么意思呢
展开全部 pass就是什么也不做,抄只是为了防bai止语法错误. 知识扩展: 1.duPython是一种面向对zhi象.直译式计算机程序设计dao语言,由荷兰人Guido van Rossum发明于1 ...
- python中的pass是什么意思_python中的pass代表什么意思呢?
展开全部 pass就是什么也不2113做,只是为了防止语法错误.5261 知识扩展: 1.4102Python是一种面向对象.直译式计算1653机程序设计语言,由荷兰人Guido van Rossum ...
- PacBio SMRT Sequencing
细节 CD Genomics 提供 PacBio SMRT 测序以补充我们的 NGS 设施.通过利用 PacBio 开发的长读长和单分子测序能力,我们很自豪能够提供先进的基因组 从头 组装解决方案和全 ...
- Late Lunch Talk: Time to consider using PacBio’s long read sequencing in your research?
Late Lunch Talk: Time to consider using PacBio's long read sequencing in your research? Late Lunch T ...
- A fresh look at the genomes enabled by highly accurate long read SMRT sequencing from PacBio
A fresh look at the genomes enabled by highly accurate long read SMRT sequencing from PacBio 由Pa ...
- PacBio vs. Oxford Nanopore sequencing
PacBio vs. Oxford Nanopore sequencing PacBio与牛津纳米孔测序 发表于 2017年6月16日通过Bhagyashree Birla 由太平洋生物科学公司和牛津 ...
最新文章
- c语言logout_C++ 格式化日志输出实现代码
- UVA 10954 Add All
- ceph集群删除mds服务
- 拦截器中/* vs /** ------SpringMVC
- safari only css hack,css hack将Safari和Chrome同时作为目标单独使用
- mysql和sqlserver读写分离_C#简单构架之EF进行读写分离+多数据库Mysql/SqlServer
- python nonlocal的用法_python global和nonlocal用法解析
- 单片机仿真软件Proteus安装时遇到的问题
- 三步解决error: Microsoft Visual C++ 14.0 or greater is required. Get it with “Microsoft C++ Build Tools“
- linux 怎么彻底删除用户,linux如何完全删除用户
- 基于STM32单片机的智能药盒带语音播报原理图程序
- es6中的静态属性和方法
- CentOS配置yum源-本地和在线
- [pytorch] monai Vit 网络 图文分析
- 谈谈创业公司给服务器放在云端的优势和缺陷
- 收费企业邮箱哪个好用?怎么购买外贸邮箱?企业邮箱服务有哪些呢?
- 自动化签到的三种方式
- SASRec: Self-Attentive Sequential Recommendation阅读笔记
- 数据库系统概论(第五版 王珊 萨师煊 编著)
- #51单片机#DS18B20硬件原理以及通信的工作时序