Badread: simulation of error-prone long reads Badread:模拟容易出错的长读断

背景
DNA测序平台 旨在测量DNA样本中的核苷酸(A、C、G和T)序列。
Illumina公司生产的测序仪在过去十年的大部分时间里一直是主导技术，但他们的平台生成的序列片段(reads)相对较小(长度约为100 - 300个核苷酸)。
相比之下，Oxford Nanopore Technologies (ONT)和太平洋生物科学公司(PacBio)生产的长读序列测序仪可以生成数万个或更多核苷酸的序列片段(爱森斯坦，2017)。
这些平台上的长读本对于基因组组装和其他生物信息分析非常有益(科伦，瓦伦茨，柏林，米勒，&Phillippy, 2017;Phillippy, 2017)。
ONT和PacBio测序仪之所以能实现长读长度，是因为它们能检测DNA单个分子中的核苷酸，也就是单分子测序(Heather &链,2016)。
然而，在单分子尺度上测量的随机性意味着ONT和PacBio读断是有噪声的，它们包含大量的误差。
由于来自ONT和PacBio平台的测序reads与Illumina reads在性质上不同(长且有噪声vs短且准确)，它们通常需要新颖的分析方法。
在过去的几年里，在这一领域已经有了很多研究，其中一个评估新方法的有用技术是读取模拟:从参考核苷酸序列中生成假测序读取(Huang, Li, Myers， &后,2012)。
与使用真实的测序数据相比，这种方法有一些关键的优势:它更快，更经济，允许更多的测试。
此外，当使用模拟读取时，参考核苷酸序列提供了可能无法用其他方法获得的可信的基础真相。

总结
在这里我们介绍Badread，一个在硅模拟长读取的软件工具。
它的主要目标是生成模拟的读集，用于评估将长时间读作为输入的工具或方法。
Badread与现有工具(如PBSIM (Ono, Asai， & Hamada, 2013)， LongISLND (Mu等人，2016)和NanoSim (Yang, Chu, Warren， & Birol, 2017))在两个关键方面有所不同。
首先，它可以模拟其他工具无法模拟的读取错误类型。
而其他长读仿真工具关注造型读长度和测序错误,Badread另外可以包括嵌合体(当一个读取由两个或多个不连续的序列),适配器(额外的序列从文库准备的开始或结束阅读),故障(局部地区低精度)和垃圾读断(低重复序列)。
Badread与现有工具的第二个不同之处在于，它将控制置于现实主义之上。
以read length为例，其他长读模拟工具可能会从一个真实的读集中采样读长度，这样它们的模拟读就会遵循一个真实的分布。
而Badread使用gamma分布作为读取长度，用户指定平均值和标准偏差——不太现实，但高度可调。
因此，用户可以生成许多定量变化的读集，例如平均长度为1000、2000、3000等。
读取集的其他特性(读断精度、嵌合率、故障率等)也可以在Badread中进行类似的调整，允许用户系统地评估它们如何影响工具或方法的性能。

Badread: simulation of error-prone long reads Badread:模拟容易出错的长读断相关推荐

Genome Sequencing and Assembly by Long Reads in Plants植物基因组的长读测序与组装
Genome Sequencing and Assembly by Long Reads in Plants 植物基因组的长读测序与组装 Abstract: Plant genomes generat ...
Badread: simulation of error-prone long reads
Badread: simulation of error-prone long reads Badread:模拟容易出错的长read Ryan R Wick1 1 Department of ...
androd11 编译 Manually written binder interfaces are considered error prone and frequently have bugs.
错误:error: static_assert failed due to requirement 'internal::allowedManualInterface("android.te ...
Error Prone Installation
安装我们的目标是简化将Error Prone检查添加到现有的Java编译中.请注意,Error Prone必须在JDK 8或更高版本上运行.你可以通过设置适当的-source / -target / ...
Evaluation of long read error correction software 长读纠错软件的评估
Evaluation of long read error correction software Laurent Bouri∗ , Dominique Lavenier† Project-Team ...
Haplotype-aware genotyping from noisy long reads 单倍型识别的基因分型来自嘈杂的长读
Haplotype-aware genotyping from noisy long reads 单倍型识别的基因分型来自嘈杂的长读 Abstract Motivation Current genot ...
CoLoRMap: Correcting Long Reads by Mapping short reads CoLoRMap:通过映射短读来纠正长读
CoLoRMap: Correcting Long Reads by Mapping short reads CoLoRMap:通过映射短读来纠正长读 Motivation: 第二代测序技术为测序基因 ...
完美解决VS2003.Net fatal error LNK1201: 写入程序数据库“.pdb”时出错 - 细雨淅淅
注意:这里说的方案不适用于coco2d-x 3.0 STL 工程,把调试信息数据库设成非"C7兼容"的情绪. http://www.tuicool.com/articles/uYZ ...
QT警告Slots named on_foo_bar are error prone
问题现象: 引起的原因: 这个警告的出现,是因为我们在处理信号–槽关系时,是通过 ui designer中的"Go to slot" ,让程序自动生成. 而这种自动生成的弱点就是也 ...

Badread: simulation of error-prone long reads Badread:模拟容易出错的长读断

Badread: simulation of error-prone long reads Badread:模拟容易出错的长读断相关推荐

最新文章

热门文章