有效的局部比对发现在嘈杂的长读

Long read sequencers portend the possibility of producing reference quality genomes not only because the reads are long, but also because sequencing errors and read sampling are almost perfectly random. However, the error rates are as high as 15%, necessitating an efficient algorithm for finding local alignments between reads at a 30% difference rate, a level that current algorithm designs cannot handle or handle inefficiently. In this paper we present a very efficient yet highly sensitive, threaded filter, based on a novel sort and merge paradigm, that proposes seed points between pairs of reads that are likely to have a significant local alignment passing through them. We also present a linear expected-time heuristic based on the classic O(nd) difference algorithm [1] that finds a local alignment passing through a seed point that is exceedingly sensitive, failing but once every billion base pairs. These two results have been combined into a software program we call DALIGN that realizes the fastest program to date for finding overlaps and local alignments in very noisy long read DNA sequencing data sets and is thus a prelude to de novo long read assembly.

长读测序器预示着产生参考质量基因组的可能性,不仅因为读长,还因为测序错误和读采样几乎完全随机。

然而,错误率高达15%,这就需要一种高效的算法来在30%的误码率下找到读取之间的局部对齐,这是目前的算法设计无法或不能有效处理的水平。在这篇论文中,我们提出了一种非常有效但高度敏感的线程过滤器,它基于一种新的排序和合并范例,提出读取对之间的种子点,这些种子点很可能有一个重要的局部对齐通过它们。

我们还提出了一个基于经典O(nd)差分算法[1]的线性期望时间启发式算法,该算法发现一个局部比对通过一个非常敏感的种子点,每10亿个碱基对失败一次。这两个结果已经被合并成一个软件程序,我们称之为DALIGN,它实现了迄今为止在非常嘈杂的长读DNA测序数据集中发现重叠和局部对齐的最快程序,因此是从头长读组装的前奏。

参考文献 :

https://link.springer.com/chapter/10.1007%2F978-3-662-44753-6_5

Efficient local alignment discovery amongst noisy long reads相关推荐

  1. Basic local alignment search tool (BLAST)

    Basic local alignment search tool (BLAST) 包括:blastn, blastp, blastx, tblastn, tblastx等. 使用conda安装即可. ...

  2. 图像拼接--Construction and Refinement of Panoramic Mosaics with Global and Local Alignment

    Construction and Refinement of Panoramic Mosaics with Global and Local Alignment International Confe ...

  3. Haplotype-aware genotyping from noisy long reads 单倍型识别的基因分型来自嘈杂的长读

    Haplotype-aware genotyping from noisy long reads 单倍型识别的基因分型来自嘈杂的长读 Abstract Motivation Current genot ...

  4. 「一文搞定序列比对算法」Global以及Local Alignment序列比对算法的实现

    序列比对是什么以及序列比对主要的作用是什么,本篇博客就一笔带过,因为不是主要分享内容. 序列比对,此处引申为pairwise alignment会更加恰当一些,用于比较2条序列之间的相似程度,推断它们 ...

  5. 高通量测序技术和序列拼接算法探析

    高通量测序技术和序列拼接算法探析 时间:2019-05-27 来源:计算机科学 作者:周卫星,石海鹤 本文字数:16853字 摘    要: 高通量测序 (High-throughput Sequen ...

  6. BEBLID Boosted Efficient Binary Local Image Descriptor 论文学习

    Abstract 对局部图像特征做高效率匹配是许多计算机应用的基础任务.但是对于算力有限的设备(如手机或无人机)来说,顶尖的匹配算法会大打折扣.本文介绍了 BEBLID,一个高效的二元图像描述子.它改 ...

  7. Jabba: hybrid error correction for long sequencing reads using maximal exact matches机译:Jabba:使用最大精

    Jabba: hybrid error correction for long sequencing reads using maximal exact matches 机译:Jabba:使用最大精确 ...

  8. 《因果学习周刊》第10期:ICLR2022中最新Causal Discovery相关论文介绍

    No.10 智源社区 因果学习组 因 果 学  习 研究 观点 资源 活动 关于周刊 因果学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注.为帮助研究与工程人员了解该领域的相关进展和 ...

  9. 论文翻译 | RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds

    论文:RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds 代码:code 前言:最近很犹豫要不要继续翻译点云 ...

最新文章

  1. 服务器温度3d显示,智能问答助手、3D可视化展示,腾讯医典“黑科技”助力科普更有温度...
  2. java 字符串缓冲池 String缓冲池
  3. 超松弛迭代法解线性方程组c语言,超松弛迭代法解线性方程组.doc
  4. oracle配置ipv6_pl/sql developer通过IPV6连接oracle-阿里云开发者社区
  5. add python3.8 to path_手把手教你安装Python3.8环境
  6. 用SeaMonkey写cnblogs博客时碰到的问题
  7. 今天遇到的一个诡异的core和解决 std::sort
  8. Python数据挖掘框架
  9. 【Spring学习笔记七】-Spring MVC基本配置和实例
  10. IDEA工具-鼠标滚轮调整字体大小
  11. 《你早该这么玩excel》大表哥伍昊新课开讲——顶你学堂独家
  12. 已删除的好友微信号怎么找回来
  13. jzoj 3957 鸡腿の花园
  14. HTML怎么设置图片和文字间距离,div字间距-div内文字之间间距设置方法
  15. 给新手程序员的一点学习建议
  16. 修复 Android 系统问题的 9 款最佳 Android 手机维修软件和应用
  17. 腾讯-信鸽实现消息推送
  18. Docker启动异常之服务器非法重启,导致Docker启动失败
  19. 北方民族大学c语言期末考试试题,2018年北方民族大学计算机软件与理论832C语言程序设计与数据结构之C程序设计考研核心题库...
  20. 转:在VS2008中调用Matlab的m文件

热门文章

  1. ECCV20 3D目标检测新框架3D-CVF
  2. 职场的你,如何《赢》?
  3. html 列表项左右间距,等间距列表项_html_开发99编程知识库
  4. 安装ssd后不识别网卡_缓冲床安装后不耐磨 缓冲条应该如何选择
  5. 读“基于机器学习的无参考图像质量评估综述”有感
  6. java opencv calcCovarMatrix 计算协方差矩阵
  7. 斯人若彩虹,遇上方知有
  8. Galaxy 生信平台(四):邮件与管理员配置
  9. ISME:土壤微生物对硫的短期及长期利用的决定因素-基于13C,15N,14C和35S多同位素标记结果...
  10. NBT:噬菌体激发根际防御军团(附视频)