Long Read Mapping at Scale: Algorithms and Applications

大规模长读映射:算法和应用

DNA测序技术已经有40年的历史了,这为我们提供了充足的时间来探索它的各种应用以及与之相伴的生物信息学方法的发展。

然而,在测序方面的破坏性技术变化经常颠覆现有的协议和可以测序的特征,这就需要生物信息学算法和软件的一个新的发展方向。由于太平洋生物科学公司(PacBio)和牛津纳米孔技术公司(ONT)开发的长及超长读序列测序技术,我们现在正处于下一次测序革命的风口上。

长读是有吸引力的,因为它们缩小了基因组大小和序列读大小之间的尺度差距,并有望避免困扰短读组装的组装错误和重复解析挑战。然而,长读本身的运动错误率在10-15%左右,而短读的高准确率(< 1%)。迫切需要开发生物信息学方法,以充分发挥长读测序仪的潜力。

基因组学应用的第一步通常是将读序列映射到引用。尽管长读技术仍在发展,但生物信息学的研究工作已经产生了许多基于对齐和无对齐的读映射算法。然而,在设计可证明的高效算法、形式化地描述结果质量、以及开发可扩展到更大的输入数据集和不断增长的参考数据库的方法方面,还有许多工作要做。

虽然当前将参考数据表示为线性基因组集合的模型由于其简单性仍然受到青睐,但映射到基于图的表示形式(图编码人类种群中的遗传变异)也变得势在必行。本论文的工作重点是证明良好的和可扩展的算法映射长读线性和图形参考。我们的贡献如下:

1.我们开发了快速和近似的算法,用于长读到参考基因组的端到端和分割映射。我们的工作是第一次演示扩展到整个NCBI数据库,即所有管理的和非冗余基因组的集合。

2. 我们推广了映射算法,以加速成对全基因组比较的相关计算问题。我们阐明了两个基本的生物学问题,即基因组复制和微生物物种边界的划定。

3.我们提供了新的复杂的结果,在汉明中校准图表的读取和编辑距离模型分类的问题变量的多项式时间解决方案的存在是不可能的。与之前的结果假设字母是问题大小的函数不同,我们证明了允许在图形中编辑的问题变体对于即使是常量大小的字母仍然是np完全的,从而解决了DNA和蛋白质序列的问题的计算复杂性。

4. 最后,我们提出了一种新的并行算法来优化从人类基因组中提取的大变异图的长序列。它演示了在多核cpu上近乎线性的扩展,当将长读集对准MHC人类变异图时,运行时间从几天减少到三个小时。

参考

https://smartech.gatech.edu/handle/1853/61258

Long Read Mapping at Scale: Algorithms and Applications相关推荐

  1. [读书] Computer Vision: Algorithms and Applications

    Richard Szeliski 一本系统介绍计算机视觉算法和应用的书籍,作者为微软研究院的:Richard Szeliski . As humans, we perceive the three-d ...

  2. 计算机视觉算法与应用 英文pdf,计算机视觉:算法与应用(套装共2册) [Computer Vision:Algorithms and Applications]...

    计算机视觉:算法与应用(套装共2册) [Computer Vision:Algorithms and Applications] 下载 mobi epub pdf ☆☆☆☆☆ 简体网页||繁体网页 [ ...

  3. Richard Szeliski 《Computer Vision Algorithms and Applications》Second Edition 计算机视觉算法与应用 第二版

    第三章 3.1 独立于相邻像素的每个单独像素操作--Point operators 3.2-3.3 依赖于少量的邻域输入值的每个新像素值的运算操作--Linear filtering 3.4 分析领域 ...

  4. SLAM综述阅读笔记二:Simultaneous Localization and Mapping: A Survey of Current Trends in Autonomous(2017)

    转自[第八篇 SLAM:自动驾驶当前趋势综述 - 知乎] 说明该总结主要是针对自动驾驶 <Simultaneous Localization And Mapping: A Survey of C ...

  5. Computer Vision: Algorithms and Application书籍章节介绍及其源码

    ComputerVision: Algorithms and Applications Richard Szeliski 本书网址:书的最好附录中,我总结了一些对学生,教授和研究者有用的附加材料.这本 ...

  6. Random Walks: A Review of Algorithms and Applications2020翻译

    Random Walks: A Review of Algorithms and Applications2020翻译 在翻译的时候公式太多,公式部分有些乱码.如果需要可以看看本文的文字,感兴趣的话直 ...

  7. [转载]Maximum Flow: Augmenting Path Algorithms Comparison

    https://www.topcoder.com/community/data-science/data-science-tutorials/maximum-flow-augmenting-path- ...

  8. 群体智能动态优化算法及其应用综述(A survey of swarm intelligence for dynamic optimization: Algorithms and applicatio)

    群体智能动态优化算法及其应用综述[A survey of swarm intelligence for dynamic optimization: Algorithms and application ...

  9. 图像处理与计算机视觉:基础,经典以及最近发展(5)计算机视觉

    这一章是计算机视觉部分,主要侧重在底层特征提取,视频分析,跟踪,目标检测和识别方面等方面.对于自己不太熟悉的领域比如摄像机标定和立体视觉,仅仅列出上google上引用次数比较多的文献.有一些刚刚出版的 ...

最新文章

  1. CUDA Samples: Long Vector Add
  2. Spring Boot 异步请求和异步调用
  3. Xmanager7如何通过SSH连接远程服务器
  4. 输出字符数字空格个数
  5. Windows 技术篇-桌面图标全部消失问题解决方法,windows资源管理器重启实例演示
  6. 学数学或物理学到 high 很刺激,是一种怎样的经历与感受?
  7. [CISCN2018]crackme-java
  8. python去除字符串两边的空格_Python去除字符串两端空格的方法
  9. ubuntu运行docker报错:invalid mount config for type “bind“: field Source must not be empty.(没解决)
  10. 为多网络请个“交警”
  11. java使用哪个类,怎么知道 java类从哪个jar 加载
  12. java -- 对Map按键排序、按值排序
  13. 几个文本处理工具的简单使用(wc,cut,sort,uniq,diff和patch)
  14. 常用SFTP工具类(多个公用方法)
  15. 哈哈哈,我终于注册了CSDN的账号
  16. java验证码不显示_chrome无法显示Java生成的验证码图片
  17. 服务器2003系统安装时蓝屏,安装2003server操作系统蓝屏是怎么回事?
  18. 【jzoj 5336】Timi / 提米树(DP)
  19. 微软网盘SkyDrive简单一步获取mp3外链的方法
  20. matlab 2048小游戏

热门文章

  1. 浅谈单图像三维重建算法
  2. 港科大硕士ICCV 论文涉嫌抄袭,导师回应,二作已申请撤稿
  3. 用OpenCV实现超轻量的NanoDet目标检测模型!
  4. 这所双一流高校“研究生取消寒假”?!学校回应:系个别实验室和导师的要求...
  5. 16~40K | 星猿哲科技招聘3D视觉算法工程师
  6. CVPR 2020 论文大盘点-全景分割与视频目标分割篇
  7. Gaussian Filter
  8. mysql8.0 直方图_MySQL创建横向直方图
  9. mysql必备技能_Mysql常用技能(1)
  10. 科研文献|季节变化是流域尺度上土壤抗性变化的主要驱动因素