文章目录

  • Kraken:使用精确比对的超快速宏基因组序列分类
    • 热心肠日报
    • 摘要
    • 主要结果
      • 图1. Kraken序列分类算法
      • 图2. 基于三个模拟宏基因组的分类程序准确性和速度比较
      • 图3. 基于三个模拟宏基因组数据对Kraken变体的分类精度和速度比较
      • 图4. 由Kraken分类的唾液微生物组读数的分类学分布。
      • 图5. Kraken的数据库结构
    • 猜你喜欢
    • 写在后面

Kraken:使用精确比对的超快速宏基因组序列分类

Kraken: ultrafast metagenomic sequence classification using exact alignments

Genome Biology, [14.028]

2014-03-03 Method

DOI: https://doi.org/10.1186/gb-2014-15-3-r46

第一作者:Derrick E Wood1,2*

通讯作者:Derrick E Wood1,2*

其它作者:

Steven L Salzberg2,3

作者主要单位:

1美国马里兰大学帕克分校,计算机科学系和生物信息学与计算生物学中心(Department of Computer Science and Center for Bioinformatics and Computational Biology, University of Maryland, College Park, MD, USA)

2美国马里兰州巴尔的摩市约翰霍普金斯大学医学院McKusick-Nathans遗传医学研究所计算生物学中心(Center for Computational Biology, McKusick-Nathans Institute of Genetic Medicine, Johns Hopkins University School of Medicine, Baltimore, MD, USA)

热心肠日报

  1. Kraken是一种超快速、高度准确的宏基因组DNA序列分类学分配程序;
  2. 基于k-mers的精确对齐,Kraken实现了与BLAST程序相当的分类精度;
  3. Kraken以每分钟超过410万个的速度对100个碱基对读长进行分类,比Megablast快909倍,比丰度估计程序MetaPhlAn快11倍;
  4. 软件支持conda安装,配置数据库下载和使用方便,同时提供快速版Kraken-Q和小内存版miniKraken等众多版本可用,满足不同硬件条件的用户。

点评:Kraken是物种注释中最快,最庞大的存在,其超快的速度受到大家的喜欢,但标准版超大的内存消耗也非常恐怖。现在已经开发一系列子版本和新版本,如小内存的miniKraken,基于非冗余K-mer的KrakenUniq,还有最的版Kraken2。之前日报介绍过的相关方法有《一个新的宏基因组分类器KrakenUniq》(https://www.mr-gut.cn/papers/read/1079174335)、《Bioinformatics:大幅提高宏基因组分类速度的新算法!》(https://www.mr-gut.cn/papers/read/1058091428)、《MGS-Fast:快速注释菌群宏基因组测序数据的方法》(https://www.mr-gut.cn/papers/read/1068195517)、以及针对临床检测的《PAIPline:鉴定致病菌的临床测序结果分析平台》(https://www.mr-gut.cn/papers/read/1055280911)等可供用户根据具体需求进行选择。

摘要

Kraken是一种超快速且高度准确的程序,可为宏基因组DNA序列分配分类标签。 为此任务设计的先前程序相对较慢且计算成本较高,仅能对小的宏基因组数据进行分类,迫使研究人员使用更快的丰度估计程序。 使用k-mers的精确对齐,Kraken实现了与BLAST程序相当的分类精度。 在最快的模式中,Kraken以每分钟超过410万次读长的速度对100个碱基对读长进行分类,比Megablast快909倍,比丰度估计程序MetaPhlAn快11倍。 Kraken可在http://ccb.jhu.edu/software/kraken/上下载。

主要结果

图1. Kraken序列分类算法

The Kraken sequence classification algorithm

为了对序列进行分类,序列中的每个k-mer被映射到数据库中包含该k-mer基因组的最低共同祖先(lowest common ancestor, LCA)。 与序列的k-mers相关的分类群以及分类群的祖先形成了一般分类树的修剪子树,用于分类。 在分类树中,每个节点的权重等于与节点的分类单元相关联的序列中的k-mer的数量。 通过在路径中添加所有权重来对分类树中的每个根到叶(root-to-leaf, RTL)路径进行评分,并且分类树中的最大RTL路径是分类路径(以黄色突出显示的节点)。 该分类路径的叶子(分类树中的橙色,最左边的叶子)是用于查询序列的分类。

图2. 基于三个模拟宏基因组的分类程序准确性和速度比较

Classification accuracy and speed comparison of classification programs for three simulated metagenomes

对于每个宏基因组,显示五个分类器的属性精度和灵敏度,并显示五个程序的速度(PhymmBL是结果的置信过滤版本,MetaPhlAn仅分类映射到其标记基因之一的读长子集 ,因为它是一个丰富的估计程序)。 显示的结果是:

(a)HiSeq宏基因组,由10个细菌测序项目中等比例的HiSeq读长(平均长度μ= 92bp)组成;

(b)MiSeq宏基因组,由10个细菌项目中相同比例的MiSeq读长(μ= 156 bp)组成;

(c)simBA-5宏基因组,由模拟的100-bp读长组成,具有1,967个细菌和古菌分类群的高错误率。

请注意,所有速度图中的水平轴都是对数刻度。

图3. 基于三个模拟宏基因组数据对Kraken变体的分类精度和速度比较

Classification accuracy and speed comparison of variants of Kraken for three simulated metagenomes

Classification accuracy and speed comparison of variants of Kraken for three simulated metagenomes

对于每个宏基因组,显示五个分类器的属精度和灵敏度,并显示Kraken的速度,以及Kraken(MiniKraken)的小内存版本,两者的快速执行版本(Kraken-Q和MiniKraken-Q)和Kraken 与包含来自GenBank(Kraken-GB)的草案和完整微生物基因组的数据库一起运行。

显示的结果与图2中使用的相同的宏基因组有关。注意,轴的刻度与图2不同,因为Kraken(及其变体)的精度和速度超过了所使用的其他分类器的精度和速度。

(a)HiSeq metagenome。

(b)MiSeq宏基因组。

(c)simBA-5宏基因组。

图4. 由Kraken分类的唾液微生物组读数的分类学分布。

Taxonomic distribution of saliva microbiome reads classified by Kraken

来自三个个体的唾液样品的序列由Kraken分类。 显示了由Kraken分类的那些读长的分布。

图5. Kraken的数据库结构

Kraken database structure

要针对数据库查询的每个k-mer都有一个特定的子串,它是最小化器(Minimizer)。 为了在数据库中搜索k聚体,检查数据库中包含具有相同最小化器的k聚体的位置。 通过使用k-mer的最小化器(橙色)和下一个可能的最小化器(蓝色)检查记录起始位置的最小化器偏移数组,可以快速找到这些位置。 在与给定最小化器相关联的记录范围内,记录按其k-mers的词典排序,允许通过在该范围内使用二进制搜索来完成查询。

猜你喜欢

  • 10000+: 菌群分析
    宝宝与猫狗 提DNA发Nature 实验分析谁对结果影响大 Cell微生物专刊 肠道指挥大脑
  • 系列教程:微生物组入门 Biostar 微生物组 宏基因组
  • 专业技能:生信宝典 学术图表 高分文章 不可或缺的人
  • 一文读懂:宏基因组 寄生虫益处 进化树
  • 必备技能:提问 搜索 Endnote
  • 文献阅读 热心肠 SemanticScholar Geenmedical
  • 扩增子分析:图表解读 分析流程 统计绘图
  • 16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
  • 在线工具:16S预测培养基 生信绘图
  • 科研经验:云笔记 云协作 公众号
  • 编程模板: Shell R Perl
  • 生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

Kraken:使用精确比对的超快速宏基因组序列分类软件相关推荐

  1. 宏基因组序列物种分类之kraken 1/2和Bracken的使用

    细菌基因组测序完,想看看样本有没有被其他的菌污染? 人的转录组测序完,想快速看看人.微生物的序列的比例? 元/宏基因组测序完,想快速获得样本中物种的丰度信息? REFERENCE Wood DE, S ...

  2. WebMGA:超快的基因组序列聚类注释在线工具

    文章目录 超快的基因组序列聚类注释在线工具WebMGA 序列聚类cd-hit 基因预测ORF prediction 蛋白COG注释 作者简介 参考文献 猜你喜欢 写在后面 超快的基因组序列聚类注释在线 ...

  3. Nature子刊:Salmon不比对快速宏基因组基因定量

    文章目录 Salmon:使用双阶段推理对转录本表达进行快速且有偏差意识的量化 导读 摘要 主要结果 图1. Salmon与同类软件对比的表现 扩展阅读 猜你喜欢 写在后面 [外链图片转存失败,源站可能 ...

  4. Kraken2:宏基因组快速物种注释神器

    简介 kraken是基于k-mer精确比对,并采用最LCA投票结果快速宏基因组DNA序列进行物种注释的软件. 图. Kraken2分类基本原理 该文章于2014年发表于Genome Biology,目 ...

  5. 内蒙古农大孙志宏教授证实超深度混合宏基因组测序能够对人类肠道微生物组中的低丰度物种进行基因组和功能表征...

    导读 人类肠道微生物群中已经发现了大量微生物基因组,但由于目前大多数研究中使用的测序深度相对较浅,在个体水平上了解低丰度物种的作用仍具有挑战.为了提高基因组的组装性能,本研究采用了Illumina H ...

  6. python快速开发app_python 使用Airtest超快速开发App爬虫

    使用Airtest超快速开发App爬虫 想开发网页爬虫,发现被反爬了?想对 App 抓包,发现数据被加密了?不要担心,使用 Airtest 开发 App 爬虫,只要人眼能看到,你就能抓到,最快只需要2 ...

  7. 超快速结构感知深度巷道检测(Ultra Fast Structure-aware Deep Lane Detection )

    超快速结构感知深度巷道检测 ? 秦泽群.王焕宇.李曦??[0000−0003−3023−1662] 计算机科学与技术学院, 浙江大学,中国杭州 zequnqin@gmail.com, {huanyuh ...

  8. 全面超越Appium,使用Airtest超快速开发App爬虫,你会吗?

    全面超越Appium,使用Airtest超快速开发App爬虫 想开发网页爬虫,发现被反爬了?想对 App 抓包,发现数据被加密了?不要担心,使用 Airtest 开发 App 爬虫,只要人眼能看到,你 ...

  9. 使用Python和OpenCV在图像之间执行超快速的颜色转换

    使用Python和OpenCV在图像之间执行超快速的颜色转换 1. 效果图 2. 原理 2.1 颜色转移算法 2.2 步骤 2.3 算法改进 3. 源码 参考 这篇博客将介绍如何使用Python和Op ...

最新文章

  1. 解决 sh: java: command not found 问题
  2. httpservlet.java:131_Servlet学习1:Http状态码、多个Servlet之间调用规则、多个Servlet之间数据共享实现方案...
  3. Write operations are not allowed in read-only mode
  4. C语言学习笔记(4)
  5. Java的Excel导出方案介绍
  6. 链栈的入栈和出栈代码_代码简介:全栈开发仍然有效
  7. 阿里新一代分布式任务调度平台Schedulerx2.0破土而出...
  8. pv原语模拟实现_HART协议压力变送器硬件设计及实现
  9. Linux下设置python脚本文件为服务
  10. java读写文件操作
  11. 中文核心期刊是什么?
  12. 小米便签源码分析——tool包
  13. GeoServer发布Shapefile矢量数据
  14. 数据库空间存储已满,如何清理释放空间
  15. 深度卷积神经网络架构:从基本组件到结构创新
  16. java informix_Informix 数据库的数据类型
  17. 产品经理的年终总结可以这样写
  18. Vant-area数据
  19. 计算机网络与无线通信系统学习14:电磁波的传播
  20. 直流电机及PWM介绍

热门文章

  1. 职场残酷!美国科技巨头 “花式劝退” 老员工,数万人丢掉饭碗
  2. 国内外有哪些不错的需求管理工具?如何选择?
  3. 怎样在bug管理上节省时间
  4. 美团Serverless产品落地与演进
  5. 一键抓取sqlserver数据结构
  6. find与findb
  7. 字符串-验证回文串(双指针法)
  8. 力扣练习题(数组中数据反转)
  9. C++中的迭代器(STL迭代器)iterator
  10. 喜欢绘画学的计算机,为什么有的人画画非常好却对计算机一窍不通