文章目录

Kraken：使用精确比对的超快速宏基因组序列分类
- 热心肠日报
- 摘要
- 主要结果
- - 图1. Kraken序列分类算法
  - 图2. 基于三个模拟宏基因组的分类程序准确性和速度比较
  - 图3. 基于三个模拟宏基因组数据对Kraken变体的分类精度和速度比较
  - 图4. 由Kraken分类的唾液微生物组读数的分类学分布。
  - 图5. Kraken的数据库结构
- 猜你喜欢
- 写在后面

Kraken：使用精确比对的超快速宏基因组序列分类

Kraken: ultrafast metagenomic sequence classification using exact alignments

Genome Biology, [14.028]

2014-03-03 Method

DOI: https://doi.org/10.1186/gb-2014-15-3-r46

第一作者：Derrick E Wood^1,2*

通讯作者：Derrick E Wood^1,2*

其它作者：

Steven L Salzberg^2,3

作者主要单位：

¹美国马里兰大学帕克分校，计算机科学系和生物信息学与计算生物学中心(Department of Computer Science and Center for Bioinformatics and Computational Biology, University of Maryland, College Park, MD, USA)

²美国马里兰州巴尔的摩市约翰霍普金斯大学医学院McKusick-Nathans遗传医学研究所计算生物学中心(Center for Computational Biology, McKusick-Nathans Institute of Genetic Medicine, Johns Hopkins University School of Medicine, Baltimore, MD, USA)

热心肠日报

Kraken是一种超快速、高度准确的宏基因组DNA序列分类学分配程序；
基于k-mers的精确对齐，Kraken实现了与BLAST程序相当的分类精度；
Kraken以每分钟超过410万个的速度对100个碱基对读长进行分类，比Megablast快909倍，比丰度估计程序MetaPhlAn快11倍；
软件支持conda安装，配置数据库下载和使用方便，同时提供快速版Kraken-Q和小内存版miniKraken等众多版本可用，满足不同硬件条件的用户。

点评：Kraken是物种注释中最快，最庞大的存在，其超快的速度受到大家的喜欢，但标准版超大的内存消耗也非常恐怖。现在已经开发一系列子版本和新版本，如小内存的miniKraken，基于非冗余K-mer的KrakenUniq，还有最的版Kraken2。之前日报介绍过的相关方法有《一个新的宏基因组分类器KrakenUniq》（https://www.mr-gut.cn/papers/read/1079174335）、《Bioinformatics：大幅提高宏基因组分类速度的新算法！》（https://www.mr-gut.cn/papers/read/1058091428）、《MGS-Fast：快速注释菌群宏基因组测序数据的方法》（https://www.mr-gut.cn/papers/read/1068195517）、以及针对临床检测的《PAIPline：鉴定致病菌的临床测序结果分析平台》（https://www.mr-gut.cn/papers/read/1055280911）等可供用户根据具体需求进行选择。

摘要

Kraken是一种超快速且高度准确的程序，可为宏基因组DNA序列分配分类标签。为此任务设计的先前程序相对较慢且计算成本较高，仅能对小的宏基因组数据进行分类，迫使研究人员使用更快的丰度估计程序。使用k-mers的精确对齐，Kraken实现了与BLAST程序相当的分类精度。在最快的模式中，Kraken以每分钟超过410万次读长的速度对100个碱基对读长进行分类，比Megablast快909倍，比丰度估计程序MetaPhlAn快11倍。 Kraken可在http://ccb.jhu.edu/software/kraken/上下载。

主要结果

图1. Kraken序列分类算法

The Kraken sequence classification algorithm

为了对序列进行分类，序列中的每个k-mer被映射到数据库中包含该k-mer基因组的最低共同祖先（lowest common ancestor, LCA）。与序列的k-mers相关的分类群以及分类群的祖先形成了一般分类树的修剪子树，用于分类。在分类树中，每个节点的权重等于与节点的分类单元相关联的序列中的k-mer的数量。通过在路径中添加所有权重来对分类树中的每个根到叶（root-to-leaf, RTL）路径进行评分，并且分类树中的最大RTL路径是分类路径（以黄色突出显示的节点）。该分类路径的叶子（分类树中的橙色，最左边的叶子）是用于查询序列的分类。

图2. 基于三个模拟宏基因组的分类程序准确性和速度比较

Classification accuracy and speed comparison of classification programs for three simulated metagenomes

对于每个宏基因组，显示五个分类器的属性精度和灵敏度，并显示五个程序的速度（PhymmBL是结果的置信过滤版本，MetaPhlAn仅分类映射到其标记基因之一的读长子集，因为它是一个丰富的估计程序）。显示的结果是：

（a）HiSeq宏基因组，由10个细菌测序项目中等比例的HiSeq读长（平均长度μ= 92bp）组成;

（b）MiSeq宏基因组，由10个细菌项目中相同比例的MiSeq读长（μ= 156 bp）组成;

（c）simBA-5宏基因组，由模拟的100-bp读长组成，具有1,967个细菌和古菌分类群的高错误率。

请注意，所有速度图中的水平轴都是对数刻度。

图3. 基于三个模拟宏基因组数据对Kraken变体的分类精度和速度比较

Classification accuracy and speed comparison of variants of Kraken for three simulated metagenomes

对于每个宏基因组，显示五个分类器的属精度和灵敏度，并显示Kraken的速度，以及Kraken（MiniKraken）的小内存版本，两者的快速执行版本（Kraken-Q和MiniKraken-Q）和Kraken 与包含来自GenBank（Kraken-GB）的草案和完整微生物基因组的数据库一起运行。

显示的结果与图2中使用的相同的宏基因组有关。注意，轴的刻度与图2不同，因为Kraken（及其变体）的精度和速度超过了所使用的其他分类器的精度和速度。

（a）HiSeq metagenome。

（b）MiSeq宏基因组。

（c）simBA-5宏基因组。

图4. 由Kraken分类的唾液微生物组读数的分类学分布。

Taxonomic distribution of saliva microbiome reads classified by Kraken

来自三个个体的唾液样品的序列由Kraken分类。显示了由Kraken分类的那些读长的分布。

图5. Kraken的数据库结构

Kraken database structure

要针对数据库查询的每个k-mer都有一个特定的子串，它是最小化器（Minimizer）。为了在数据库中搜索k聚体，检查数据库中包含具有相同最小化器的k聚体的位置。通过使用k-mer的最小化器（橙色）和下一个可能的最小化器（蓝色）检查记录起始位置的最小化器偏移数组，可以快速找到这些位置。在与给定最小化器相关联的记录范围内，记录按其k-mers的词典排序，允许通过在该范围内使用二进制搜索来完成查询。

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍末解决群内讨论，问题不私聊，帮助同行。

学习扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文，跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA