NAR：扩增子OTU聚类软件SeekDeep方法解读

本文转载自"生信算法"，已获授权

微生态种群研究中，16S rRNA是细菌分类研究中最有用和最常用的标签序列，可以很容易地通过测序技术得到序列，故被广泛应用。基于16S序列的微生物多样性分析也是宏基因组领域的重要研究内容。

OTU（operational taxonomic unit）聚类作为微生物序列分析中的重要一环，引起了许多研究者的关注，发展了不同策略的OTU聚类算法，最常用的有CD-HIT、MOTHUR、USEARCH以及被大家所熟知的综合分析平台QIIME。

传统的OTU聚类算法都是设定一个距离阈值（如0.03）进行聚类，即将序列距离小于0.03的序列聚在一起，这样形成的每个OTU对应分类学上的species（种）。（1）但是随着多样性分析的精细化，越来越多的研究者需要得到更细水平（strain）的划分。而且有时不同物种间的16S序列差异只有1个或多个碱基不同，如何将这些序列间差异很小的物种找出来，传统的OTU聚类算法变得“无能为力”。（2）第二个需要考虑的便是测序误差，包括PCR扩增过程和测序仪器两种误差。大多数传统的OTU聚类算法并没有考虑。

基于以上两点，作者开发了SeekDeep扩增子测序分析软件，18年在Nucleic Acids Research（IF: 10.162）上发表，将测序误差考虑进来，可以有效找出单个碱基差异的物种。

SeekDeep方法

SeekDeep软件主要分为4步，如下图所示，其中qcluster是软件的核心算法（重点介绍）！

1 extractor

常规操作，根据barcode将不同样本的序列提取出来。

2 qcluster

对每个样本数据进行聚类，SeekDeep方法的核心步骤，看作者是如何判断将两条序列归为一类。下图是qcluster的分析流程图，先进行去重复处理，得到unique序列，然后多次迭代的进行序列合并，得到最终的clusters。

我们接下来看qcluster的核心步骤，根据比对结果与质量分数将两条序列合并在一起。本次的重点介绍！

首先需要对两条序列进行序列比对，如下图两条序列a、b所示。

其中判断指标主要有六个，如下图所示

（1）1 base indel：1个插入或删除碱基的个数，如果出现在同聚体（Homopolymer）中，则个数为两个同聚体长度的平均值的倒数，所以上图中1 base indel的总个数为1.28。

（2）2 base indel：连续2个的indel错误，比对结果中没有出现。

（3）>2 base indel：连续2个以上的indel错误，比对结果中没有出现。

（4）High quality mismatches：质量分数比较高的mismatch，博哥认为是属于可信度比较高的mismatch（也就是真的mismatch）。要同时考虑前面2个碱基和后面两个碱基的质量分数，当mismatch位置上的质量分数高于20并且前后2个碱基（共4个碱基）的质量分数大于15时，就为High quality mismatches。

（5）Low quality mismatches：不满足的High quality mismatches就是Low quality mismatches。

比对结果中共有2个High quality mismatches，1个Low quality mismatches。

（6）Low K-mer mismatch：如果mismatch属于High quality mismatches，计算这个mismatch的K-mer频数。K-mer以mismatch为中心的，K默认值为9。如果频数超过1（默认值），则Low K-mer mismatch个数加1。

通过以上六个指标，判断是否将两条序列合并在一起，由于观测值大于默认值，所以不进行合并。

qcluster多次迭代比较，每次迭代的阈值会有所增加，程序默认8次迭代，最后的结果即时每个样本的聚类结果。

3 processClusters

对每个样本的聚类结果合在一起在进行qcluster。

4 popClusteringViewer

结果可视化。

结果比较

比较算法：MED、UNOISE和DATA2三个算法进行比较。

测试数据集：模拟数据、真实数据

评价指标：Recovery（calculated as the number of clusterexactly matching expected divided by the total number of expected）

模拟数据

模拟数据B的复杂性高于数据A，可以看出SeekDeep在低丰度下效果明显好于其他算法。

真实数据

A图是平均多次下的比较结果，图B是聚类结果的丰度图与真实丰度的散点图，直线越接近1，说明聚出的结果越接近真实丰度。可以看出SeekDeep的结果较好。

限于篇幅，简单列了这两个分析结果。需要更加详细的结果，可以下载阅读原文文章。

参考文献：

Hathaway N J,Parobek C M, Juliano J J, et al. SeekDeep: single-base resolution de novo clustering for amplicon deep sequencing. Nucleic Acids Research, 2018.

猜您喜欢：

mothur QIIME usearch，三足鼎立，谁主沉浮？

三代测序序列比对利器-BLASR，更小更快更方便

生信算法“八股文”，发表算法不再难！

生信算法

长按二维码
关注微互动

猜你喜欢

10000+：菌群分析宝宝与猫狗梅毒狂想曲提DNA发Nature Cell专刊肠道指挥大脑

系列教程：微生物组入门 Biostar 微生物组宏基因组

专业技能：学术图表高分文章生信宝典不可或缺的人

一文读懂：宏基因组寄生虫益处进化树

必备技能：提问搜索 Endnote

文献阅读热心肠 SemanticScholar Geenmedical

扩增子分析：图表解读分析流程统计绘图

16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun

在线工具：16S预测培养基生信绘图

科研经验：云笔记云协作公众号

编程模板: Shell R Perl

生物科普: 肠道细菌人体上的生命生命大跃进细胞暗战人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份，另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍末解决群内讨论，问题不私聊，帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战，关注“宏基因组”