Microbiome：使用16S rRNA基因数据集实现种水平的分类

编译：A国民少女，编辑：小菌菌、江舜尧。

导读

16S rRNA基因测序的低成本促进了人口规模的分子流行病学研究。现有的计算算法可以将16S rRNA基因序列解析为高分辨率扩增子序列变体（ASV），这代表了可用于不同研究的一致标签。将这些ASV分配给物种级别的分类，可增强基于16S rRNA基因的微生物群研究的生态和/或临床相关性，并进一步促进跨研究的数据比较。

论文ID

原名：Construction of habitat-specific training sets to achieve species-level assignment in 16S rRNA gene datasets

译名：在16S rRNA基因数据集实现种水平的分类-构建栖息地特异的训练集

期刊：Microbiome

IF：11.6

DOI：https://doi.org/10.1186/s40168-020-00841-w

发表时间：2020.05.15

第一作者：Isabel F. Escapa, Yanmei Huang

通信作者：Katherine P. Lemon

合作作者：Tsute Chen, Maoxuan Lin, Alexis Kokaras, Floyd E. Dewhirst

通信作者单位：美国马萨诸塞州福塞斯研究所（微生物学）

实验设计

本研究假设可以开发一种方法来快速生成针对特定栖息地的训练集，以利用朴素的贝叶斯RDP分类器的优势来从本地开始，持续实现ASV的物种或超物种（即亚属）级分类学分配，基于系统发生学的高分辨率（即，以≥98.5％的相似度)精选的参考序列集，具有不同的分类学名称。在这里，该研究将朴素的贝叶斯RDP分类器与训练集结合使用，在该训练集中，每个分类单元由一组高度相似的序列表示，这些序列捕获了每个物种的自然变异性，从而实列短读长的正确物种级别的分类学分配和16S rRNA基因的长读长序列。这代表了方法学上的进步。本研究用于生成训练集的系统方法适用于任何感兴趣的生态系统/生境，并在图1中进行了概述。此方法需要从生境中编译高质量的接近全长的16S rRNA基因数据集（图1a）。这些编译后的数据集用于识别策划的参考序列，以建立一个16S rRNA基因数据库（图1b），从该数据库导出该栖息地的训练集（图1c）。

本实验的数据分析方法如下：

1. 基于eHOMD的朴素贝叶斯RDP分类器训练数据集的构建
2. 源自eHOMD的V1-V3 16S rRNA基因模拟数据集的生成
3. 鼻窦PacBio-SMRT测序的全长16S rRNA基因数据集的重新分析
4. 从全长16S rRNA基因克隆库（CL）生成测试V1-V3人体呼吸道（hADT）微生物群数据集
5. 使用朴素的贝叶斯RDP分类器进行分类分配
6. DADA2完全匹配的分类分配
7. 使用blastn进行分类分配

图1 在为特定栖息地(人类消化道)构造训练集时，数据集、数据库和训练集之间的关系。 a：从公共资源库收集的数据集或通过对新样品进行测序获得的数据集用于探索目标生境的16S rRNA基因多样性。这些包括用于方法验证或基准测试的16S rRNA全长序列和区域特定的短读序列。 b：通过从那些数据集中选择命名和尚未命名或未知物种（如：eHOMD中的HMT）的代表性序列，以迭代的方式组装并扩展了一个精选的栖息地特异性全长16S rRNA基因参考数据库，并且将它们放置在系统发育树中。 c：训练集源自栖息地特定数据库的分类体系，并通过以下步骤得到增强：编译多个16S rRNA基因序列来代表每个分类群的自然序列变异性，修正训练集以匹配序列化区域，并将共享密切相关序列的物种置于超物种分类标准中。

结果

1 在训练集中对每个分类单元的密切相关序列进行编译，可提高物种级分类的准确性

属级分类分配不是朴素贝叶斯RDP分类器的固有限制。更确切地说，16SrRNA基因短读的分类分配受到两个方面的限制，一是数据集中序列的分辨能力，二是所使用的训练集的性质。前者可以通过使用DADA2或UNOISE2等方法在单核苷酸水平上解决序列变异。我们假设训练集固有的局限性也可以被克服。朴素贝叶斯RDP分类器算法表明，训练集中每个分类单元的序列个数越大，分类分配就越有信心。基于一个分类单元(T)的成员的条件概率，在训练集中给定的可识别的“k-mer”出现的频率越高，对该分类单元的赋值就越有信心，即，可以明确地对更多的序列进行分类。因此，随着训练集合中每个分类单元的序列数(M)的增加(图2a和图2b)，精确分配的数量应该增加。因此，为了系统地增加M，我们使用了eHOMD中的每个参考序列（即eHOMDrefs）作为诱饵，以捕获紧密匹配的，公开可用的序列，并将每个分类群的序列结果组合成接近完全的长度汇编训练集（FL_ Compilation_TS），它反映了每个分类单元的当前已知的16SrRNA基因序列变异性，包括自然误差和测序误差。

为了评估FL_Compilation_TS的性能并进行进一步的方法优化，我们通过在训练集序列的V1-V3修整版本中引入1％的错误率，创建了模拟数据集V1V3_eHOMDSim_250N100。此模拟数据集旨在模拟真实测序的短读，类似于使用我们的方法获得的16S rRNA基因V1-V3区域信息丰富的方法使用Illumina MiSeq进行测序数据，然后使用训练集FL_Compilation_TS（图3a中的橙色条形）与训练集FL_eHOMDrefs_TS（图3a中的紫色条形）相比，后者仅由eHOMDrefs组成。这样做，我们观察到在编译时分类为TS的物种级别的读取的百分比有所增加，但引导值是100。我们假设，引导分类为100的训练集FL_eHOMDrefs_ TS所分类的其他序列被错误分类了序列。由于训练集FL_eHOMDrefs_TS仅包含每个分类单元的几个代表性序列，因此预期会有较高的错误分类率。因此，我们接下来分析任何错误分类。在每个引导阈值下，使用训练集，被错误分类的读数的百分比至少低50％ FL_Compilation_TS（图3b，橙色线）要比训练集FL_eHOMDrefs_TS（图3b，紫色线）高。因此，当使用训练集时，对数据集V1V3_eHOMDSim_250N100的分类显示出降低的错误率和增加的置信度，该训练集由紧密相关的序列的汇编组成，而不是每个分类群仅由一个或几个参考序列组成的训练集。

图2 生成序列特定习性训练集的步骤示意图。

a : FL_eHOMDrefs_TS训练集包含来自eHOMDv15.1的所有全长eHOMDrefs(粗线)及其各自的分类分配。当只有一个读代表每一个分类单元(M = 1),一个给定的区分k-mer(绿色片段)只能出现存在（1）或不存在（0）。b:每个分类单元（M）的序列数量更多，可以更好地解决分配问题，每个读数簇（绿色片段）中存在给定的区分k-mer（wi），表示为比例（m）该分类单元中读取的总数的总数（M）。c:训练集V1V3_Raw_TS是FL_Compilation_TS训练集的V1-V3精简版本。该示意图说明了对该区域的精简如何导致具有两个不同分类名称的相同读取(紫色线)。

图3 FL_Compilation_TS训练集提供了更高的分类百分比和更低的错误率。 a：使用FL_eHOMDrefs_TS训练集（紫色）相对于FL_Compilation_TS训练集（橙色）对eHOMD衍生的模拟读段的百分比。 b：被错误分类的分类读物的百分比（即，为其分配的分类学身份不同于从其获得模拟读物的原始序列的已知身份的读物）。朴素的贝叶斯RDP分类器使用的引导值范围为50到100

2 向合适的短读段训练集移动

训练集FL_Compilation_TS由接近全长的16S rRNA基因序列组成。我们假设，在训练集中V1-V3区域之外存在k-mers时，将其与V1-V3区域数据集一起使用可能会导致错误分类。为此，当使用基于大型通用数据库的训练集时，修正参考序列以匹配测序区域会增加分配给分类法的序列数量。因此，我们将训练集FL_Compilation_TS中的序列修整为仅覆盖生成训练集V1V3_Raw_TS的V1-V3区域（图2c）。使用此方法，在分类为物种级别的模拟数据集V1V3_ eHOMDSim_250N100中，读取的百分比没有增加（图4a，绿色条）。此外，我们观察到错误分类读取的百分比增加（图4b，绿线），即分配准确度降低了。因此，我们接下来确定了为什么在此训练集中使用适当的短读片段会自相矛盾地降低物种级别分配的置信度和准确性，并解决了该问题。。

3 将密切相关的，无法区分的分类单元合并到超物种中，可以减少短读训练集的错误率

考虑到上述悖论的可能解释，我们意识到具有独特的全长16S rRNA基因序列的类群可以具有相同的V1-V3序列。在计算机上，仅使用V1-V3，eHOMD中约770种物种分类单元中的37种就不再能够与至少一种其他物种以100％的身份进行区分。因此，我们假设使用训练集V1V3_Raw_TS观察到的准确性损失是由于具有多个物种名称的相同序列，例如Veillonella parvula和Veillonella dispar。为了解决这个问题，我们删除了重复的序列，并为剩下的唯一序列分配了一个组合名称，即特定于训练集的超种名称。我们注意到，术语``超物种''并不是一个有效的分类标签，因为它取决于数据库，并且对于不同的短读16S rRNA基因区域可能有所不同，即特定于训练集。这导致了训练集V1V3_Curated_TS，与FL_Compilation_TS和V1V3_Raw_TS相比，其显示出更高的准确性（图4b，红线）。但是，这种改进的结果是，在每个自举阈值下，指定为超物种或物种水平分类法的读数降低了0.7％至4.4％（图4a，红色条）。这种权衡可以通过在每个自举阈值处绘制图表来说明，其中包括使用模拟的V1V3_eHOMDSim_250N100数据集的读取错误百分比，以及使用朴素的贝叶斯RDP分类器使用V1V3_Curated_TS确定的物种级别分类标准（图4c）。

图4 将训练集修剪到特定的序列区域可进一步降低错误率。 a：使用FL_Compilation_TS（橙色）训练集与后续修剪版本V1V3_Raw_TS（绿色）和V1V3_Curated_TS（红色）相比，源自eHOMD的模拟读数在物种级别分类的百分比。 b：被这三个训练集中的每个分类错误的分类读物的百分比。 c：此图特定于eHOMD训练集构造（V1V3_eHOMDSim_250N100数据集），表明研究人员如何通过确定可接受的错误分类读物百分比（蓝线；可接受的水平）来确定要与朴素贝叶斯RDP分类器一起使用的引导程序值。未分类的读取百分比（红线）。朴素的贝叶斯RDP分类器使用的引导值范围为50到100。

4 为了使朴素贝叶斯RDP分类器在短序列亚属级分类分配中的性能最大化，需要将超物种作为分类级别插入并设置阈值引导

要获得使用超物种定义的好处，需要执行两个步骤。首先，在训练集的每个序列的名称标头中的属和种之间正式插入超种作为训练集特定的分类学级别，从而产生训练集V1V3_Supraspecies_TS（图2e）。其次，建立在物种级别未分配序列的自举截止值，这样，朴素的贝叶斯RDP分类器将默认为超物种级别，而不是默认为属，从而允许更高百分比的读取被分配（图5a，蓝色条）。后面的步骤将保留在ASV中编码的子属级别信息。该选择不可避免地涉及准确性和分类在属水平以下的读取百分比之间的权衡，例如，参见图4c。为了我们的目的，我们选择了保守的引导带值为70（图5b，蓝线）。利用已知真相的模拟数据，得出的错误率约为0.05％。值得注意的是，尽管朴素的贝叶斯RDP分类器的一个常见引导程序设置为50，但对于V1V3_Supraspecies_TS的物种级分类分配，我们使用了更为保守的值。

图5 在训练集中加入一个超物种等级会增加分类阅读的百分比。 a :使用V1V3_Curated_TS训练集（红色）与FL_Supraspecies_TS训练集（蓝色）在物种/超物种级别分类的eHOMD衍生模拟读数的百分比。 b:在每个培训集中被错误分类的分类阅读的百分比。朴素的贝叶斯RDP分类器使用的引导值范围为50到100。

5 eHOMD培训集优于SILVA和RDP训练集

本实验将分类学分配方法与其他当前可用的数据库（与RDP或SILVA数据库）相结合的使用进行了比较。为此，我们使用了三个不同的数据集：（1）生成了一个V1-V3数据集，该数据集来自人类消化道16S rRNA基因克隆库（V1V3_hADT_CL；附加文件9）；（2）先前分析过的HMP 16S rRNA基因V1-V3 454测序的鼻孔数据集；（3）FL_sinonasal_SMRT_ASV数据集的接近全长的ASV。然后，使用朴素的贝叶斯RDP分类器将它们的属级分类法分配给所有这些，它们的自举阈值为70，并结合三种不同的训练集：eHOMD训练集（V1-V3或FL），RDP16或SILVA132（后两个来自https://benjjneb.github.io/dada2/training.html）。 eHOMD训练集导致每个数据集分配给特定属的读物百分比更高；但是，所有三个训练集都导致属级分配大于90％的序列。相反，将分类法分配给物种级别时，不同工作流之间出现了显着差异。研究将朴素的贝叶斯RDP分类器与eHOMD训练集结合使用的方法，与目前在DADA2 R软件包中结合SILVA132或RDP16实施的精确字符串匹配方法相比，在分类读取的百分比方面显示出优异的性能。不出所料，精确匹配算法将比V1-V3区域ASV更高的接近全长ASV百分比分配给了分类法。需要说明的是，这些综合数据库的注释错误率估计高达10％至17％。对于V1-V3区域的ASV，与HMP V1-V3数据集相比，V1-V3人类空气消化道克隆文库数据集中的V1-V3序列的性能也要好得多。我们推测发生这种情况是因为来自人类航空消化道克隆库（V1V3_hADT_CL）数据集的近乎全长序列是RDP和SILVA数据库的一部分，而HMP V1-V3 454序列却不是。这些数据的关键意义在于，使用V1-V3短读序列，我们的整体方法可对人的消化道的16SrRNA基因测序产生可比的物种水平结果，与使用接近完整的方法相比，这是非常经济的长的PacBio SMRT序列。另一个含义是，对于缺乏高分辨率，准确的16S rRNA基因数据库的栖息地微生物群进行物种水平分析，提供有效的物种级分类学分配。值得注意的是，“超种”一词不是有效的分类标签，因为它取决于数据库，并且对于不同的短读16S rRNA基因区域可能有所不同。这样，需要为每个感兴趣的短读区域生成一个单独的训练集。另外，训练集需要与数据库相关联的定期维护，并且需要在其关联数据库的每个主要修订版本中进行重新生成。从理论上讲，其他分类标准的封闭参考方法可能会受益于中间分类学级别的添加，以保持该方法可能的最高分辨率，例如，如果菌株之间的关系过于紧密，则物种和菌株之间的超应变相关明确区分。

讨论

本研究开发了一种广泛适用的方法来构建高分辨率训练集，该方法基于在感兴趣的栖息地发现的微生物之间的系统发育关系。当与朴素贝叶斯核糖体数据库项目(RDP)分类器一起使用时，该训练集实现了16S rRNA基因衍生ASVs的物种/超物种级分类分配。生成这样一个训练集的关键步骤是:

(1)构建一个精确而全面的基于系统进化的、特定于栖息地的数据库;

(2)编译多个16S rRNA基因序列，表示数据库中每个分类单元的自然序列变异性;

(3)必要时对训练集进行修整，使其与序列区域相匹配;

(4)将共享密切相关序列的物种置于训练集特有的超物种分类水平，以保持亚属水平的分辨率。

作为原则性的证明，实验开发了一个V1-V3区域训练集，使用在扩展人类口腔微生物组数据库(eHOMD)中编译的全长16S rRNA基因参考序列来训练人类呼吸消化道的细菌微生物群。该研究还克服了技术上的限制，成功地将Illumina序列用于16S rRNA基因V1 - V3区域，该区域是对原生于人类空气消化道的细菌进行分类的信息最丰富的片段。最后,研究生成了一个长篇eHOMD 16 s rRNA基因训练集与一个独立的PacBio单分子,结合使用实时(SMRT)鼻腔鼻窦数据集验证细菌测序在我们训练集的代表性物种。这也确定了全长训练集对分配长期阅读的16S rRNA基因数据集的分类的有效性。

结论

本文提出了一种系统的方法，用于构建基于系统发育的，高分辨率的，栖息地特定的训练集，该训练集允许将物种/超物种级别的分类学分配给短和长阅读的16S rRNA基因衍生的ASV。这一进步增强了基于16S rRNA基因的微生物群研究的生态和/或临床相关性。

猜你喜欢

10000+：菌群分析宝宝与猫狗梅毒狂想曲提DNA发Nature Cell专刊肠道指挥大脑

系列教程：微生物组入门 Biostar 微生物组宏基因组

专业技能：学术图表高分文章生信宝典不可或缺的人

一文读懂：宏基因组寄生虫益处进化树

必备技能：提问搜索 Endnote

文献阅读热心肠 SemanticScholar Geenmedical

扩增子分析：图表解读分析流程统计绘图

16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun

在线工具：16S预测培养基生信绘图

科研经验：云笔记云协作公众号

编程模板: Shell R Perl

生物科普: 肠道细菌人体上的生命生命大跃进细胞暗战人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难，我们建立了“宏基因组”专业讨论群，目前己有国内外5000+ 一线科研人员加入。参与讨论，获得专业解答，欢迎分享此文至朋友圈，并扫码加主编好友带你入群，务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份，另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助，首先阅读《如何优雅的提问》学习解决问题思路，仍未解决群内讨论，问题不私聊，帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战，关注“宏基因组”

点击阅读原文