本文我们主要介绍了如何训练Naive Bayes分类器并把这个分类器应用于扩增子基因序列的物种注释与可视化。

本教程将使用来自人源化(humanized)小鼠的一组粪便样品,展示16S rRNA基因扩增子数据的“典型”QIIME 2分析。本教程旨在探讨人源化小鼠的遗传背景影响微生物群落的假设。然而,我们还需要考虑其他可能驱动微生物结构而不是小鼠基因型的混杂因素。

在本节中,我们将探索样本的物种组成情况。这个过程的第一步是为FeatureData[Sequence]的序列进行物种注释。我们将使用经过Naive Bayes分类器进行预训练,并通过q2-feature-classifier插件裁剪出符合样品制备和测序参数进行(即扩增的引物和测序序列的长度)训练分类器。我们将把这个分类器应用到序列中,并且可以生成从序列到物种注释结果关联的可视化。

01训练分类器 Training classifier

因为不同实验的扩增区域不同,鉴定物种分类的精度不同,提前的训练可以让分类结果更准确。在本教程中,使用到的是已经训练好细菌V4区的分类器,可在QIIME2官网下载。下面将以小鼠数据为例,详细解读分类器的训练方法。

方法注释在训练分类器之前,我们要弄清楚三点:1.选择合适的数据库;2.扩增引物;3测序序列长度分布(此步骤可选择使用)。

在本教程中,使用的16s rRNA 扩增子数据,引物为515f-806r(详细示例数据信息请看实战示例教程(1))。因此,选用greengenes数据库进行比对。

提取扩增区命令:

qiime feature-classifier extract-reads
--i-sequences 99_otus.qza
--p-f-primer ACTCCTACGGGAGGCAGCAG
--p-r-primer GGACTACHVGGGTWTCTAAT
--p-n-jobs 4 --o-reads ref-seqs.qza

仅保留细菌的代表序列命令:

qiime taxa filter-seqs
--i-sequences ref-seqs.qza
--i-taxonomy 99_otu_taxonomy.qza
--p-include Bacteria
--o-filtered-sequences ref-seqs-Bacteria.qza

仅保留细菌的注释信息命令:

qiime rescript filter-taxa
--i-taxonomy 99_otu_taxonomy.qza
--m-ids-to-keep-file ref-seqs-Bacteria.qza
--o-filtered-taxonomy ref-seqs-Bacteria-tax.qza

训练分类器命令:

qiime feature-classifier fit-classifier-naive-bayes
--i-reference-reads ref-seqs-Bacteria.qza
--i-reference-taxonomy ref-seqs-Bacteria-tax.qza
--o-classifier classifier-Bacteria.qza
方法注释:在完成提取扩增区后,可直接进行训练分类器。但由于部分数据库中同时含有细菌和古菌,有时还含有真核生物的特征序列和分类信息,在比对过程中可能会导致菌属比对错误等情况的出现,所以提取单一菌属序列及分类信息有助于提高比对的准确度。此步骤可以视测序数据实际情况而定,在处理真菌ITS数据时,不需要提取单一菌属。

02物种注释 Taxonomic classification

物种数据库

数据库名称 链接 说明
RDP http://rdp.cme.msu.edu/ 一个辅助数据库,提供核糖体数据和有关的程序及服务。包括用于比对使用的rRNA序列。
SILVA http://www.arb-silva.de/ 提供全面、质检和定期更新的数据用于比对细菌、古菌、Eukarya小(16S/18S,SSU)和大亚基(23S/28S,LSU)rRNA的所有序列。
GreenGenes htp://http://greengenes.secondgenome.com 质控、全面的16S rRNA基因参考数据库。
UNITE https://unite.ut.ee UNITE数据库是目前真菌ITS整理最全面的数据库,基于上百万的全长ITS高质量序列,包括45万多个假定物种。

本教程中物种注释使用已经训练好的GreenGene13.8的99%聚类序列的V4区分类器。该分类器通过识别对特定分类群体具有诊断性的k聚体,并使用该信息来预测每个特征的从属关系。

k聚体:即k-mer,将序列分成包含k个碱基的字符串。

物种注释命令:

qiime feature-classifier classify-sklearn
--i-reads dada2_rep_set.qza
--i-classifier gg-13-8-99-515-806-nb-classifier.qza
--o-classification taxonomy.qza

可视化物种注释命令:

qiime metadata tabulate
--m-input-file taxonomy.qza
--o-visualization taxonomy.qzv

输出结果文件:taxonomy.qza,即物种注释结果;taxonomy.qzv,物种注释表。

上表中包括界、门、纲、目、科、属和种的注释,可查看细菌物种信息和分类置信度。

生成物种丰度柱状图命令:

qiime taxa barplot
--i-table dada2-table.qza
--i-taxonomy taxonomy.qza
--m-metadata-file metadata.tsv
--o-visualization taxa-bar-plots.qzv

输出文件结果:taxa-bar-plots.qzv,即物种丰度柱状图。

上图为细菌属水平样本堆叠柱状图。根据分类学分析结果,可以得知一个或多个样品在各分类学水平上的物种组成比例情况,反映不同样品在各分类学水平上的群落结构。taxa-bar-plots.qzv文件中可切换不同分类级别、选择10余种配色方案;切换排序类型和升降序方向。同时图中的柱可鼠标悬停查看数据。横坐标中每一个条形图代表一个样本,纵坐标代表该分类层级的序列数目或比例。同一种颜色代表相同的分类级别。图中的每根柱子中的颜色表示该样本在不同级别(门、纲、目等)的序列数目,序列数目只计算级别最低的分类,例如在属中计算过了,则在科中则不重复计算。

本文提供分析所需文件与所有输出结果文件,百度网盘下载链接:

https://pan.baidu.com/s/1sHhsOKeJuZrbgcfNGQ8X4Q

提取码:1234

这篇推文对你有帮助吗?喜欢这篇文章吗?喜欢就不要错过呀,关注本知乎号查看更多的环境微生物生信分析相关文章。亦可以用微信扫描下方二维码关注“环微分析”微信公众号,小编在里面载入了更加完善的学习资料供广大生信分析研究者爱好者参考学习,也希望读者们发现错误后予以指出,小编愿与诸君共同进步!!!

学习环境微生物分析,关注“环微分析”公众号,持续更新,开源免费,敬请关注!

转载自原创文章:

QIIME2进阶六_QIIME2训练分类器及物种注释​

最后,再次感谢你阅读本篇文章,真心希望对你有所帮助。感谢!

QIIME2进阶六_QIIME2训练分类器及物种注释相关推荐

  1. QIIME2进阶五_QIIME2扩增子基因序列多样性分析

    本节主要介绍了如何使用生物信息分析分析软件QIIME2对扩增子基因序列进行Alpha和Beta多样性分析,以及Alpha稀疏和深度选择. 本教程将使用来自人源化(humanized)小鼠的一组粪便样品 ...

  2. QIIME2进阶一_用QIIME2解析序列,诠释生命

    本文旨在介绍生物信息学软件QIIME2及其核心组成. 2010年,美国科罗拉多大学的Rob Knight教授(现单位美国加州大学圣地亚哥分校)团队发布QIIME(发音同chime)分析流程.该流程可在 ...

  3. QIIME2进阶三_用QIIME2实现对数据的质量控制

    本文主要介绍了使用生物信息软件QIIME2中的DADA2与Deblur插件对扩增子基因序列进行质量控制. 本教程将使用来自人源化(humanized)小鼠的一组粪便样品,展示16S rRNA基因扩增子 ...

  4. opencv中traincascade训练分类器

    1 分类器的训练 训练级联分类器traincascade需要OpenCV中的两个exe文件,这两个文件分别是opencv_createsamples.exe和opencv_traincascade.e ...

  5. 用matlab实现感知机学习算法,训练分类器并解决井字游戏

    问题描述: 附件中包含的数据是传统游戏过三关(tic-tac-toe)的900余种棋局, 目的是要通过统计学习的方法让机器自动判别出胜负.数据文件中, 玩家是'x',对手是'o',每行数据包含3*3九 ...

  6. 如何利用OpenCV自带的级联分类器训练程序训练分类器

    介绍 使用级联分类器工作包括两个阶段:训练和检测. 检测部分在OpenCVobjdetect 模块的文档中有介绍,在那个文档中给出了一些级联分类器的基本介绍.当前的指南描述了如何训练分类器:准备训练数 ...

  7. 人脸识别(二)——训练分类器的补充说明

    关于人脸识别分类器的训练可详细参考博主的上篇文章链接:http://blog.csdn.net/weixin_40787712/article/details/79186828 这里做些补充说明: 之 ...

  8. OpenCV训练分类器

    OpenCV训练分类器 一.简介     目标检测方法最初由Paul Viola [Viola01]提出,并由Rainer Lienhart [Lienhart02]对这一方法进行了改善.该方法的基本 ...

  9. OpenCV训练分类器制作xml文档

    opencv 2.1网上查的另一种资料 训练分类器成功,在此与大家分享. 参考英文资料网址: http://note.sonots.com/SciSoftware/haartraining.html# ...

最新文章

  1. Ubuntu中Atom安装与使用
  2. idea从mapper接口跳到xml文件
  3. java中方法的参数传递机制
  4. ef 多个左联接查询_.NET 云原生架构师训练营(模块二 基础巩固 EF Core 查询)--学习笔记...
  5. 1.4万+阅读量,这篇JAMA论文,详细阐述临床试验统计方法,非常值得借鉴!
  6. 微软 Build 2019 对开发者意味着什么?
  7. 两岸大学生体验福州油纸伞制作技艺
  8. 原生js实现网站倒计时效果 给网站添加一个活动倒计时效果 线报活动结束提示效果
  9. 微信登录(官方指导)
  10. 什么邮箱的归档功能好用?
  11. 四级词汇pdf_这或许是史上最全“雅思阅读高频词汇”,赶快拿走吧~~
  12. 报错解决——Failed to load resource: the server responded with a status of 404 (Not Found)
  13. 软件自动化测试框架STAF概述
  14. 全同态加密(FHE):BV方案、密钥切换、模约化、自举
  15. 网易2018校园招聘编程题真题集合2相反数
  16. 怎么恢复我在计算机里删掉的文档,如题,如何彻底删除电脑中的文件,使文件不能恢复?(我的方式是直接? 爱问知识人...
  17. 百度地图绘制运动轨迹技巧
  18. 自己实现notifyDatasetChanged
  19. 嵌入式系统开发笔记78:电话、电报发明给予我们的启示
  20. Excel与VBA编程中的常用代码

热门文章

  1. 基于数学形态学的道路裂缝病害检测
  2. 【Unity3D插件】uMOBA插件分享《Moba类游戏框架插件》
  3. praat 使用记录
  4. 包装实训总结报告_物流包装实训总结
  5. 全球与中国投影面料市场深度研究分析报告
  6. 长见识了,Kotlin + SpringBoot + JPA 整合开发比Java更爽...
  7. MikroTik RouterOS官网硬件一键开启DDNS动态域名解析,解决远程访问及映射/DDNS脚本
  8. Python 条件判断 If
  9. 高跟鞋踩猫、踩狗视频下载
  10. [固态硬盘协议 第3回] 你懂 PCIE 和 NVME是如何相依相恋?