前情提要

  • NBT:QIIME 2可重复、交互和扩展的微生物组数据分析平台

  • 1简介和安装Introduction&Install

  • 2插件工作流程概述Workflow

  • 3老司机上路指南Experienced

  • 4人体各部位微生物组分析Moving Pictures

  • Genome Biology:人体各部位微生物组时间序列分析

  • 5粪菌移植分析练习FMT

  • Microbiome:粪菌移植改善自闭症

  • 6沙漠土壤分析Atacama soil

  • mSystems:干旱对土壤微生物组的影响

  • 7帕金森小鼠教程Parkinson’s Mouse

  • Cell:肠道菌群促进帕金森发生ParkinsonDisease

  • 8差异丰度分析gneiss

  • 9数据导入Importing data

  • 10数据导出Exporting data

  • 11元数据Metadata

  • 12数据筛选Filtering data

  • 13训练特征分类器Training feature classifiers

  • 14数据评估和质控Evaluating and controlling

  • 15样品分类和回归q2-sample-classifier

  • 16纵向和成对样本比较q2-longitudinal

使用q2-vsearch聚类序列为OTUs

Clustering sequences into OTUs using q2-vsearch

目前QIIME2支持三个聚类方式:无参(De novo), 有参(closed-reference), 和半有参(open-reference clustering,即先有参比对再将无法比对序列进行无参聚类)。

目前运行vsearch仅能对拆分和质控后的数据进行OTUs聚类 (如SampleData[Sequences]对象), 或质控后的特征表和代表性序列(如FeatureTable[Frequency]FeatureData[Sequence]对象, 这些文件可以由qiime dada2 denoise-*qiime deblur denoise-*命令产生)。第一选择需要两步(在将来可能一步就搞定)。第二选择只需一步完成。

QIIME 1用户:在QIIME1中,由split_libraries*.py命令进行样本序列拆分、质量过滤,生成文件为seqs.fna

在学习完本教程之后,您将知道如何运行从头,封闭参考和开放参考集群。 这将从一个QIIME 1 seqs.fna文件开始进行说明,该文件将被读取到SampleData [Sequences]工件中。 如果您已经具有要聚类的FeatureTable [Frequency]和FeatureData [Sequence]工件,则可以跳到本教程的FeatureTable [Frequency]和FeatureData [Sequence]聚类。

下载数据

mkdir -p qiime2-otu-clustering-tutorial
cd qiime2-otu-clustering-tutorialwget -c \-O "seqs.fna" \"https://data.qiime2.org/2019.7/tutorials/otu-clustering/seqs.fna"wget -c \-O "85_otus.qza" \"https://data.qiime2.org/2019.7/tutorials/otu-clustering/85_otus.qza"

序列去冗余

Dereplicating a SampleData[Sequences] artifact

如果您开始分析时使用的是样本拆分、质量控制的序列,例如QIIME 1的seqs.fna文件中的序列,那么第一步是将数据导入为QIIME 1对象。这里使用的语义类型是SampleData[Sequences],表示数据是一个或多个样本的序列集合。

# 5s
time qiime tools import \--input-path seqs.fna \--output-path seqs.qza \--type 'SampleData[Sequences]'

输出对象:

  • 85_otus.qza: 按85%相似度聚类的OTU。 查看 | 下载

  • seqs.qza: 导入的序列文件。 查看 | 下载

导入后,使用dereplicate-sequences进行序列去冗余

# 6s
time qiime vsearch dereplicate-sequences \--i-sequences seqs.qza \--o-dereplicated-table table.qza \--o-dereplicated-sequences rep-seqs.qza

输出结果:

  • rep-seqs.qza: 代表序列。 查看 | 下载

  • table.qza: 特征表。 查看 | 下载

序列去冗余dereplicate-sequences的输出是一个FeatureTable[Frequency]和一个FeatureData[Sequence]对象。FeatureTable[Frequency]对象是特征表,指示在每个样本中观察到的每个Amplicon序列变体(ASV)的次数。FeatureData[Sequence]对象包含每个功能标识符到定义该特征序列变量的映射。这些文件类似于qiime dada2 denoise-*qiime deblur denoise-*生成的文件,只是在去噪过程中没有应用去噪、去除嵌合体或其他质量控制。(在本例中,这些数据的唯一质量控制是在导入import步骤之前,即在QIIME 2之外的程序进行的)

特征[频率]和特征数据[序列]的聚类

Clustering of FeatureTable[Frequency] and FeatureData[Sequence]

QIIME2中的OTU聚类目前应用于一个 FeatureTable[Frequency]对象和一个FeatureData[Sequence]对象。这些对象可以来自各种分析流程,包括qiime vsearch dereplicate-sequences(如上所示)、qiime dada2 denoise-*qiime deblur denoise-*,或者下面所示的一个聚类过程(例如,以较低的百分比序列一致率对数据进行重新聚类)。

FeatureData[Sequence]对象中的序列两两比对(de novo 聚类)或比对参考数据库(closed-reference聚类),然后可折叠特征表FeatureTable中的特征,从而形成输入特征的新特征聚类。

无参聚类

De novo clustering

特性表的无参(从头/新)聚类(De novo clustering)可以用如下命令实现。在这个例子中,聚类是按序列相似度99%的水平执行的,以创建99%的OTU。

# 5s
time qiime vsearch cluster-features-de-novo \--i-table table.qza \--i-sequences rep-seqs.qza \--p-perc-identity 0.99 \--o-clustered-table table-dn-99.qza \--o-clustered-sequences rep-seqs-dn-99.qza

输出对象:

  • table-dn-99.qza: 99%相似度聚类的OTUs表。 查看 | 下载

  • rep-seqs-dn-99.qza: 99%相似度聚类的代表序列。 查看 | 下载

该过程的输出是FeatureTable [Frequency]对象和FeatureData [Sequence]对象。 FeatureData [Sequence]对象将包含定义每个OTU聚类的质心(centroid)序列,即最高丰度序列。

有参聚类

Closed-reference clustering

特性表的有参聚类可以用如下方法执行。在这个例子中,聚类是在85%的一致性下对GreenGenes 13_8 85%的OTU参考数据库进行比对的。参考数据库作为FeatureData[Sequence]对象。

注释:有参OTU聚类通常以更高的相似度合并,但这里使用85%,因此本教程的用户不必下载更大的参考数据库。通常,在某个百分比处对聚集在同一百分比相似度的参考数据库执行聚类,但这并没有正确地进行基准测试,以确定它是否是执行有参聚类的最佳方法。

time qiime vsearch cluster-features-closed-reference \--i-table table.qza \--i-sequences rep-seqs.qza \--i-reference-sequences 85_otus.qza \--p-perc-identity 0.85 \--o-clustered-table table-cr-85.qza \--o-clustered-sequences rep-seqs-cr-85.qza \--o-unmatched-sequences unmatched-cr-85.qza

输出对象:

  • table-cr-85.qza: 特征表。 查看 | 下载

  • unmatched-cr-85.qza: 无法比对的序列。 查看 | 下载

  • rep-seqs-cr-85.qza: 代表序列。 查看 | 下载

cluster-features-closed-reference输出的结果是一个FeatureTable[Frequency]对象和一个FeatureData[Sequence]对象。在这种情况下,序列FeatureData[Sequence]对象不是定义FeatureTable中特征的序列,而是特征ID及其按85%相似度匹配序列的集合。作为输入提供的参考序列被用作定义有参OTU中的特征序列。

半有参聚类

Open-reference clustering

像上面的有参聚类示例一样,可以使用qiime vsearch cluster-features-open-reference命令执行半有参(开放参考)聚类。

注:半有参OTU聚类通常以更高的百分比一致率执行,但这里使用85%,因此本教程的用户不必下载更大的参考数据库。通常,在某个百分比一致率对有相同百分比一致率聚类的参考数据库执行聚类,但这并没有正确地进行基准测试,以确定它是否是执行半有参(开放参考)聚类的最佳方法。

# 13s
time qiime vsearch cluster-features-open-reference \--i-table table.qza \--i-sequences rep-seqs.qza \--i-reference-sequences 85_otus.qza \--p-perc-identity 0.85 \--o-clustered-table table-or-85.qza \--o-clustered-sequences rep-seqs-or-85.qza \--o-new-reference-sequences new-ref-seqs-or-85.qza

输出对象:

  • new-ref-seqs-or-85.qza: 新参考序列。 查看 | 下载

  • rep-seqs-or-85.qza: 代表序列。 查看 | 下载

  • table-or-85.qza: 特征表。 查看 | 下载

cluster-features-open-reference输出结果是一个FeatureTable[Frequency]对象和两个FeatureData[Sequence]对象。其中一FeatureData[Sequence]对象表示聚集的序列,而另一个对象表示新的参考序列,由用于输入的参考序列以及作为内部重新聚集步骤的一部分聚集的序列组成。

Reference

https://docs.qiime2.org/2019.7

Evan Bolyen, Jai Ram Rideout, Matthew R. Dillon, Nicholas A. Bokulich, Christian C. Abnet, Gabriel A. Al-Ghalith, Harriet Alexander, Eric J. Alm, Manimozhiyan Arumugam, Francesco Asnicar, Yang Bai, Jordan E. Bisanz, Kyle Bittinger, Asker Brejnrod, Colin J. Brislawn, C. Titus Brown, Benjamin J. Callahan, Andrés Mauricio Caraballo-Rodríguez, John Chase, Emily K. Cope, Ricardo Da Silva, Christian Diener, Pieter C. Dorrestein, Gavin M. Douglas, Daniel M. Durall, Claire Duvallet, Christian F. Edwardson, Madeleine Ernst, Mehrbod Estaki, Jennifer Fouquier, Julia M. Gauglitz, Sean M. Gibbons, Deanna L. Gibson, Antonio Gonzalez, Kestrel Gorlick, Jiarong Guo, Benjamin Hillmann, Susan Holmes, Hannes Holste, Curtis Huttenhower, Gavin A. Huttley, Stefan Janssen, Alan K. Jarmusch, Lingjing Jiang, Benjamin D. Kaehler, Kyo Bin Kang, Christopher R. Keefe, Paul Keim, Scott T. Kelley, Dan Knights, Irina Koester, Tomasz Kosciolek, Jorden Kreps, Morgan G. I. Langille, Joslynn Lee, Ruth Ley, Yong-Xin Liu, Erikka Loftfield, Catherine Lozupone, Massoud Maher, Clarisse Marotz, Bryan D. Martin, Daniel McDonald, Lauren J. McIver, Alexey V. Melnik, Jessica L. Metcalf, Sydney C. Morgan, Jamie T. Morton, Ahmad Turan Naimey, Jose A. Navas-Molina, Louis Felix Nothias, Stephanie B. Orchanian, Talima Pearson, Samuel L. Peoples, Daniel Petras, Mary Lai Preuss, Elmar Pruesse, Lasse Buur Rasmussen, Adam Rivers, Michael S. Robeson, Patrick Rosenthal, Nicola Segata, Michael Shaffer, Arron Shiffer, Rashmi Sinha, Se Jin Song, John R. Spear, Austin D. Swafford, Luke R. Thompson, Pedro J. Torres, Pauline Trinh, Anupriya Tripathi, Peter J. Turnbaugh, Sabah Ul-Hasan, Justin J. J. van der Hooft, Fernando Vargas, Yoshiki Vázquez-Baeza, Emily Vogtmann, Max von Hippel, William Walters, Yunhu Wan, Mingxun Wang, Jonathan Warren, Kyle C. Weber, Charles H. D. Williamson, Amy D. Willis, Zhenjiang Zech Xu, Jesse R. Zaneveld, Yilong Zhang, Qiyun Zhu, Rob Knight & J. Gregory Caporaso#. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 2019, 37: 852-857. doi:10.1038/s41587-019-0209-9

译者简介

刘永鑫,博士。2008年毕业于东北农大微生物学,2014年于中科院遗传发育所获生物信息学博士,2016年博士后出站留所工作,任宏基因组学实验室工程师。目前主要研究方向为宏基因组数据分析和植物微生物组,QIIME 2项目参与人。目前在Science、Nature Biotechnology等杂志发表论文十余篇。2017年7月创办“宏基因组”公众号,目前分享宏基因组、扩增子原创文章400余篇,代表博文有《扩增子图表解读、分析流程和统计绘图三部曲(21篇)》、《Nature综述:手把手教你分析菌群数据(1.8万字)》、《QIIME2中文教程(18篇)》等,关注人数6.5万+,累计阅读1000万+。

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

QIIME 2用户文档. 19使用q2-vsearch聚类OTUs(2019.7)相关推荐

  1. QIIME 2用户文档. 18序列双端合并read-joining(2019.7)

    前情提要 NBT:QIIME 2可重复.交互和扩展的微生物组数据分析平台 1简介和安装Introduction&Install 2插件工作流程概述Workflow 3老司机上路指南Experi ...

  2. QIIME 2用户文档. 16纵向和成对样本比较q2-longitudinal(2019.7)

    前情提要 NBT:QIIME 2可重复.交互和扩展的微生物组数据分析平台 1简介和安装Introduction&Install 2插件工作流程概述Workflow 3老司机上路指南Experi ...

  3. QIIME 2用户文档. 15样品分类和回归q2-sample-classifier(2019.7)

    前情提要 NBT:QIIME 2可重复.交互和扩展的微生物组数据分析平台 1简介和安装Introduction&Install 2插件工作流程概述Workflow 3老司机上路指南Experi ...

  4. QIIME 2用户文档. 4人体微生物组分析Moving Pictures(2019.7)

    前情提要 Nature Biotechnology:QIIME 2可重复.交互和扩展的微生物组数据分析平台 1简介和安装Introduction&Install 2插件工作流程概述Workfl ...

  5. QIIME 2用户文档. 01简介和安装 Introduction Install(2020.2)

    写在前面 QIIME是微生物组领域最广泛使用的分析流程,10年来引用近20000次,2019年Nature杂志评为近70年来人体菌群研究的25个里程碑事件--里程碑16:生物信息学工具助力菌群测序数据 ...

  6. QIIME 2用户文档. 9数据导入Importing data(2019.7)

    前情提要 NBT:QIIME 2可重复.交互和扩展的微生物组数据分析平台 1简介和安装Introduction&Install 2插件工作流程概述Workflow 3老司机上路指南Experi ...

  7. QIIME 2用户文档. 1简介和安装(2019.7)

    写在前面 QIIME是微生物组领域最广泛使用的分析流程,9年来引用量超1.6万次,2019年Nature杂志评为近70年来人体菌群研究的25个里程碑事件.为满足当前大数据.可重复分析的需求,北亚利桑那 ...

  8. QIIME 2用户文档. 8数据导入Importing data(2018.11)

    文章目录 前情提要 QIIME 2用户文档. 8数据导入 导入带质量值的FASTQ测序数据 EMP标准混样单端数据 EMP混样双端数据 Casava1.8单端混样数据 Casava 1.8双端拆分后数 ...

  9. QIIME 2用户文档. 1简介和安装(2018.11)

    文章目录 写在前面 QIIME 2优势 入门指南 什么是QIIME 2? 核心概念 安装 原生安装QIIME 2 虚拟机安装 使用VirtualBox方式安装 亚马逊云安装 使用Docker方式安装 ...

最新文章

  1. 以太网、局域网、互联网区别
  2. 同花顺函数API(转载)
  3. MFC子窗口和父窗口(SetParent,SetOwner)
  4. 使用JS制作一个鼠标可拖的DIV(三)——移动带图片DIV
  5. 浅谈Struts2的命名空间及以传统形式返回json数据
  6. 杭州SEO大熊:百度分享插件的SEO研究心得
  7. python已知有列表_python 列表常用方法
  8. java中的冒泡排序和交换排序
  9. 天津理工大学和天津工业大学计算机考研,天津工业大学和天津理工大学,谁的实力更强?谁的录取分数更高呢...
  10. 如何优化小红书笔记?教你三个小技巧,让你快速提高笔记排名
  11. 如何以厘米为单位精确设置Excel表格的行高列宽?
  12. android 钉钉考勤日历,vue钉钉考勤日历 vue实现钉钉的考勤日历
  13. 如何申请小程序与小程序支付
  14. 【渝粤题库】广东开放大学 互联网金融本 形成性考核
  15. 数据分析系列:绩效(效率)评价与python实现(层析分析、topsis、DEA)
  16. 短信生成器部分思路----Android
  17. window统计连接数
  18. 修改配置的时候提示token验证失败/微信公众号
  19. C++和双重检查锁定模式(DCLP)的风险
  20. Java爬虫-爬取四级词汇网站音频

热门文章

  1. 年薪75万的真实技术面试实践攻略(篇章一)
  2. 魅族员工跳槽OPPO后感慨,公司高层各种反思,不会骂员工废材
  3. Java问题排查工具清单
  4. DevOps的工程化
  5. oracle sql MERGE 关键字
  6. JSP内置对象-request
  7. 字符间距加宽5磅怎么设置_11层以下住宅小区——消防车道设置及答疑
  8. python连接mysql很慢 2.7_Python 2.7 学习笔记 访问mysql数据库
  9. 单链表-两个线性表的合并(不破坏原链表+尾插法)
  10. 前端基础入门(html+css+详)