本文旨在介绍生物信息学软件QIIME2及其核心组成。

2010年,美国科罗拉多大学的Rob Knight教授(现单位美国加州大学圣地亚哥分校)团队发布QIIME(发音同chime)分析流程。该流程可在Linux或Mac系统中运行,相比mothur具有更多的优点,主要包括:整合了200多款相关软件和包,实现每个步骤更多软件和方法的选择;提供150多个脚本,实现各种个性化分析,并可以应对不同类型数据和实验设计;流程开放程度高,容易整合新软件和方法;增强统计和可视化,实现多样性、物种组成、差异比较和网络等众多方法和出版级图表绘制。由于QIIME允许同领域研究者较自主地开展扩增子数据的个性化分析和可视化,逐渐成为本领域最受欢迎的软件。为了满足日益增长的测序数据量和可重复计算的要求,Gregory J. Caporaso教授于2016年起发起了基于Python3语言从头编写的QIIME2项目。该项目实现了分析流程的可追溯以满足科研可重复计算的要求;同时推出了一系列新算法,如基于进化距离的快速算法条型(Striped)UniFrac、物种分类新方法2-feature-classifier等;更重要的是软件的可扩展性和得到了同际同行的广泛支持,如接头和引物序列去除工具cutadapt、序列质量控制R包DADA2、聚类和去冗余的软件VSEARCH、纵向和成对样本分析工具longitudinal等,甚至包括宏基因组、宏代谢组分析和中文帮助文档,极大了提高了流程的适用范围和易用性。

全新的QIIME2是一个强大的、可扩展的和去中心化的微生物组分析平台,侧重于数据分析的透明度。QIIME2使研究人员能够从原始DNA序列数据开始分析,并获得出版物质量图片和统计结果。QIIME2保留了QIIME1强大和广泛使用等优点,也改进了先前版本中的不足。

全新的QIIME2平台具有以下几大优点:

(1)安装更加简单,支持多种系统,能够满足绝大多数使用者的需求;

(2)整合分析流程、自动化追踪数据来源,保证了每一步分析都可追踪溯源;

(3)开发了语义类型系统,可快速自动识别导入文件类型;

(4)开发插件系统,可扩展微生物分析功能种类,将复杂的分析过程整体化、综合化;

(5)支持多种用户界面(如API、命令行、图形界面);

(6)是一个开源的平台,每一个使用者均可开发插件;

(7)可视化功能强大,在使用时可生成交互式图形以便使用者了解数据处理结果;

(8)具有相对完善的社区平台,使用者可在论坛进行讨论。

核心概念

想要深入的了解QIIME2的分析流程,需要了解一下QIIME2的核心概念(Core concepts)。

数据文件: QIIME 2对象/文件格式(Data files: QIIME 2 artifacts)

QIIME2生成的数据作为QIIME2对象(artifacts)存在。QIIME2对象包含数据和元数据。元数据描述了有关数据的内容,例如数据的类型、格式以及数据的生成方式(出处)。当存储在文件中时,QIIME2对象通常具有.qza文件扩展名。使用QIIME2对象代替简单的数据,可以自动追踪文件类型、格式和分析过程,且研究者无需考虑过程中的各种数据类型。QIIME2对象可以查看之前的分析过程,每步使用的输入数据。可以使研究者准确知道它的分析步骤。这样使分析过程可重复,可学习,也可以产生在方法中使用的文本和图表。

数据文件:可视化(Data files: visualizations)

可视化(visualizations)是QIIME2生成的另一种类型的数据。可视化文件通常具有.qzv文件扩展名。可视化包含与QIIME2对象类似的元数据类型。与QIIME2对象类似,可视化是可以存档或共享的文件。但可视化是分析的最终输出,可以表示统计结果表、交互式图表、静态图像或任何视觉数据表示的组合。由于可视化是终端输出,它们不能用作QIIME2中其他分析的输入。在使用时不能作为导入数据。

语义类型(Semantic types)

QIIME2生成的每个对象都有一个与之关联的语义类型。语义类型使QIIME2能够识别适合分析输入的工件。语义类型还可以帮助用户避免语义错误的分析,例如用未标准化的OTU表进行多样性分析。

插件(Plugins)

研究者通过使用插件完成QIIME 2微生物组分析。可根据特定分析需求安装一个或多个插件,例如,如果要对原始序列数据进行拆分,可以使用q2-demux插件,或者如果要执行alpha或beta多样性分析,可以使用q2-diversity插件。任何人都可以开发插件,插件的实质是一个软件包。QIIME2研究团队鼓励第三方开发人员创建自己的插件来提供额外的分析。

方法与可视化(Methods and visualizers)

QIIME 2插件定义的用于进行分析的方法和可视化工具类型。

方法是对QIIME2定义的输入对象进行操作的过程,包括命令和参数,并产生1个或多个标准格式的输出。这一结果可以后续分析或可视化,产生中间或末端的输出。

可视化工具定义了标准输入,包括QIIME 2对象和参数的组合,产生统计表格或可视化图形,方便用户解读,输入为qza格式,输出为qzv文件,文件不仅包括结果,还包括处理的分析命令和参数,方便重复和检查分析过程是否准确。

常用语义类型

FeatureTable[Frequency]:特征表[频率],即OTU表,其中每个值表示对应样本中OTU的出现频率。

FeatureTable[RelativeFrequency]: 特征表[相对频率],其中每个值表示相应样本中OTU的相对丰度,使得每个样本的值之和为1.0。

FeatureTable[PresenceAbsence]: 特征表[存在/缺席],其中每个值表示相应样本中是否存在某个OTU。

FeatureTable[Composition]: 特征表[组成],其中每个值表示相应样本中OTU的频率,并且所有频率都大于零。

Phylogeny[Rooted]: 系统发育[根],有根的系统发育树。

Phylogeny[Unrooted]: 系统发育[无根],无根的系统发育树。

DistanceMatrix: 距离矩阵。

PCoAResults: 主坐标分析PCoA的结果。

SampleData[AlphaDiversity]: 样本数据[Alpha多样性],每个数值均为Alpha多样性结果,基于样本自身的分析。

SampleData[SequencesWithQuality]: 样本数据[带质量的序列],要求序列有质量值,要求序列名称与样品存在对应关系,如为按样品拆分后的数据格式。

SampleData[PairedEndSequencesWithQuality]: 样本数据[带质量的成对末端序列],要求序列ID与样品编号存在对应关系。

FeatureData[Taxonomy]: 特征数据[分类学],每一个特征的分类学信息。

FeatureData[Sequence]: 特征数据[序列],代表性序列。

FeatureData[AlignedSequence]: 特征数据[对齐序列],代表性序列进行多序列比对的结果。

FeatureData[PairedEndSequence]: 特征数据[双端序列],双端序列进行聚类或去噪后,生成的OTU/Feature。

EMPSingleEndSequences: 采用地球微生物组计划标准实验方法产生的单端测序数据。

EMPPairedEndSequences: 采用地球微生物组计划标准实验方法产生的双端测序数据。

TaxonomicClassifier:一种经过训练的分类器,用于物种注释。

目前可用插件

alignment: 用于生成和处理序列对齐。

composition: 用于组合数据分析。

cutadapt: 用于从序列数据中删除适配器序列、引物和其他不需要的序列。

dada2: 使用dada2进行序列质量控制。

deblur: 使用deblur进行序列质量控制。

demux: 用于拆分序列和查看序列质量的插件。

diversity: 用于探索群落多样性。

diversity-lib: 用于计算群落多样性。

emperor: 用于排序绘图。

feature-classifier: 用于训练分类器。

feature-table: 用于按特征表处理样本。

fragment-insertion: 用于扩展系统发育。

gneiss: 用于构建成分模型。

longitudinal: 用于配对样本和时间序列分析。

metadata: 用于处理元数据。

phylogeny: 生成和处理系统发育。

quality-control: 用于特征和序列数据质量控制。

quality-filter: 用于基于PHRED的过滤和修整。

sample-classifier: 用于对样本元数据进行机器学习预测。

taxa: 用于处理功能分类注释的插件。

types: 用于微生物组分析的类型定义。

vsearch: 用于通过vsearch进行聚类和去冗余。

这篇推文对你有帮助吗?喜欢这篇文章吗?喜欢就不要错过呀,关注本知乎号查看更多的环境微生物生信分析相关文章。亦可以用微信扫描下方二维码关注“环微分析”微信公众号,小编在里面载入了更加完善的学习资料供广大生信分析研究者爱好者参考学习,也希望读者们发现错误后予以指出,小编愿与诸君共同进步!!!

学习环境微生物分析,关注“环微分析”公众号,持续更新,开源免费,敬请关注!

转载自原创文章:

QIIME2进阶一_用QIIME2解析序列,诠释生命

最后,再次感谢你阅读本篇文章,真心希望对你有所帮助。感谢!

QIIME2进阶一_用QIIME2解析序列,诠释生命相关推荐

  1. QIIME2进阶三_用QIIME2实现对数据的质量控制

    本文主要介绍了使用生物信息软件QIIME2中的DADA2与Deblur插件对扩增子基因序列进行质量控制. 本教程将使用来自人源化(humanized)小鼠的一组粪便样品,展示16S rRNA基因扩增子 ...

  2. QIIME2进阶二_元数据及数据导入QIIME2

    本节主要讲解如何将元数据与数据导入生物信息分析软件QIIME2,实现数据导入与检查. 本实战教程将使用来自人源化(humanized)小鼠的一组粪便样品,展示16S rRNA基因扩增子数据的" ...

  3. QIIME2进阶五_QIIME2扩增子基因序列多样性分析

    本节主要介绍了如何使用生物信息分析分析软件QIIME2对扩增子基因序列进行Alpha和Beta多样性分析,以及Alpha稀疏和深度选择. 本教程将使用来自人源化(humanized)小鼠的一组粪便样品 ...

  4. QIIME2进阶六_QIIME2训练分类器及物种注释

    本文我们主要介绍了如何训练Naive Bayes分类器并把这个分类器应用于扩增子基因序列的物种注释与可视化. 本教程将使用来自人源化(humanized)小鼠的一组粪便样品,展示16S rRNA基因扩 ...

  5. java dom xml 换行,dom4j解析xml文件_用DOM解析XML文件,怎么才能让解析出来的文本不用换行_dom解析xml文件...

    网友求助:dom4j解析xml文件_用DOM解析XML文件,怎么才能让解析出来的文本不用换行_dom解析xml文件 问题importjava.text.SimpleDateFormat; import ...

  6. 【进阶3-5期】深度解析 new 原理及模拟实现

    定义 new 运算符创建一个用户定义的对象类型的实例或具有构造函数的内置对象的实例. --(来自于MDN) 举个栗子 function Car(color) {this.color = color; ...

  7. 只能输入字母的c语言程序设计教程课后答案,c语言程序设计基础教程_习题答案解析.doc...

    c语言程序设计基础教程_习题答案解析.doc 习题答案 第1章 填空题 应用程序ONEFUNC.C中只有一个函数,这个函数的名称是__main . 一个函数由__函数头__和__函数体__两部分组成. ...

  8. java课后习题七解析_《Java基础入门》_课后习题解析.doc

    <Java基础入门>_课后习题解析 <Java基础入门>课后习题 Java开发入门 一.填空题 1.Java的三大体系分别是_JavaSE_____._JavaEE_____. ...

  9. Python 进阶_迭代器 列表解析

    目录 目录 迭代器 iter 内建的迭代器生成函数 迭代器在 for 循环中 迭代器与字典 迭代器与文件 创建迭代器对象 创建迭代对象并实现委托迭代 迭代器的多次迭代 列表解析 列表解析的样例 列表解 ...

最新文章

  1. 树链剖分+线段树 HDOJ 4897 Little Devil I(小恶魔)
  2. configure_file路径疑惑
  3. Javascript Symbol 隐匿的未来之星
  4. 【转】采用dlopen、dlsym、dlclose加载动态链接库
  5. windows 从端口找应用
  6. 哪些贷款是正规的?哪些贷款千万别碰?
  7. Partitioning Strategies
  8. iOS 从相机或相册获取图片并裁剪
  9. poj 2153 Rank List
  10. Struts2-02-OGNL及值栈
  11. VirtualBox中的WIN7开启Aero模式要谨慎
  12. PASCAL Visual Object Classes Challenge 2007(VOC 2007)数据集预处理
  13. 职能型、矩阵型、项目型组织结构的优缺点
  14. sql优化之b+树锁引实战
  15. 适合php编程的笔记本电脑,做web前端,推荐一款笔记本电脑。
  16. 龙族幻想最新东京机器人位置_龙族幻想藤原智坐标位置一览 藤原智任务攻略...
  17. [安全] AD域解释 , 域和组的区别?
  18. 如何用linux指令集,linux – 如何知道我是否可以使用FMA指令集进行编译?
  19. Mean Squared Error 和 Maximum-A-Posterior (Maximum Likelihood Estimation) 的关系
  20. Windows 映射网络驱动器后,一重新启动,映射就不见了的解决方法

热门文章

  1. Android 花里胡哨的加载Loading动画
  2. 现代计算机模型要求程序在执行前,大学计算机基础考试考点
  3. Sqlserver 修改字段长度
  4. 远程桌面连接出错解决方案
  5. Excel表格转Markdown格式
  6. html给列表中每一行设置背景,教程丨如何设置内容的背景
  7. 录屏软件哪个好?试试这6款录屏软件,小编亲测(2023已更新)
  8. 福昕阅读器更改白色背景为保护色(2020-11-15)
  9. 计算机数据库基础知识答案,数据库基础题库含答案.doc
  10. PLSQL 11注册码