文章目录

  • 前情提要
  • 数据评估和质控`q2-quality-control`
    • 下载数据
    • 基于比对过滤序列
    • 质量评估已知组成的样品
    • 评估序列质量
    • Reference
    • 译者简介
    • 猜你喜欢
    • 写在后面

前情提要

  • QIIME 2可重复、交互和扩展的微生物组数据分析流程
  • 1简介和安装Install
  • 2插件工作流程概述Workflows
  • 3老司机上路指南Experienced
  • 4人体各部位微生物组分析Moving Pictures
  • 5粪菌移植分析练习FMT
  • 6沙漠土壤分析Atacama soil
  • 7差异丰度分析gneiss
  • 8数据导入Importing
  • 9数据导出Exporting
  • 10元数据Metadata
  • 11数据筛选Filtering

数据评估和质控q2-quality-control

Evaluating and controlling data quality with q2-quality-control

https://docs.qiime2.org/2018.11/tutorials/quality-control/

注:最好按本教程顺序学习,想直接学习本章,至少完成本系列《1简介和安装》和《4人体各部位微生物组分析Moving Pictures》。

本教程将演示如何使用q2-quality-control根据人工重组/模拟群体(mock communities,具有已知组成的样品)和序列数据过滤来评估数据质量。

下载数据

首先创建一个工作目录,再下载并创建几个文件

# 创建工作目录
mkdir quality-control-tutorial
cd quality-control-tutorialwget \-O "query-seqs.qza" \"https://data.qiime2.org/2018.11/tutorials/quality-control/query-seqs.qza"wget \-O "reference-seqs.qza" \"https://data.qiime2.org/2018.11/tutorials/quality-control/reference-seqs.qza"wget \-O "query-table.qza" \"https://data.qiime2.org/2018.11/tutorials/quality-control/query-table.qza"wget \-O "qc-mock-3-expected.qza" \"https://data.qiime2.org/2018.11/tutorials/quality-control/qc-mock-3-expected.qza"wget \-O "qc-mock-3-observed.qza" \"https://data.qiime2.org/2018.11/tutorials/quality-control/qc-mock-3-observed.qza"

基于比对过滤序列

Excluding sequences by alignment

exclude-seqs方法将FeatureData[Sequence]文件中包含的一组查询序列与一组参考序列对齐。此方法使用许多不同的对齐条件(BLAST evalue、相似度和覆盖度)来确定该序列是否“可比对”参考序列,并分别输出可比对/无法比对参考序列的两个文件。此方法有多种应用,包括去除已知的污染物序列,排除宿主序列(例如人类DNA),或从数据中去除非目标序列(例如非细菌)

首先,我们将把一小部分查询序列分成可比对/无法比对参考序列的两类

qiime quality-control exclude-seqs \--i-query-sequences query-seqs.qza \--i-reference-sequences reference-seqs.qza \--p-method blast \--p-perc-identity 0.97 \--p-perc-query-aligned 0.97 \--o-sequence-hits hits.qza \--o-sequence-misses misses.qza

输出对象:

  • qc-mock-3-expected.qza: 预期特征表
  • hits.qza: 比对结果
  • query-seqs.qza: 输入序列
  • query-table.qza: 输入特征表
  • misses.qza: 无法比对序列
  • reference-seqs.qza: 参考数据库
  • qc-mock-3-observed.qza: 观测特征表

此方法目前支持将blastvsearchblastn-short三种序列比对方法。请注意,如果查询序列包含非常短的序列(<30 nt),则应使用blastn-short方法。

既然您已经将序列拆分为一组可比对/不可比对参考序列的序列,那么您很可能希望在进一步分析之前筛选功能表以删除可比对或不可比对的序列。过滤教程中介绍了从特征表中过滤特征,但这里我们将演示使用序列数据过滤特征表。在某些情况下,您可能希望从特征表中删除未命中,例如,如果您试图选择与细菌序列(或更具体的类)对齐的序列。在其他情况下,您可能希望从特性表中删除比对序列,例如,你试图过滤与宿主DNA相似的污染物或序列。在这里,我们将筛选去除可比对,以演示如何从特征表中筛选序列;您可以在下面的命令中用misses.qza替换hits.qza,以筛选排除比对结果。

qiime feature-table filter-features \--i-table query-table.qza \--m-metadata-file hits.qza \--o-filtered-table no-hits-filtered-table.qza \--p-exclude-ids

质量评估已知组成的样品

Evaluating quality of samples with known composition

模拟群落(人工重组群落)由已知的微生物菌株组成,这些菌株按规定的比例混合,这样就知道了样品的组成。人工重组群落对于评测生物信息学方法很有用,例如,确定某种方法或流程对预期成分的估计程度。许多研究人员在实验中包括模拟群落或其他样本,这些样本具有已知序列组成,以确定批次质量和基于每次运行的方法优化。q2-quality-control插件包含两个操作,用于评估每个样品中模拟群落的准确性。评估组成评估预期分类组成(或其他特征组成)重建的准确性。评估观察到的序列与预期序列的相似性,例如,确定去噪或OTU选择方法的准确性,并在下一节中描述。

evaluate_composition比较两个单独的特征表中包含相同样本ID的观察和预期样本对的特征组成。通常,特征注释将由物种注释或其他分号分隔的功能注释组成。让我们旋转一下。

qiime quality-control evaluate-composition \--i-expected-features qc-mock-3-expected.qza \--i-observed-features qc-mock-3-observed.qza \--o-visualization qc-mock-3-comparison.qzv

在每一个分号分隔的分类学级别上,分别计算预期和观测特征丰度之间的准确率(Taxon accuracy rate, TAR)、分类检出率(taxon detection rate, TDR),和线性回归得分(linear regression scores, r-squared),并绘制每一级准确度和观察相关性图。还生成假阳性观测(false positive observations)与最近预期特征(nearest common lineage in the expected feature)之间距离的柱状图,其中距离等于观测特征与最近预期特征的共有谱系之间的等级差异数。最后,在可视化的底部给出了假阳性false positive(错误分类和未分类)和假阴性false negative特征的列表。错误分类是指在最深层分类(如物种级)中不符合任何预期物种注释的特征,通常代表样品污染物或次优生物信息学分析流程(如存在嵌合体序列或使用过度自信的物种分类器)。未分类(Underclassifications)是观察到的与预期特征相匹配的特征,但未被分类到预期的分类深度(例如,它们仅被分类到属级,但属级分类是正确的);这些通常是有效特征(即,不是污染物),但由于技术限制,未被分类到所需的级别。技术限制包括序列太短、序列质量下降或方法不理想(只有一个不好的木匠会责怪他的工具,但一个工具可以做得比另一个更好)。假阴性是期望观察到的特征,但没有看到;可以将其与假阳性进行比较,以了解哪些特征可能被错过/分类不足。

评估序列质量

Evaluating sequence quality

evaluate_seqs将一组查询(例如,观察到的)序列与一组参考(例如,预期的)序列对齐,以评估比对质量。预期用途是将观察到的序列与预期序列(例如,来自模拟群落)比对,以确定观察到的序列与最相似的预期序列之间不匹配的频率,例如,作为测序/方法错误的定量评价。但是,可以提供任何序列作为输入,以根据一组参考序列生成比对质量报告。

qiime quality-control evaluate-seqs \--i-query-sequences query-seqs.qza \--i-reference-sequences reference-seqs.qza \--o-visualization eval-seqs-test.qzv

该可视化显示了每个查询序列的比对结果、预期和观察到的序列之间的不匹配数量,以及每个查询序列与其在参考序列之间最接近的匹配(如果设置了--p-show-alignments)之间的最终成对比对。这个结果仍然相当初步,但计划在不久的将来进行扩展。请持续关注吧!

Reference

Bolyen E, Rideout JR, Dillon MR, Bokulich NA, Abnet C, Al-Ghalith GA, Alexander H, Alm EJ, Arumugam M, Asnicar F, Bai Y, Bisanz JE, Bittinger K, Brejnrod A, Brislawn CJ, Brown CT, Callahan BJ, Caraballo-Rodríguez AM, Chase J, Cope E, Da Silva R, Dorrestein PC, Douglas GM, Durall DM, Duvallet C, Edwardson CF, Ernst M, Estaki M, Fouquier J, Gauglitz JM, Gibson DL, Gonzalez A, Gorlick K, Guo J, Hillmann B, Holmes S, Holste H, Huttenhower C, Huttley G, Janssen S, Jarmusch AK, Jiang L, Kaehler B, Kang KB, Keefe CR, Keim P, Kelley ST, Knights D, Koester I, Kosciolek T, Kreps J, Langille MG, Lee J, Ley R, Liu Y, Loftfield E, Lozupone C, Maher M, Marotz C, Martin BD, McDonald D, McIver LJ, Melnik AV, Metcalf JL, Morgan SC, Morton J, Naimey AT, Navas-Molina JA, Nothias LF, Orchanian SB, Pearson T, Peoples SL, Petras D, Preuss ML, Pruesse E, Rasmussen LB, Rivers A, Robeson, II MS, Rosenthal P, Segata N, Shaffer M, Shiffer A, Sinha R, Song SJ, Spear JR, Swafford AD, Thompson LR, Torres PJ, Trinh P, Tripathi A, Turnbaugh PJ, Ul-Hasan S, van der Hooft JJ, Vargas F, Vázquez-Baeza Y, Vogtmann E, von Hippel M, Walters W, Wan Y, Wang M, Warren J, Weber KC, Williamson CH, Willis AD, Xu ZZ, Zaneveld JR, Zhang Y, Zhu Q, Knight R, Caporaso JG. 2018. QIIME 2: Reproducible, interactive, scalable, and extensible microbiome data science. PeerJ Preprints 6:e27295v2 https://doi.org/10.7287/peerj.preprints.27295v2

译者简介

刘永鑫,博士。2008年毕业于东北农大微生物学专业。2014年中科院遗传发育所获生物信息学博士学位,2016年博士后出站留所工作,任宏基因组学实验室工程师,目前主要研究方向为宏基因组学、数据分析与可重复计算和植物微生物组、QIIME 2项目参与人。发于论文12篇,SCI收录9篇。2017年7月创办“宏基因组”公众号,目前分享宏基因组、扩增子原创文章400+篇,代表博文有《扩增子图表解读、分析流程和统计绘图三部曲》,关注人数3.2万+,累计阅读500万+。

猜你喜欢

  • 10000+: 菌群分析
    宝宝与猫狗 提DNA发Nature 实验分析谁对结果影响大 Cell微生物专刊 肠道指挥大脑
  • 系列教程:微生物组入门 Biostar 微生物组 宏基因组
  • 专业技能:生信宝典 学术图表 高分文章 不可或缺的人
  • 一文读懂:宏基因组 寄生虫益处 进化树
  • 必备技能:提问 搜索 Endnote
  • 文献阅读 热心肠 SemanticScholar Geenmedical
  • 扩增子分析:图表解读 分析流程 统计绘图
  • 16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
  • 在线工具:16S预测培养基 生信绘图
  • 科研经验:云笔记 云协作 公众号
  • 编程模板: Shell R Perl
  • 生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外3000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA

QIIME 2用户文档. 13数据评估和质控Evaluating and controlling(2018.11)相关推荐

  1. QIIME 2用户文档. 14数据评估和质控Evaluating and controlling(2019.7)

    前情提要 NBT:QIIME 2可重复.交互和扩展的微生物组数据分析平台 1简介和安装Introduction&Install 2插件工作流程概述Workflow 3老司机上路指南Experi ...

  2. QIIME 2教程. 14数据评估和质控q2-quality-control(2021.2)

    数据评估和质控q2-quality-control Evaluating and controlling data quality with q2-quality-control https://do ...

  3. QIIME 2教程. 14数据评估和质控q2-quality-control(2020.11)

    文章目录 数据评估和质控`q2-quality-control` 下载数据 基于对齐过滤序列 质量评估已知组成的样品 评估序列质量 译者简介 Reference 猜你喜欢 写在后面 数据评估和质控q2 ...

  4. QIIME 2用户文档. 12数据筛选Filtering data(2019.7)

    前情提要 NBT:QIIME 2可重复.交互和扩展的微生物组数据分析平台 1简介和安装Introduction&Install 2插件工作流程概述Workflow 3老司机上路指南Experi ...

  5. QIIME 2用户文档. 9数据导入Importing data(2019.7)

    前情提要 NBT:QIIME 2可重复.交互和扩展的微生物组数据分析平台 1简介和安装Introduction&Install 2插件工作流程概述Workflow 3老司机上路指南Experi ...

  6. QIIME 2用户文档. 9数据导出Exporting data(2018.11)

    文章目录 前情提要 QIIME 2用户文档. 9数据导出 导出特征表 导出进化树 导出与提取 Reference 译者简介 猜你喜欢 写在后面 前情提要 文章导读:QIIME 2可重复.交互和扩展的微 ...

  7. QIIME 2用户文档. 8数据导入Importing data(2018.11)

    文章目录 前情提要 QIIME 2用户文档. 8数据导入 导入带质量值的FASTQ测序数据 EMP标准混样单端数据 EMP混样双端数据 Casava1.8单端混样数据 Casava 1.8双端拆分后数 ...

  8. QIIME 2用户文档. 10数据导出Exporting data(2019.7)

    前情提要 NBT:QIIME 2可重复.交互和扩展的微生物组数据分析平台 1简介和安装Introduction&Install 2插件工作流程概述Workflow 3老司机上路指南Experi ...

  9. QIIME 2用户文档. 13训练特征分类器Training feature classifiers(2019.7)

    前情提要 NBT:QIIME 2可重复.交互和扩展的微生物组数据分析平台 1简介和安装Introduction&Install 2插件工作流程概述Workflow 3老司机上路指南Experi ...

最新文章

  1. Vue-resource中post请求将data数据以request payload转换为form data的形式
  2. COLING 2020 | CharBERT:字符敏感的预训练语言模型
  3. 聚合项目访问后台接口失败_聚合支付系统和免签支付系统对未来支付市场有哪些影响...
  4. Tomcat主配置-应用部署
  5. 【6.13-6.27推荐享大礼】华为云·云享专家推荐有礼活动火热进行中……
  6. Set E Interface
  7. DirectUpdateHandler2 Solr commit
  8. span 文本内容超过宽度自动换行
  9. 正则表达式批量替换 单引号
  10. 【计算机网络笔记】数据链路层:点对点协议PPP
  11. iOS底层探索之多线程(十二)—GCD源码分析(事件源dispatch_source)
  12. 科研伦理与学术规范2021秋期末考答案|网课期末考答案|学堂在线|北京师范大学印波副教授
  13. Python3连接SSH服务器并下载日志文件
  14. DDK_HelloWorld卸载例程细化(驱动学习笔记四)
  15. 输入输出文件处理:搜索文件夹里的文件与读取某一文件的信息 ——java
  16. JGG专刊征稿:时空组学
  17. Ping Ping Ping—命令执行
  18. 快递企业玩转微信扫一扫教程
  19. 面试28k职位,老乡面试官从HashCode到HashMap给我讲了一下午!「回家赶忙整理出1.6万字的面试材料」
  20. 理清JS中的深拷贝与浅拷贝

热门文章

  1. 基于 Alluxio 的 HDFS 多集群统一入口的实现
  2. MongoDb优化指南
  3. 推荐8个相见恨晚的高效工具,再也不加班!
  4. android8.1内核编译,Android8.1.0安卓源码编译
  5. 红外测试操作步骤_红外传感实验操作步骤及数据分析(无测试实图)
  6. 二阶系统阶跃响应实验_自控原理二阶系统阶跃响应及性能分析实验报告
  7. Exploring Data with Python免费电子书
  8. python图合并_Python图像处理实现两幅图像合成一幅图像的方法【测试可用】
  9. TabLayout+ViewPager+Fragment中Fragment的可见和不可见问题
  10. 独家 | 以国家战略科学家身份,顶级AI学者朱松纯回国,筹建北京通用AI研究院...