本文主要介绍了使用生物信息软件QIIME2中的DADA2与Deblur插件对扩增子基因序列进行质量控制。

本教程将使用来自人源化(humanized)小鼠的一组粪便样品,展示16S rRNA基因扩增子数据的“典型”QIIME 2分析。本教程旨在探讨人源化小鼠的遗传背景影响微生物群落的假设。然而,我们还需要考虑其他可能驱动微生物结构而不是小鼠基因型的混杂因素。

序列质量控制和特征表 Sequence quality control and feature table

QIIME 2插件多种质量控制并生成特征表的方式主要有两种,一种是通过去噪,即生成扩增/绝对序列变体(Absolute Sequence Variants,ASV),ASV是最近发展的新一代方法,在功能上提供更好的分辨率。ASV可以基于400bp或更多序列中单个核苷酸的差异来分离特征,甚至超过99%同一性OTU聚类的分辨率。目前在QIIME 2 中可通过DADA2(q2-dada2)和Deblur(q2-deblur)插件实现。第二种是通过聚类生成操作分类单元(Operational Taxonomic Units,OTU),这种方法自2010年以来便得到了广泛应用。QIIME 2目前可通过q2-vsearch插件实现。两种方法不推荐组合使用。本教程将着重介绍DADA2和Deblur两种方法。

OTU(Operational Taxonomic Units):是通过一定距离计算两两不同序列之间的距离度量和相似性,设置特定的阈值,获得同一阈值下的距离矩阵,进行聚类操作,形成不同的分类单元。

方法一:DADA2

二代测序的错误是随机发生的(即,任意两条序列的测序错误相对是随机发生的,一条序列的任意两个位置的测序错误也是随机发生的,不存在关联性)。DADA2质量控制过程将过滤掉在测序数据中鉴定的任何phiX序列(最主要的目的:1、调节碱基平衡,改善测序仪的空间校正,便于后期提高base calling的准确性;2、由于Phix序列已知基因组较小,在测序的过程中Illumina的测序仪就开始将测的read与phix基因组进行比较,预估测序指标。)通常存在于标记基因Illumina测序数据中,用于提高扩增子测序质量,并同时过滤嵌合序列(即嵌合基因,就是两个基因共用一段DNA序列,这两个基因称为嵌合基因)。在DADA2中,双端合并,去除嵌合体,截去接头序列降噪生成feature table都是一步完成的。所以,运行DADA2之前要确保测序数据满足以下规范:

(1)样品已被拆分好,即每个样品一个fq/fastq文件(或者双端成对fq文件);

(2)已经去除非生物核酸序列,比如:引物(primers),接头(adapters or barcodes),linker等;

(3)如果样品是下机的双端测序,其应具有双端测序的相匹配的两个fq文件。

使用DADA2插件进行质量控制:

time qiime dada2 denoise-single
--i-demultiplexed-seqs demux_seqs.qza
--p-trunc-len 150
--o-table dada2_table.qza
--o-representative-sequences dada2_rep_set.qza
--o-denoising-stats dada2_stats.qza

参数解读

--p-trim-left:截取左端低质量序列。用于切除低质量序列、barocde或引物。

--p-trunc-len:序列截取长度,也是为了切除有段低质量序列。一般从序列质量开始大幅度下降的位置开始切除。

命令注释:
(1)在使用qiime dada2 denoise-single/ qiime dada2 denoise-paired时可设置--p-n-threads 参数,用于设置运行时使用的线程数量。线程越多,则运行速度越快。当线程设置为0时则默认使用全部线程;
(2)--p-trim-left截取左端低质量序列,有时用于切除低质量序列、barocde或引物。查看demux_seq.qzv文件中的箱线图,左端质量都很高,无低质量区,设置为0;或可直接忽略此参数设置;
(3)--p-trunc-len序列截取长度,也是为了去除右端低质量序列,我们看到大于150以后,质量下降极大,甚至中位数都下降至20以下,需要全部去除,综合考虑决定设置为150;
(4)当处理双端数据时,需考虑截取后的序列是否可以成功拼接。目前最短的拼接长度为引物长度+12bp。

生成统计结果:

qiime metadata tabulate
--m-input-file dada2_stats.qza
--o-visualization dada2_stats.qzv

内容为每个样本的输入、过滤、去噪和非嵌合体的统计结果。展示了样本的质量控制结果,用于样本异常筛选和特征表抽平标准化。

生成特征表摘要:

qiime feature-table summarize
--i-table dada2_table.qza
--o-visualization dada2_table.qzv
--m-sample-metadata-file metadata.tsv

上图为特征表摘要,展示了样本数、特征数和分布等信息。

上图展示了每个样本中的特征数目。

上图为特征信息,分别为特征名称、出现频率和共出现在多少个样本中。

生成代表序列摘要:

qiime feature-table tabulate-seqs
--i-data dada2_rep_set qza
--o-visualization dada2_rep_set.qzv

上图为代表序列统计信息。有长度摘要、不同百分比下的长度统计和具体代表序列碱基信息。

方法二:Deblur

PCR和测序过程中的噪音限制了区分更相近的物种。一些特殊的生态应用与科学研究需要更精确的物种区分。因此,提出了Deblur去噪的方法。Deblur方法提出了sub-operational-taxonomic-unit (sOTU) 提出更精确的分类亚OTU的概念,此概念与ASV意义相同,只是名字不同。

Deblur具有以下特点:

(1)使用误差分布来获得假定的无误差序列;

(2)减少了计算的需求,得到了更高的特异性和敏感性;

(3)只受扩增序列读长和多样性的限制;

(4)可以在单个样本水平上使用。

按测序碱基质量过滤序列

time qiime quality-filter q-score
--i-demux demux_seqs.qza
--o-filtered-sequences demux-filtered.qza
--o-filter-stats demux-filter-stats.qza

输出结果文件:

demux-filtered.qza: 序列质量过滤后结果;

demux-filter-stats.qza: 序列质量过滤后结果统计。

deblur去噪16S过程,输入文件为质控后的序列,设置截取长度参数,生成结果文件有代表序列、特征表、样本统计:

time qiime deblur denoise-16S
--i-demultiplexed-seqs demux-filtered.qza
--p-trim-length 150
--o-representative-sequences rep-seqs-deblur.qza
--o-table deblur-table.qza
--p-sample-stats
--o-stats deblur-stats.qza

可视化输出文件:

time qiime metadata tabulate
--m-input-file demux-filter-stats.qza
--o-visualization demux-filter-stats.qzvtime qiime deblur visualize-stats
--i-deblur-stats deblur-stats.qza
--o-visualization deblur-stats.qzvtime qiime feature-table tabulate-seqs
--i-data rep-seqs-deblur qza
--o-visualization rep-seqs-deblur.qzvtime qiime feature-table summarize
--i-table deblur-table.qza
--o-visualization deblur-table.qzv
--m-sample-metadata-file metadata.tsv

如果使用deblur-16S,deblur执行初始的正向过滤步骤,其中它丢弃与85% GreenGenes 数据库中OTU的序列小于60%相似性的任何序列。如果不想执行此步骤,请使用deblur-other方法。

deblur目前只能对单端序列进行去噪。如果提供末合并的双端序列为输入,将对反向序列不作任何操作。请注意,deblur接受合并的序列,并将它们视为单端序列,因此如果使用deblur进行去噪,需要先合并读取。

本文提供所有输出结果文件,百度网盘下载链接:

https://pan.baidu.com/s/1uj-QSjzxS3mRrgj_vWFaAw

提取码:1234

这篇推文对你有帮助吗?喜欢这篇文章吗?喜欢就不要错过呀,关注本知乎号查看更多的环境微生物生信分析相关文章。亦可以用微信扫描下方二维码关注“环微分析”微信公众号,小编在里面载入了更加完善的学习资料供广大生信分析研究者爱好者参考学习,也希望读者们发现错误后予以指出,小编愿与诸君共同进步!!!

学习环境微生物分析,关注“环微分析”公众号,持续更新,开源免费,敬请关注!

转载自原创文章:

QIIME2进阶三_用QIIME2实现对数据的质量控制​

最后,再次感谢你阅读本篇文章,真心希望对你有所帮助。感谢!

QIIME2进阶三_用QIIME2实现对数据的质量控制相关推荐

  1. QIIME2进阶一_用QIIME2解析序列,诠释生命

    本文旨在介绍生物信息学软件QIIME2及其核心组成. 2010年,美国科罗拉多大学的Rob Knight教授(现单位美国加州大学圣地亚哥分校)团队发布QIIME(发音同chime)分析流程.该流程可在 ...

  2. QIIME2进阶二_元数据及数据导入QIIME2

    本节主要讲解如何将元数据与数据导入生物信息分析软件QIIME2,实现数据导入与检查. 本实战教程将使用来自人源化(humanized)小鼠的一组粪便样品,展示16S rRNA基因扩增子数据的" ...

  3. QIIME2进阶五_QIIME2扩增子基因序列多样性分析

    本节主要介绍了如何使用生物信息分析分析软件QIIME2对扩增子基因序列进行Alpha和Beta多样性分析,以及Alpha稀疏和深度选择. 本教程将使用来自人源化(humanized)小鼠的一组粪便样品 ...

  4. QIIME2进阶六_QIIME2训练分类器及物种注释

    本文我们主要介绍了如何训练Naive Bayes分类器并把这个分类器应用于扩增子基因序列的物种注释与可视化. 本教程将使用来自人源化(humanized)小鼠的一组粪便样品,展示16S rRNA基因扩 ...

  5. JavaScript进阶(三)

    JavaScript进阶(三) 2019版黑马程序员javaScript进阶面向对象ES6 122集教程,哔哩哔哩链接:https://www.bilibili.com/video/BV1Kt411w ...

  6. 用计算机计算线性卷积的基本规则,实验三_线性卷积与圆周卷积的计算.doc

    实验三_线性卷积与圆周卷积的计算 电信类课程试验报告 学 院:基础信息工程系 别:电子信息工程课程名称:数字信号处理姓 名:学 号:日 期:实验三实验名称:线性卷积与圆周卷积的计算一.实验目的 (1) ...

  7. 查询计算机系学生的详细记录,实验三_数据库的简单查询和连接_.doc

    实验三_数据库的简单查询和连接_ 实验三 数据库的简单查询和连接查询 实验目的及要求 掌握SELECT语句的基本语法: 熟练掌握表的数据简单查询.数据排序: 熟练掌握表的连接查询的表示: 掌握等值连接 ...

  8. 学习PS课堂重点笔记(4.色彩调整和选区进阶二,5.选区进阶三)

    4.1色彩调整基础 一.明暗和色彩调整是相互联系的必须作为一个整体来看待. 二.重要的色彩调整命令 图像菜单>>调整, 按菜单顺序: 1.自然饱和度 2.色相/饱和度 3.色彩平衡 4.黑 ...

  9. 3.0 Jmeter应用进阶三--利用Jmeter进行web性能测试(一)

    3.0 Jmeter应用进阶三--利用Jmeter进行web性能测试 1. Jmeter 使用Http代理录制脚本 或者自己写取样器(例如Http请求)(一) 2. Jmeter优化脚本(二) 3.  ...

最新文章

  1. linux valgrind 安装和使用
  2. python decode unicode encode
  3. java的乐趣_分享java带来的快乐
  4. 博弈论 —— matlab
  5. mysql数据库 集群_mysql数据库集群
  6. 拼多多首届“非遗购物节”开幕 十一省市“非遗馆”入驻
  7. 计算机考试用户注册,全国计算机等级考试报名系统账号注册和登录
  8. Java的第一个你好世界
  9. Lonlife-ACM Round #7
  10. 微信小程序:关注公众号组件自定义样式
  11. 微信企业号服务器搭建,微信企业号开发之如何建立连接
  12. 安卓中的布局优化之clude、merge、ViewStub
  13. Python程序设计(第三版)约翰·策勒 编程练习课后答案(第二章)
  14. 可以看游资的app_新游资APP:高评分App是如何养成的?
  15. 饱和气压与温度的关系_饱和水蒸汽的压力与温度的关系介绍
  16. 无线连接世界 创新驱动中国 《微波射频技术》杂志发布
  17. js 防抖是什么 JavaScript防抖怎么用
  18. 解决Android 模拟机开机黑屏问题、npm内存溢出问题
  19. 深入学习React函数组件性能优化三剑客useMemo、useCallback、memo
  20. 连续时间系统的时域分析

热门文章

  1. 基于多目标粒子群算法的微电网优化调度【风、光、储能、柴油机、电网交互燃汽轮机】(Matlab代码实现)
  2. 玩转项目变更之变更申请
  3. WSingle主题 – 支持多本的WordPress小说主题,美观大方,功能强大
  4. CS模式与BS模式的比较分析
  5. 线性判别用于提取词向量_你是合格的数据科学家吗?30道题测试你的NLP水平
  6. jquery表单验证学习心得
  7. SAP 物料主数据BP主数据同步第三方系统
  8. 基于java的迷宫游戏
  9. 物联网操作系统HelloX已成功移植到MinnowBoard MAX开发板上
  10. 快递查询软件,批量查询快递单号、最后更新物流