qiime2-2019.1已经发布,程序稳定性越来越好,鉴于官方已经停止支持qiime1,有必要把qiime2的所有细节都理清,学好,这样才能对自己的数据进行实战分析,并将结果运用于实验和生产过程中。发现文档更新也相当快,感谢公众号宏基因组翻译的文档,让我在看许多专业术语方面扫清不少障碍,但是你介于翻译过来的命令却已经过时,还是对照着看最新版的,基本上很少改动,当然,专业英语好的除外。
发现需要学习的有几个内容,数据的过滤(嵌合体,非细菌序列,注释级别太少的等),还有就是训练一个适合自己的分类参考数据集,另外就是对于一个样本多个时间采样的结果的分析等,下面一个一个来学习。

1.数据的过滤

在分析过程中发现用自己的数据跑出来许多序列只能注释到细菌界,后面不能细分,像这种要过滤掉,刚好发现官方提供了相关的教程和命令,于是直接执行得到结果。教程里面是过滤后保留至少到门的结果,刚好是符合我的需要的,于是参数也不动了。

  #过滤没注释到门的序列qiime taxa filter-table \--i-table table.qza \--i-taxonomy taxonomy.qza \--p-include p__ \--o-filtered-table table-with-phyla.qza

2.训练一个适合自己的分类参考数据集

对于一般的科研项目,扩增使用的多是V3V4通用引物341F和806R,但是不少项目使用的是单独V4的引物515F和806R,而且,就是相同位置的引物,还有简并多少的区别,以及覆盖度的多少。因此,如果不是和官方同样的引物,就有必要训练一个适合项目的参考数据集。下面开始我的步骤:

1)下载并导入参考序列

#greengenes_13_8
wget -c ftp://greengenes.microbio.me/greengenes_release/gg_13_5/gg_13_8_otus.tar.gz
unzip gg_13_8_otus.tar.gz
#或者SILVA
wget -c https://www.arb-silva.de/fileadmin/silva_databases/qiime/Silva_132_release.zip
unzip Silva_132_release.zip #这个数据更新及时,我决定用它试试
#导入参考序列
qiime tools import \--type 'FeatureData[Sequence]' \--input-path ../SILVA_132_QIIME_release/rep_set/rep_set_16S_only/99/silva_132_99_16S.fna \--output-path silva_132_99_16S.qza<h1>导入物种分类信息</h1>qiime tools import \--type 'FeatureData[Taxonomy]' \--input-format HeaderlessTSVTaxonomyFormat \--input-path ../SILVA_132_QIIME_release/taxonomy/16S_only/99/taxonomy_7_levels.txt  \--output-path ref-taxonomy.qza
#提取参考序列,由于数据较大,这步耗时相当长。这里把截取长度设置为126bp,因为我
qiime feature-classifier extract-reads   --i-sequences silva_132_99_16S.qza   --p-f-primer GTGYCAGCMGCCGCGGTAA   --p-r-primer GGACTACNVGGGTWTCTAAT --p-trunc-len 126   --p-min-length 100   --p-max-length 400   --o-reads ref-seqs.qza
#训练Naive Bayes分类器
nohup time qiime feature-classifier fit-classifier-naive-bayes \--i-reference-reads ref-seqs.qza \--i-reference-taxonomy ref-taxonomy.qza \--o-classifier classifier.qza &```
过程相当耗时耗资源,但是对于一台一般的服务器来说不是问题,峰值内存使用在25G+。<h2>3.通过比对过滤非细菌序列</h2>
这个主要是过滤宿主基因,应该是宏基因组测序中用的较多。
```bash
qiime quality-control exclude-seqs \--i-query-sequences query-seqs.qza \--i-reference-sequences reference-seqs.qza \--p-method blast \--p-perc-identity 0.97 \--p-perc-query-aligned 0.97 \--o-sequence-hits hits.qza \--o-sequence-misses misses.qza
qiime feature-table filter-features \--i-table query-table.qza \--m-metadata-file hits.qza \--o-filtered-table no-hits-filtered-table.qza \--p-exclude-ids

将QIIME2学习进行到底相关推荐

  1. 知乎Live上线-学深度学习我们到底在学什么

    文章首发于微信公众号<有三AI> 知乎Live上线-学深度学习我们到底在学什么 文/编辑 | 言有三 很简单,今天就是预告一下我的知乎Live,将在3-30 12:00开讲,地址如下: h ...

  2. 学python要有多少英语词汇量_学习英语到底多少词汇量够用,1年能学习到1000的词汇量吗?...

    学习英语到底多少词汇量够用,1年能学习到1000的词汇量吗? 问:孩子4岁,英语词汇量只有1500左右,是不是不太够? 答:在美国肯定是够了,在海淀肯定是不够. 孩子4岁英语词汇量1500左右,还担心 ...

  3. 2021年SEO是否已死?学习SEO到底有没有前途?

    2021年SEO是否已死? 近些年经常有人说"SEO已死",甚至还有人说"百度已死",这不但是谣言,更是在胡扯,那么为什么会有人这么说呢?其实出现这种认知也不是 ...

  4. 适合零基础学习者的Java学习路线图到底长啥样?一篇文章带你学会Java

    很多小伙伴在转行互联网的时候,都担心自己不能坚持,不知道Java适不适合自己. 那最好的方式就是先不要着急直接转行,自己可以先去试着学习一些基础知识,看看对Java的学习难度能否适应以及自己是否真心喜 ...

  5. 初探强化学习(6)到底TMD什么是model-based和model-free(基于模型的强化学习和基于模型的强化学习 TMD的到底是什么)

    0 如何定义无模型和有模型 Model-based和Model-free方法对比 Model-based: 一旦model学好后,就是采用On-Policy的算法: 一旦model学好后,就不需要与真 ...

  6. 自学python还是报班-学习Python到底是培训还是自学合适呢?

    Python是人工智能领域中最常用的编程语言,Python应用前景非常不错,那么零基础可以学会Python吗?自学还是培训好?对于这些问题应该是很多人都关注的,接下来为大家具体分析一下. 从整体层面上 ...

  7. 学python可以做什么产品-学习Python到底有什么用?

    一般学Python可以往很多方便发展哦: 1,比如可以做web应用开发 在国内,豆瓣一开始就使用Python作为web开发基础语言,知乎的整个架构也是基于Python语言,这使得web开发这块在国内发 ...

  8. 人与计算机的未来_身边的很多人都在学习计算机,学习计算机到底能带来哪些好处...

    首先,当前随着互联网整合资源的能力越来越强,同时工业互联网正在成为传统行业企业发展新动能的大背景下,学习计算机(专业)会有大量的就业机会,而且由于互联网领域是创新.创业的热点领域,所以互联网领域往往会 ...

  9. 人工机器:深度学习CNN到底实现了什么

    智能的广义含义,即学习模式和举一反三,在几何空间里寻找代数路径.判别式模型和生成式模型,都是使用大量的数据输入输出来拟合出代数路径. 现在的归纳式和生成式深度学习离AI还很遥远,AI更需要深度强化学习 ...

最新文章

  1. C++ 常用函数方法
  2. 你还在用GDB调试程序吗?
  3. docker nodejs 基本应用
  4. mysql semi join_MySQL 通过semi join 优化子查询
  5. Openstack_通用模块_Oslo_vmware 创建 vCenter 虚拟机快照
  6. java 获取内存使用情况_Java内存使用情况查看工具
  7. 面试和学习必备--Java多线程
  8. 八十三、经典排序算法之堆排序
  9. mybatis中的#{value}和${value}的区别
  10. C# Socket编程笔记(转)
  11. 数据结构与算法--实现Singleton模式
  12. Python爬虫项目--批量下载联合国粮食数据
  13. 计算机等级考试四级有多少题,全国计算机等级考试四级试题(一)
  14. php 多态实现案例
  15. OSPF特殊区域的作用
  16. Env:ctags和Taglist安装与配置
  17. Atitit.ati  str  字符串增强api
  18. Half-space Hyperplane
  19. 手撸JDK之ReentrantLock锁那点事
  20. 【今日CV 计算机视觉论文速览 第122期】Fri, 31 May 2019

热门文章

  1. 国民技术(30077)十周年:不为外人知的数据
  2. php老掉牙的技术,老掉牙技术——HOOK 封包
  3. 海量存储检索原理系列文章(都是精华)
  4. cmd中无法mysql8_MySQL8.0.11安装后,使用CMD无法启动mysql服务
  5. 关于Scanner.nextLine()问题的解决方案
  6. 高中单招计算机专业面试稿,2020高中单招面试自我介绍范文
  7. C++中的unordered_map常见用法详解
  8. 企业网站友情链接有什么作用,毫无保留的给大家分析
  9. r75800h参数 r7 5800h怎么样
  10. autocad形源代码_在开放源代码库中使用AutoCAD文件格式