将QIIME2学习进行到底
qiime2-2019.1已经发布,程序稳定性越来越好,鉴于官方已经停止支持qiime1,有必要把qiime2的所有细节都理清,学好,这样才能对自己的数据进行实战分析,并将结果运用于实验和生产过程中。发现文档更新也相当快,感谢公众号宏基因组翻译的文档,让我在看许多专业术语方面扫清不少障碍,但是你介于翻译过来的命令却已经过时,还是对照着看最新版的,基本上很少改动,当然,专业英语好的除外。
发现需要学习的有几个内容,数据的过滤(嵌合体,非细菌序列,注释级别太少的等),还有就是训练一个适合自己的分类参考数据集,另外就是对于一个样本多个时间采样的结果的分析等,下面一个一个来学习。
1.数据的过滤
在分析过程中发现用自己的数据跑出来许多序列只能注释到细菌界,后面不能细分,像这种要过滤掉,刚好发现官方提供了相关的教程和命令,于是直接执行得到结果。教程里面是过滤后保留至少到门的结果,刚好是符合我的需要的,于是参数也不动了。
#过滤没注释到门的序列qiime taxa filter-table \--i-table table.qza \--i-taxonomy taxonomy.qza \--p-include p__ \--o-filtered-table table-with-phyla.qza
2.训练一个适合自己的分类参考数据集
对于一般的科研项目,扩增使用的多是V3V4通用引物341F和806R,但是不少项目使用的是单独V4的引物515F和806R,而且,就是相同位置的引物,还有简并多少的区别,以及覆盖度的多少。因此,如果不是和官方同样的引物,就有必要训练一个适合项目的参考数据集。下面开始我的步骤:
1)下载并导入参考序列
#greengenes_13_8
wget -c ftp://greengenes.microbio.me/greengenes_release/gg_13_5/gg_13_8_otus.tar.gz
unzip gg_13_8_otus.tar.gz
#或者SILVA
wget -c https://www.arb-silva.de/fileadmin/silva_databases/qiime/Silva_132_release.zip
unzip Silva_132_release.zip #这个数据更新及时,我决定用它试试
#导入参考序列
qiime tools import \--type 'FeatureData[Sequence]' \--input-path ../SILVA_132_QIIME_release/rep_set/rep_set_16S_only/99/silva_132_99_16S.fna \--output-path silva_132_99_16S.qza<h1>导入物种分类信息</h1>qiime tools import \--type 'FeatureData[Taxonomy]' \--input-format HeaderlessTSVTaxonomyFormat \--input-path ../SILVA_132_QIIME_release/taxonomy/16S_only/99/taxonomy_7_levels.txt \--output-path ref-taxonomy.qza
#提取参考序列,由于数据较大,这步耗时相当长。这里把截取长度设置为126bp,因为我
qiime feature-classifier extract-reads --i-sequences silva_132_99_16S.qza --p-f-primer GTGYCAGCMGCCGCGGTAA --p-r-primer GGACTACNVGGGTWTCTAAT --p-trunc-len 126 --p-min-length 100 --p-max-length 400 --o-reads ref-seqs.qza
#训练Naive Bayes分类器
nohup time qiime feature-classifier fit-classifier-naive-bayes \--i-reference-reads ref-seqs.qza \--i-reference-taxonomy ref-taxonomy.qza \--o-classifier classifier.qza &```
过程相当耗时耗资源,但是对于一台一般的服务器来说不是问题,峰值内存使用在25G+。<h2>3.通过比对过滤非细菌序列</h2>
这个主要是过滤宿主基因,应该是宏基因组测序中用的较多。
```bash
qiime quality-control exclude-seqs \--i-query-sequences query-seqs.qza \--i-reference-sequences reference-seqs.qza \--p-method blast \--p-perc-identity 0.97 \--p-perc-query-aligned 0.97 \--o-sequence-hits hits.qza \--o-sequence-misses misses.qza
qiime feature-table filter-features \--i-table query-table.qza \--m-metadata-file hits.qza \--o-filtered-table no-hits-filtered-table.qza \--p-exclude-ids
将QIIME2学习进行到底相关推荐
- 知乎Live上线-学深度学习我们到底在学什么
文章首发于微信公众号<有三AI> 知乎Live上线-学深度学习我们到底在学什么 文/编辑 | 言有三 很简单,今天就是预告一下我的知乎Live,将在3-30 12:00开讲,地址如下: h ...
- 学python要有多少英语词汇量_学习英语到底多少词汇量够用,1年能学习到1000的词汇量吗?...
学习英语到底多少词汇量够用,1年能学习到1000的词汇量吗? 问:孩子4岁,英语词汇量只有1500左右,是不是不太够? 答:在美国肯定是够了,在海淀肯定是不够. 孩子4岁英语词汇量1500左右,还担心 ...
- 2021年SEO是否已死?学习SEO到底有没有前途?
2021年SEO是否已死? 近些年经常有人说"SEO已死",甚至还有人说"百度已死",这不但是谣言,更是在胡扯,那么为什么会有人这么说呢?其实出现这种认知也不是 ...
- 适合零基础学习者的Java学习路线图到底长啥样?一篇文章带你学会Java
很多小伙伴在转行互联网的时候,都担心自己不能坚持,不知道Java适不适合自己. 那最好的方式就是先不要着急直接转行,自己可以先去试着学习一些基础知识,看看对Java的学习难度能否适应以及自己是否真心喜 ...
- 初探强化学习(6)到底TMD什么是model-based和model-free(基于模型的强化学习和基于模型的强化学习 TMD的到底是什么)
0 如何定义无模型和有模型 Model-based和Model-free方法对比 Model-based: 一旦model学好后,就是采用On-Policy的算法: 一旦model学好后,就不需要与真 ...
- 自学python还是报班-学习Python到底是培训还是自学合适呢?
Python是人工智能领域中最常用的编程语言,Python应用前景非常不错,那么零基础可以学会Python吗?自学还是培训好?对于这些问题应该是很多人都关注的,接下来为大家具体分析一下. 从整体层面上 ...
- 学python可以做什么产品-学习Python到底有什么用?
一般学Python可以往很多方便发展哦: 1,比如可以做web应用开发 在国内,豆瓣一开始就使用Python作为web开发基础语言,知乎的整个架构也是基于Python语言,这使得web开发这块在国内发 ...
- 人与计算机的未来_身边的很多人都在学习计算机,学习计算机到底能带来哪些好处...
首先,当前随着互联网整合资源的能力越来越强,同时工业互联网正在成为传统行业企业发展新动能的大背景下,学习计算机(专业)会有大量的就业机会,而且由于互联网领域是创新.创业的热点领域,所以互联网领域往往会 ...
- 人工机器:深度学习CNN到底实现了什么
智能的广义含义,即学习模式和举一反三,在几何空间里寻找代数路径.判别式模型和生成式模型,都是使用大量的数据输入输出来拟合出代数路径. 现在的归纳式和生成式深度学习离AI还很遥远,AI更需要深度强化学习 ...
最新文章
- C++ 常用函数方法
- 你还在用GDB调试程序吗?
- docker nodejs 基本应用
- mysql semi join_MySQL 通过semi join 优化子查询
- Openstack_通用模块_Oslo_vmware 创建 vCenter 虚拟机快照
- java 获取内存使用情况_Java内存使用情况查看工具
- 面试和学习必备--Java多线程
- 八十三、经典排序算法之堆排序
- mybatis中的#{value}和${value}的区别
- C# Socket编程笔记(转)
- 数据结构与算法--实现Singleton模式
- Python爬虫项目--批量下载联合国粮食数据
- 计算机等级考试四级有多少题,全国计算机等级考试四级试题(一)
- php 多态实现案例
- OSPF特殊区域的作用
- Env:ctags和Taglist安装与配置
- Atitit.ati str 字符串增强api
- Half-space Hyperplane
- 手撸JDK之ReentrantLock锁那点事
- 【今日CV 计算机视觉论文速览 第122期】Fri, 31 May 2019
热门文章
- 国民技术(30077)十周年:不为外人知的数据
- php老掉牙的技术,老掉牙技术——HOOK 封包
- 海量存储检索原理系列文章(都是精华)
- cmd中无法mysql8_MySQL8.0.11安装后,使用CMD无法启动mysql服务
- 关于Scanner.nextLine()问题的解决方案
- 高中单招计算机专业面试稿,2020高中单招面试自我介绍范文
- C++中的unordered_map常见用法详解
- 企业网站友情链接有什么作用,毫无保留的给大家分析
- r75800h参数 r7 5800h怎么样
- autocad形源代码_在开放源代码库中使用AutoCAD文件格式