使用Kaiju无组装计算宏基因组数据物种注释相对丰度

2024-05-16 13:25:24

关于Kaiju

Kaiju是一款直接通过宏基因组数据Read获得物种注释信息并计算读数与相对丰度的软件。它的主要方法是将Read核酸序列翻译为蛋白序列然后在相应的数据库中进行精确比对，确认物种分类信息。

Kaiju 安装与数据库下载

Kaiju的安装可以参考其Github上给出的步骤。

由于Kaiju的运行需要参考数据库的比对，所以提前要下载好数据库，数据库可以通过kaiju-makedb命令下载。但是由于我这边不能直接用网关账号登录的服务器进行下载，所以是在组里对外服务器上下载的，可以去Kaiju web server下载，该页面左侧显示了下载链接，复制链接后使用wget命令就可以下载了。
我下载的数据库是：NCBI BLAST Nr库，下载下来后是tgz格式，用tar xzvf命令解压就可以了，解压后会得到3个文件：

names.dmp
nodes.dmp
kaiju_db_nr_euk.fmi

这三个文件需要在运行kaiju时指定，存好记下绝对路径就可以了。

Kaiju主程序

kaiju -z 64 -t ~/softwares/kaiju/kaijudb/nodes.dmp \
-f ~/softwares/kaiju/kaijudb/kaiju_db_nr_euk.fmi \
-i ~/hotspring/NGS/dedupe/1A_dedupe_R1.fq \
-j ~/hotspring/NGS/dedupe/1A_dedupe_R2.fq \
-o 1A.kaiju.out

-z参数调整线程数， -f对应刚才解压数据库得到的.fmi文件，然后-i -j分别是双端R1 R2序列文件，-o是输出文件。

输出结果用kaiju2table命令可以转化为容易处理的形式。

kaiju2table -t ~/softwares/kaiju/kaijudb/nodes.dmp \
-n ~/softwares/kaiju/kaijudb/names.dmp -u \
-o 1A.classification.summary.class.tsv -r class 1A.kaiju.out

-t -n分别指定刚才解压数据库得到的nodes.dmp和names.dmp，-u代表unclassified的序列不加入相对丰度计算，-o是输出文件，-r可以填写phylum, class, order, family, genus, species，分别表示显示在这六种分类层级下的分类结果。最后一个参数是主程序的输出文件。

输出结果示例

上图就是kaiju2table的结果在Excel中的部分展示，这个输出是phylum水平的，显示了相对丰度以及序列数。

使用Kaiju无组装计算宏基因组数据物种注释相对丰度相关推荐

Kraken2：宏基因组快速物种注释神器
简介 kraken是基于k-mer精确比对,并采用最LCA投票结果快速宏基因组DNA序列进行物种注释的软件. 图. Kraken2分类基本原理该文章于2014年发表于Genome Biology,目 ...
三天实现独立分析宏基因组数据(有参、无参和分箱等)
在广大粉丝的期待下,<生信宝典>联合<宏基因组>在2019年11月1-3日,北京鼓楼推出<宏基因组分析>专题培训第六期,为大家提供一条走进生信大门的捷径.为同行提供 ...
如何判断基因组的重复区域_利用宏基因组数据组装巨病毒基因组的优势与限制...
科学实验往往来自人们的奇思妙想,今天给大家分享一个有趣的研究,作者将已知巨病毒颗粒掺入到废水样品中,再尝试通过宏基因组从数据中恢复巨病毒基因组,从而判断此方式对于巨病毒研究的可靠性和有效性.测试结果到 ...
iMeta | 华中科大宁康组综述宏基因组数据用于蛋白质三维结构预测的方法论
点击蓝字关注我们 Review:用于蛋白质结构预测的宏基因组定量分析 https://doi.org/10.1002/imt2.9 2022/3/6 ● 2022年3月6日,华中科大宁康组在iMet ...
宏基因组数据提交GSA指南
GSA简介 GSA是Genome Sequence Archive的缩写,即基因组序列存档,由中科院基因组所主办. 网址:http://gsa.big.ac.cn/ 之前介绍过NCBI提交测序数据,- ...
宏基因组数据提交GSA实操手册—发表文章前必备技能
文章目录 GSA简介开始前准备:注册/登陆新建BioProject 数据上传批量提交样本信息 01 提交者信息 02 基本信息 03 样本类型 04 样本属性 05 元数据信息实验样品信息测 ...
Bioinformatics BIB｜港城大孙燕妮组用于识别和分析宏基因组数据中噬菌体序列的网站...
PhaBOX: 用于识别和分析宏基因组数据中噬菌体序列的网站 PhaBOX: a server for identifying and characterizing phage contigs in ...
从metaWRAP quant_bins计算模块理解宏基因组分箱bin的丰度计算
背景在进行扩增子分析时,我们拿到的最关键的一个中间数据就是OTU/ASV表,在这个矩阵中,我们能获得我们的分析对象(OTU/ASV)在样本间的分布规律,并通过微生物群落的结构在样本之间的差异来解决一 ...
宏基因组序列物种分类之kraken 1/2和Bracken的使用
细菌基因组测序完,想看看样本有没有被其他的菌污染? 人的转录组测序完,想快速看看人.微生物的序列的比例? 元/宏基因组测序完,想快速获得样本中物种的丰度信息? REFERENCE Wood DE, S ...

最新文章

热门文章