KEGG数据库,即京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes),是系统分析基因功能、基因组信息的数据库。

KofamKOALA是一个方便的KEGG功能注释工具,由创建KEGG的京都大学化研所生物信息中心学者在2019年11月发表于Bioinformatics。

以隐马尔科夫模型(HMM)创建的KOfam来进行蛋白序列同源搜索,其准确性可与性能最佳的工具相媲美, 有网页和Linux两个版本,本文重点介绍Linux版的安装与使用。

网页版

网址 https://www.genome.jp/tools/kofamkoala/

avatar

网页填入蛋白序列信息,设值E值和留下邮箱点击Compute,只需要等待邮箱回复

Linux版

Linux版本的KofamKOALA 需要下载 KOfam(数据库)和 KofamScan(软件),软件依赖Ruby,HMMER和GNU Parallel(事先没有安装可以看以下教程)

安装

我们以kofamscan安装在主目录$HOME(或者叫~)下为例介绍:

step1

下载和解压 KOfam 和 KofamScan

mkdir -p ~/kofamscan/dbcd ~/kofamscan/dbwget ftp://ftp.genome.jp/pub/db/kofam/ko_list.gz wget ftp://ftp.genome.jp/pub/db/kofam/profiles.tar.gz gunzip ko_list.gz tar xvzf profiles.tar.gz mkdir -p ~/kofamscan/bincd ~/kofamscan/binwget ftp://ftp.genome.jp/pub/tools/kofamscan/kofamscan-1.2.0.tar.gz # 注意kofamscan版本tar xvzf kofamscan-1.2.0.tar.gz

step2

下载 Ruby  HMMER  GNU Parallel

cd ~/kofamscan mkdir ruby hmmer parallel src cd src# Ruby版本应不小于2.4,这里演示的是2.7版;HMMER应大于3.1,这里是3.3;Parallel为最新版wget https://cache.ruby-lang.org/pub/ruby/2.7/ruby-2.7.0.tar.gzwget http://eddylab.org/software/hmmer/hmmer-3.3.tar.gzwget ftp://ftp.gnu.org/gnu/parallel/parallel-latest.tar.bz2

安装 Ruby

cd ~/kofamscan/src tar xvzf ruby-2.7.0.tar.gz cd ruby-2.7.0./configure --prefix=$HOME/kofamscan/ruby make make install

安装 HMMER

cd ~/kofamscan/src tar xvzf hmmer-3.3.tar.gz cd hmmer-3.3./configure --prefix=$HOME/kofamscan/hmmer make make install

安装 GNU Parallel

cd ~/kofamscan/src tar xvjf parallel-latest.tar.bz2 cd parallel-20190322  # 这里根据版本而定./configure --prefix=$HOME/kofamscan/parallel make make install

将Ruby路径加入环境变量(之后执行如果报错可能是ruby的问题,推荐ruby按照本文方法安装)

export PATH=$HOME/kofamscan/ruby/bin:$PATH

step3

复制config-template.yml文件并重命名为config.yml

cd ~/kofamscan/bin/ cp config-template.yml config.yml

cat config.yml文件,内容如下:

我们需要在config.yml添加键值,以便ruby识别读取.

可以vim编辑加入以下内容到config.yml,注意绝对路径.

profile: /path/to/home/kofamscan/db/profiles ko_list: /path/to/home/kofamscan/db/ko_list hmmsearch: /path/to/home/kofamscan/hmmer/bin/hmmsearch parallel: /path/to/home/kofamscan/parallel/bin/parallel

如:

若hummsearch和parallel可安装在其他地方改为相关路径

使用

现在可以使用了,我们准备蛋白序列fasta文件(注意必须是蛋白序列,不支持核酸序列)

./exec_annotation -o result.txt query.fasta

如我在~/kofamscan/test/文件夹下有samples.fasta文件,定义输出文件为res.txt

cd ~/kofamscan/bin/kofamscan-1.2.0 # 路径中有exec_annotation文件./exec_annotation -o ~/kofamscan/test/res.txt~/kofamscan/test/samples.fasta

运行完毕后的输出文件:

若报错可能是ruby的路径不在首选环境变量,可执行:

export PATH=$HOME/kofamscan/ruby/bin:$PATH

./exec_annotation -h查看全部参数:

## Options
- `-o FILE`- The result are output to `FILE`. It defaults to `stdout`.
- `-p`, `--profile=PROFILE`- Use `PROFILE` as a profile database. See [Profiles](#profiles)
- `-k`, `--ko-list=FILE`- Use `FILE` as a KO list.
- `--cpu=N`- Set the number of `hmmsearch` processes started simultaneously to `N`. It defaults to 1 unless it is set in `config.yml`.
- `-c FILE`- Use `FILE` as a config file instead of `config.yml` in the same directory as `exec_annotation`.
- `--tmp-dir=DIR`- Use `DIR` as a temporary directory where hmmsearch results are. It will be created if not exist. It defaults to `./tmp`.
- `-E`, `--e-value=VALUE`- Require E-value to be smaller than or equal to `VALUE`. If not, an asterisk will not be added in `detail` format or the hit will not be reported in other formats.
- `-T`, `--threshold-scale=VALUE`- The score thresholds are multiplied by `VALUE`. For example, with `-T2` option, the thresholds become twice as strict.
- `-f`, `--format=FORMAT`- Set the format of the output to `FORMAT`. Three formats below are available.- `detail`- Default format. Gene name, assigned K number, threshold of the KO, hmmsearch score and E-value, and the definition of KO are shown. In addition, an asterisk '*' is added to the head of the line if the score is higher than the threshold.- `mapper`- Format which can be used for [KEGG Mapper](https://www.genome.jp/kegg/mapper.html) input. It includes a gene name and an assigned K number separated by a tab. Here, an assigned K number represents a hit with score above the predefined threshold. Note that for some KOs, predefined score thresholds are not available when they are represented by a very few number of sequences in KEGG GENES.- `mapper-oneline`- Similar to `mapper`, but when more than one KO are assigned to a gene, all assigned KO are shown in one line separated by tabs.
- `--[no-]report-unannotated`- With `--report-unannotated` option, gene names are shown even when no KO is assigned (default when `--format=mapper(-oneline)`). With `--no-report-unannotated` such genes are not shown at all (default when `--format=detail`).
- `--create-alignment`- `hmmsearch`'s normal outputs per profile are stored in the temporary directory. In addition, domain information and alignments in the outputs will be rearranged per query.- Not compatible with `--reannotation`
- `-r`, `--reannotation`- Skip `hmmsearch` and assume that `hmmsearch` outputs are already in the temporary directory. This will help you to make an output in a different format or redo annotation changing thresholds.- Not compatible with `--create-alignment`
- `-h`, `--help`- Show brief help message.

参考 :

https://www.genome.jp/tools/kofamkoala/

https://academic.oup.com/bioinformatics/advance-article/doi/10.1093/bioinformatics/btz859/5631907

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文

KEGG功能注释工具 KofamKOALA 安装与使用相关推荐

  1. linux下kegg注释软件,KEGG功能注释工具 KofamKOALA 安装与使用

    KEGG数据库,即京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes),是系统分析基因功能.基因组信息的数据库. KofamKOALA是一个方便的 ...

  2. R绘图-KEGG功能注释组间差异分面条形图

    一. 数据准备 KEGG功能注释的差异分析结果绘图.使用的是经过Pairwise Mann–Whitney U-tests检验的处理间class II功能丰度差异结果数据,包含class I作为分面信 ...

  3. 同源注释工具GeneWise安装和使用

    这是一个非常老的软件,距离他不更新至少有10多年了,但是目前还是有很多公司用他进行基因组注释,包括ENSEMBL的注释流程的几个核心部分用到的也是它. 但是他的安装也是异常的麻烦,好在Homebrew ...

  4. VEP 注释工具 Ubuntu 安装

    屡次尝试后的vep高效安装方式如下: Note VEP官网:https://asia.ensembl.org/info/genome/variation/index.html curl -L -O h ...

  5. 宏基因组定量、功能注释和高级分析代码

    今天是第1283期日报. Nature子刊:Salmon不比对快速定量宏基因组基因 Nature Methods[IF:28.467] ① Salmon是一种准确快速定量转录本丰度的方法:② 它是第一 ...

  6. go kegg_GO 和 KEGG 的区别 | GO KEGG数据库用法 | 基因集功能注释 | 代谢通路富集

    一直都搞不清楚这两者的具体区别. 其实初学者搞不清楚很正常,因为它们的本质是相通的,都是对基因进行归类注释的数据库. 建议初学者自己使用一下这两个数据库,应该很快就能明白其中的区别. (抱歉之前没讲清 ...

  7. cplex安装_Excel软件规划求解工具的安装与功能介绍

    引言 规划求解工具是Excel软件中自带的一个功能非常强大的加载项/工具.它能够完成包括线性规划.整数线性规划等一般规模的数学优化问题的问题求解.更重要的是,无论是在Windows操作系统下,还是苹果 ...

  8. icepdf java_icepdf 一款功能强大的PDF阅读、打印、注释工具,java实现,跨平台。 Develop 238万源代码下载- www.pudn.com...

    文件名称: icepdf下载 收藏√  [ 5  4  3  2  1 ] 开发工具: Java 文件大小: 5553 KB 上传时间: 2013-10-10 下载次数: 1 详细说明:一款功能强大的 ...

  9. 代码注释工具cloc的安装和使用

    最近公司项目开始统计代码注释率,毕竟完全可读的代码是不存在的,提高代码可读性最好的方式还是多写注释,这样也可以帮助后来接手的同事更快的熟悉业务逻辑. 目前项目中的注释统计工具是cloc,戳这里可以直接 ...

最新文章

  1. echart折线图小知识
  2. 论文笔记之:RATM: RECURRENT ATTENTIVE TRACKING MODEL
  3. BJUI实现点击按钮弹窗,提交到后台action后回显数据流程整理
  4. 【随笔】从飞桨入门深度学习
  5. mysql 操作指令详解_Mysql常用命令详解
  6. 2014_guangzhou_onsite
  7. 英特尔AMD竞相为笔记本处理器添加图形功能
  8. std中稳定排序算法_排序算法问题:稳定排序与不稳定排序
  9. Eclipse中@author的修改
  10. 循环矩阵的快速幂(bzoj 2510: 弱题)
  11. android中LayoutInflater详解与使用
  12. javascript Date日期类
  13. 什么是弱网测试?为什么要进行弱网测试?怎么进行弱网测试?
  14. 从概念到应用,腾讯视角深入“解剖”AI平台和语音技术
  15. Linux 启动管理(详细版)
  16. hive函数中的operators, UDF, UDAF, UDTF, PTF
  17. Android Studio修改工程项目名称以及修改包名
  18. OpenGL三维图形编程技术(转)
  19. matlab晶体能带,matlab平面波展开法的二维光子晶体能带研究+程序
  20. 【labview】限幅子vi +源程序

热门文章

  1. 优秀领导者,离不开这6个品质
  2. 如何高效的管理团队?提高组织能力是关键!
  3. java线程的状态及状态间的切换
  4. Leangoo卡片和列表完成状态上线
  5. 一个有效的OKR是什么样?
  6. 无法访问您试图使用的功能所在的网络位置
  7. php 公共的 受保护的,php-不使用$this-gt;调用受保护的属性
  8. 数组-合并两个有序数组(双指针,从后往前)
  9. 17DOM之操作元素
  10. python中print又可将数据写入文件_Python 通过print_lol将数据保存到文件中