官网地址:

http://www.ebi.ac.uk/interpro/download.html

github使用手册地址:

https://github.com/ebi-pf-team/interproscan/wiki

1.下载、解压、安装

下载链接:

nohup wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.28-67.0/interproscan-5.28-67.0-64-bit.tar.gz &

因为压缩包有11G左右,所以最好还是用nohup后台下载,以防网络因素导致下了一半得重新下的情况。

解压:

tar -pxvzf interproscan-5.28-67.0-*-bit.tar.gz

这里参数p是 :

p = preserve the file permissions
#即保存文件权限

安装Panther模块

panter库需要单独安装。

下载&解压

cd [InterProScan5 home]/data/
nohup wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/data/panther-data-12.0.tar.gz &
tar -pxvzf panther-data-12.0.tar.gz
The pre-calculated match lookup网页服务器能够提供超过3千万蛋白序列的比对,包括所有的UniProtKB蛋白序列.
InterProScan 5使用这个服务器能够加速本地服务器的速度。
这是这个版本的特点,要想使用这个服务器的话,需要电脑能上网:http://www.ebi.ac.uk to use it.如果你的电脑防火墙阻止访问这个网站,你课以下载本地化的InterProScan 5 lookup service(https://code.google.com/p/interproscan/wiki/LocalLookupService)
或者关掉这个功能关掉这个功能的时候,你可以在命令行加入-dp 或者修改interproscan.properties
在前面加一个#注释掉即可precalculated.match.lookup.service.url=http://www.ebi.ac.uk/interpro/match-lookup

最基本使用模式:

./interproscan.sh -i /path/to/sequences.fasta –o /san/ –goterms –iprlookup –pa -f xml

也可使用示例来测试:

./interproscan.sh -i test_proteins.fasta -f tsv

参数信息:

-appl / --applications application_name (optional)

By default, all available analyses are run.

也可以指定特定的数据库

./interproscan.sh -appl Pfam -i /path/to/sequences.fasta

也可以指定多个数据库,并可选择数据库的版本

./interproscan.sh -appl Pfam-31.0 -appl PRINTS-42.0 -i /path/to/sequences.fasta

也可以只使用一个-appl,后面跟很多的数据库

./interproscan.sh -appl CDD,COILS,Gene3D,HAMAP,MobiDBLite,PANTHER,Pfam,PIRSF,PRINTS,ProDom,PROSITEPATTERNS,PROSITEPROFILES,SFLD,SMART,SUPERFAMILY,TIGRFAM -i /path/to/sequences.fasta

所有可用的数据库list:

Included Analyses

This distribution of InterProScan includes:

  • CDD
  • COILS
  • Gene3D
  • HAMAP
  • MOBIDB
  • PANTHER
  • Pfam
  • PIRSF
  • PRINTS
  • ProDom
  • PROSITE (Profiles and Patterns)
  • SFLD
  • SMART (unlicensed components only by default - this analysis has simplified post-processing that includes an E-value filter, however you should not expect it to give the same match output as the fully licensed version of SMART)
  • SUPERFAMILY
  • TIGRFAMs

以下的数据库在interproscan 5中可用,但是需要获得许可:

  • Phobius (licensed software)
  • SignalP
  • SMART (licensed components)
  • TMHMM

所以不加比较好,可以最大程度地得到需要的信息,虽然会给后续处理带来压力。


-i / --fasta sequence_file

需要输入fasta格式的文件。核酸和蛋白都可以,但推荐蛋白,毕竟蛋白文件相对小一点。

for protein sequences, returnand files or for nucleotide sequences, return GFF3 and XML files

蛋白质文件的默认输出格式是 TSV, XML 或GFF3,核酸序列默认输出GFF3 或 XML 文件


-iprlookup,--iprlookup (optional)

-goterms,--goterms (optional)

开启GO注释,这两个参数一般一起开,GO的注释依赖于-iprlookup参数


-b / --output-file-base file_name (optional)

Optionally, you can supply a path and base name (excluding a file extension) for the results file as follows:

./interproscan.sh -i /path/to/sequences.fasta -b /path/to/output_file

The appropriate file extension will be added to each output file, depending upon the format(s) requested. (It is therefore recommended that you do not include a file extension yourself.)

Note that using this option will not overwrite existing files. If a file with the required name exists at the path specified, the provided file name will have 'underscore_number' appended in front of the file extension.

没明白,贴原文需要的自己看。感觉上是不需要自己设置输出格式的意思?而且不会重写覆盖掉已存在的文件。


-o 跟前面的-b.-d不能同时出现,如果设置了这个,就必须设置-f

-f 输出文件的格式,支持的格式为TSV, XML, GFF3, HTML and SVG。蛋白默认的格式为TSV, XML 和 GFF3, 核酸的格式之前为GFF3 和XML,现在都可以了哦。

 ./interproscan.sh -f XML -f HTML -i /path/to/sequences.fasta -b /path/to/output_file

集中输出格式的区别:https://code.google.com/p/interproscan/wiki/OutputFormats


-dp 关闭precalculated match lookup service,默认的是开启。根据md5值来快速检验这上传的数据是否已经被注释了,如果是已经注释了就直接出结果。节省时间。


-pa / --pathways (optional)
Option that provides mappings from matches to pathway information, which is based on the matched manually curated InterPro entries. (IMPLIES -iprlookup option). The different pathways databases that I5 provides cross links to are:

KEGG
MetaCyc
Reactome

开启可能的注释信息。


-t / --seqtype (optional)
InterProScan 5 supports analysis of both protein and nucleic acid sequences (DNA/RNA). Your input sequences are interpreted as protein sequences by default. If you like to scan nucleotide sequences you must set the -t option:

./interproscan.sh -t n -i /path/to/sequences.fasta

如果输入的是核酸序列(DNA或者RNA都可以)需要设置-t参数,默认是蛋白。


-dra/ --disable-residue-annot (optional)

Optionally, you can prevent InterProScan from calculating the residue level annotations and displaying in the output where available. If you don't require this information then disabling the feature will improve performance and result in smaller output files.

可以将一些计算忽略,得到较小较快的结果


更多的信息请查看下面参考的第一条。

一些注意事项

  1. 跑interproscan的数据可以是核酸也可以是蛋白质,但是命令会有一些区别。
  1. 数据一定要格式化,而且序列中不能出现*号等其他字符。gene的名字不能为空。

根据以上信息整理后得到:

./interproscan.sh -i /path/to/sequences.pep -iprlookup -goterms -f html -f tsv -dp -pa -dra -b /path/to/output_fileinterproscan.sh  -appl PfamA (-appl PRINTS) -appl SMART -appl PANTHER -i Porphyra_umbilicalis_pep.fasta -f tsv -o Porphyra_umbilicalis_pep.fasta.ipr -goterms -T temp -iprlookupnohup ./interproscan.sh  -appl PfamA -appl SMART -appl PANTHER -i 160614_klebsormidium_v1.1_AA.fasta.fasta -f tsv -o kfl.tsv -goterms -T temp -iprlookup -dp &#tsv格式可以直接用excel打开。

参考

https://github.com/ebi-pf-team/interproscan/wiki/HowToRun

https://github.com/ebi-pf-team/interproscan/wiki/FAQ#3.What_should_I_do_if_one_of_the_binaries_included_with_InterProScan_5_does_not_work_on_my_system?

http://qinqianshan.com/interproscan-installation-and-usage/

https://www.cnblogs.com/xiaojikuaipao/p/7190779.html

一个用interproscan做基因注释的简易教程相关推荐

  1. 精选推文 | 基于三代转录组的基因注释踩坑经历以及GSAman使用

    邀请并收到一位「GSAman」用户的稿件,非常详尽且实在.相信这份推文可以为一些做功能基因组方面工作的朋友,提供实用参考. – CJ-陈程杰 前言 随着测序技术的进步和普及,现如今已经步入到" ...

  2. mayapython开关_Maya Python 简易教程.doc

    您所在位置:网站首页 > 海量文档 &nbsp>&nbsp计算机&nbsp>&nbspPython Maya Python 简易教程.doc25页 本 ...

  3. R语者小case之——从GTF文件生成注释表格做基因ID转换

    基因的注释表格是经常需要用到的,可以从GTF文件中获得.用R可以简单地实现这个功能. 简易的GTF文件实际上可以认为是用制表符分隔为9列的TSV. 第一列是seqid, 通常是染色体编号: 第二列是s ...

  4. linux基因组文件,转录组入门(四):了解参考基因组及基因注释

    转录组入门(4):了解参考基因组及基因注释 任务列表 1.在UCSC下载hg19参考基因组: 2.从gencode数据库下载基因注释文件,并且用IGV去查看感兴趣的基因的结构,比如TP53,KRAS, ...

  5. geneHapR做基因单倍型分析

    教你5分钟学会做基因单倍型分析 关键词: 基因单倍型.单倍型网络图.地理分布.连锁不平衡.主效位点 怎么做单倍型分析 一.什么是单倍型? 在单倍型分析前,首先需要明白什么是单倍型.什么是基因单倍型? ...

  6. Prokka:快速原核基因组、宏基因组基因注释

    文章目录 Prokka:快速原核基因组注释 热心肠日报 摘要 1 简介 2 描述 2.1 输入 2.2 注释 表1 Prokka使用的功能预测工具 2.3 输出 表2. 输出结果介绍 3 结果 表3. ...

  7. 宏基因组实战4. 基因注释Prokka

    前情提要 如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章 宏基因组分析理论教程 微生物组入门圣经+宏基因组分析实操课程 1背景知识-Shell入门与本地blast实战 2 ...

  8. NGS基础 - 参考基因组和基因注释文件

    参考基因组和基因注释文件获取 通常测序生成的reads要与参考基因组或参考转录组进行比对,或Pseudo-alignment.所以首先需要获取参考基因组和参考转录组信息. Ensembl(http:/ ...

  9. linux基因组文件,科学网-NGS基础 - 参考基因组和基因注释文件-陈同的博文

    NGS基础 - 参考基因组和基因注释文件 同步滚动:关 参考基因组和基因注释文件获取 通常测序生成的reads要与参考基因组或参考转录组进行比对,或Pseudo-alignment.所以首先需要获取参 ...

最新文章

  1. Netflix创始人:我不要求996,一样市值1万亿
  2. python打印浮点数_python怎么输出浮点数
  3. CKFinder 自定义文件路径扩展ConfigurationPathBuilder
  4. Linux之whereis、which、find、location的区别和用法
  5. 计算机网络大一上学期期末考试试题及答案,大一第一学期期末计算机考试题及答案)...
  6. vscode使用教程python-VS Code 配置 Python 开发环境
  7. python怎么读文件名-python读取文件名并改名字的实例
  8. 下述程序有什么问题?
  9. 往有序单循环链表的插入元素使原链表依旧有序
  10. js基础语法知识(数组/对象/日期)
  11. Val编程-文本操作
  12. RaabitMQ:rabbitmqctl的几个命令
  13. 在Powerbuilder中播放Flash动画
  14. react withRouter 离开页面触发
  15. 软件设计师历年真题与解析(05-18 包括答案)
  16. 2020印象笔记日记模板及更改印象笔记背景色教程
  17. 用正则表达式验证邮箱和手机号
  18. 高等数学:第九章 重积分(1)二重积分的概念、计算法和应用
  19. scratch编程谷歌小恐龙游戏
  20. 使用 Sqoop 将 30W+ MySQL 数据导入 Hive

热门文章

  1. 初识Nginx四:nginx代理服务器配置缓存
  2. solr4.4 索引mysql数据库数据_solr4.4 索引mysql数据库数据(DataImport DIH QuickStart)
  3. SpringBoot HATEOAS用法简介(入门)
  4. MarkDown快捷键学习
  5. java list 子集_Java——List方法,获取子集
  6. Android指定物理按键唤醒屏幕
  7. Android 颜色(不)透明度的使用及项目开发中的心得总结
  8. Element UI是什么?基本用法
  9. NAMD跑分子动力学模拟出现的一些问题(更新中)
  10. AG7120与AG7220做HDMI信号延长放大器驱动方案讲解|AG7120与AG7220设计HDMI信号延长放大器电路参考