Interpro是一个数据库,它里面有蛋白功能,蛋白家族等信息。而Interproscan就是可以将你的蛋白序列跟这个这个数据比对,从而给你的序列功能注释。

Interproscan5新增了一些功能

Phobius用来预测跨膜和信号肽

可以把结果map到上传的数据上

寻找蛋白可能的生物学代谢途径

新的输出格式XML和GFF3.0

提升了图形界面的

一、配置要求

至少2 cores and 4 GB of RAM, 这样才能同时分析5 - 10 sequences

软件要求:

Linux, 32 bit or 64 bit (64 bit recommended).

Perl (default on most Linux distributions)

Oracle’s Java JDK/JRE version 6u4 and higher (which also includes Java 7)

Environment variables set

JAVA_HOME should point to the location of the JVM

$JAVA_HOME/bin should be added to the CLASSPATH

查看我的配置:

sam@sam-Precision-WorkStation-T7500[sam] uname -a

Linux sam-Precision-WorkStation-T7500 3.5.0-42-generic #65~precise1-Ubuntu SMP Wed Oct 2 20:57:18 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux

其中x86_64代表64 Bit,如果是686代表的是32 Bit

sam@sam-Precision-WorkStation-T7500[sam] java -version [

java version "1.7.0_45"

Java(TM) SE Runtime Environment (build 1.7.0_45-b18)

Java HotSpot(TM) 64-Bit Server VM (build 24.45-b08, mixed mode)

现在仅仅支持 version1.6 or 1.7

(这里是建议用Oracle JDK ,如果你的是OpenJDK。可以根据我之前的博客中安装java: http://blog.sina.com.cn/s/blog_670445240101iy3d.html)

sam@sam-Precision-WorkStation-T7500[sam] perl -version [

This is perl 5, version 14, subversion 2 (v5.14.2) built for x86_64-linux-gnu-thread-multi

(with 56 registered patches, see perl -V for more detail)

因为之前各种安装软件,所以这些软件我现在都是已经安装好了的。

二、安装interproscan5

1、获得InterProScan software core(针对我的64位机)

mkdir my_interproscan;

cd my_interproscan;

wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.2-45.0/interproscan-5.2-45.0-64-bit.tar.gz

wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.2-45.0/interproscan-5.2-45.0-64-bit.tar.gz.md5

# Recommended checksum to confirm the download was successful:

md5sum -c interproscan-5.2-45.0-64-bit.tar.gz.md5

# Must return *interproscan-5.2-45.0-64-bit.tar.gz: OK*

# If not - try downloading the file again as it may be a corrupted copy.

因为文件比较大,所以用md5值检验了下载是否完整。4.8G啊

解压缩

tar -pxvzf interproscan-5.2-45.0-*-bit.tar.gz

# where:

# p = preserve the file permissions

# x = extract files from an archive

# v = verbosely list the files processed

# z = filter the archive through gzip

# f = use archive file

2 、安装Panther Models

下载Panther Models到刚解压缩的文件的子目录/data下面

cd [InterProScan5 home]/data/

wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/data/panther-data-8.1.tar.gz

wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/data/panther-data-8.1.tar.gz.md5

这个文件大小大概为12 GB,下载结束后需要检查一下MD5

md5sum -c panther-data-8.1.tar.gz.md5

出现# This must return *panther-data-8.1.tar.gz: OK*证明下载的没问题,否则重新下载

解压缩

tar -pxvzf panther-data-8.1.tar.gz

如果想把这个放在其他的文件的话,可以修改[InterProScan5 home]/interproscan.properties 文件,改下面的东西

panther.models.dir.8.1=PATH_TO/panther/8.1/model

3. 使用Pre-calculated Match Lookup 服务器

The pre-calculated match lookup网页服务器能够提供超过3千万蛋白序列的比对,包括所有的UniProtKB蛋白序列.

InterProScan 5使用这个服务器能够加速本地服务器的速度。

这是这个版本的特低昂要想使用这个服务器的话,需要电脑能上网:http://www.ebi.ac.uk to use it.

如果你的电脑防火墙阻止访问这个网站,你课以下载本地化的InterProScan 5 lookup service(https://code.google.com/p/interproscan/wiki/LocalLookupService)

或者关掉这个功能关掉这个功能的时候,你可以在命令行加入-dp 或者修改interproscan.properties

在前面加一个#注释掉即可

precalculated.match.lookup.service.url=http://www.ebi.ac.uk/interpro/match-lookup

三、使用interproscan

./interproscan.sh -i /path/to/sequences.fasta –o /san/ –goterms –iprlookup –pa -f xml

可以运行其提供的例子: ./interproscan.sh -i test_proteins.fasta -f tsv

会得到tsv格式的结果,里面包含了很多数据库Gene3d, PIRSF,PRINTS,PANTHER,SUPERFAMILY,PFAM,TIGERFAM等比对的结果。

Cd /interproscan

可以直接在终端输入./interproscan.sh,你会看到用法信息

-appl 单独分析,没有这个的话,所有的结果都将呈现

指定数据库,可以不加数据库的版本

./interproscan.sh -appl PfamA -i /path/to/sequences.fasta

If you wish to specifically run two or more analyses you can include multiple -appl arguments:

也可以指定多个数据库

./interproscan.sh -appl PfamA-27.0 -appl PRINTS-42.0 -i /path/to/sequences.fasta

or you can use a single -appl option with a comma-separated list of analyses:

或者可以通过,把多个数据放在一起。

./interproscan.sh -appl PfamA,PRINTS -i /path/to/sequences.fasta

A list of all available analyses is in the section "Included Analyses"

-b base output filename指定生成文件路径,跟-o效果一样,如果不加,默认的名字和路径。自动往生成文件名加指定文件后缀。

-d output directory, 跟-b ,-o互斥,

-dp 关闭precalculated match lookup service,默认的是开启。根据md5值来快速检验这上传的数据是否已经被注释了,如果是已经注释了就直接出结果。节省时间。

-f 输出文件的格式,支持的格式为TSV, XML, GFF3, HTML and SVG。蛋白默认的格式为

TSV, XML 和 GFF3, 核酸的格式之前为GFF3 和XML,现在都可以了哦。

./interproscan.sh -f XML -f HTML -i /path/to/sequences.fasta -b /path/to/output_file

or

./interproscan.sh -f XML, HTML -i /path/to/sequences.fasta -b /path/to/output_file

集中输出格式的区别:https://code.google.com/p/interproscan/wiki/OutputFormats

-i 输入的为fasta格式文件。

-goterms开启GO注释,但前面要加上-iprlookup参数

-iprlookup开启interpro注释

-ms 最小核酸ORF的大小,如果设置的小的话,花的时间会长。

-o 跟前面的-b.-d不能同时出现,如果设置了这个,就必须设置-f

-pa 开启可能的代谢注释

-T 默认的临时文件在/tmp,这个是可以设置临时文件的位置

-t 输入序列的类型。默认的是蛋白, 可以为dna或者为rna

涉及到的数据库:

可以直接用的。

TIGRFAM-XX.X : TIGRFAMs 基于隐马尔可夫模型的蛋白家族库

ProDom-XXXX.X: ProDom 是由UniProt Knowledge Database自动生成的蛋白域家族。

Panther-X.X : The PANTHER (Protein ANalysis THrough Evolutionary Relationships)是

一个独立的根据功能来分类平台,使用已公布的实验证据和进化关系来预测没有直接实验证据的基因的功能,

SMART-X.X : SMART 可以用来鉴别和分析基于隐马尔可夫模型的域构架 PrositeProfiles-XX.XX : PROSITE 包含描述蛋白域,家族,功能位点和关系的入口文件,用来

区别这些蛋白的编号。

PrositePatterns-XX.X.XX :同上

SuperFamily-X.XX : SUPERFAMILY可以给核酸和蛋白做功能和结果注释的数据库。 PRINTS-XX.X : A fingerprint是一个保守的模型用来描述蛋白家族。 Gene3d-X.X.X :通过使用 CATH域结构数据库来对全基因和基因组进行结构分析

PIRSF-X.XX : The PIRSF是用来但做一个指导把UniProtKB序列进行无重叠和深度分类,来反映他们进化关系

PfamA-XX.X : 一大类蛋白家族,每一个代表对序列比对和隐马尔可夫的结果。

HAMAP-XXXXXX.XX : High-quality Automated and Manual Annotation of Microbial Proteomes高质量自动注释和手工注释微生物的蛋白组

Coils-X.X :对蛋白组卷曲螺旋区域的预测

无效的分析:

SignalP-GRAM_NEGATIVE-X.X : Analysis SignalP-GRAM_NEGATIVE-X.X is deactivated, because the following parameters are not set in the interproscan.properties file: binary.signalp.X.X.path

SignalP-GRAM_POSITIVE-X.X : Analysis SignalP-GRAM_POSITIVE-X.X is deactivated, because the following parameters are not set in the interproscan.properties file: binary.signalp.X.X.path

SignalP-EUK-X.X : Analysis SignalP-EUK-X.X is deactivated, because the following parameters are not set in the interproscan.properties file: binary.signalp.X.X.path

Phobius-X.XX : Analysis Phobius-X.XX is deactivated, because the following parameters are not set in the interproscan.properties file: binary.phobius.pl.path.X.XX

TMHMM-X.Xc : Analysis TMHMM-X.Xc is deactivated, because the following parameters are not set in the interproscan.properties file: binary.tmhmm.path

核酸序列的扫描

Emboss getorf.是内嵌在interproscan中的基因预测的软件,如果你想本地安装这个软件的话,必须修改interproscan.sh script

# set environment variables for getorf

export EMBOSS_ACDROOT=bin/nucleotide

export EMBOSS_DATA=bin/nucleotide

如果输入的是核酸序列,在运行命令的时候需要加入-t这个参数

./interproscan.sh -t n -i /path/to/nucleic_acid_sequences.fasta

格式转换

可以将xml转化为其他的格式,注意哦,仅仅是转化xml格式

./interproscan.sh -mode convert -f tsv,gff3,svg -i /path/to/impact.xml -o /path/to/output_file_basename

四、报错

4.1 Interproscan:unable to delete temporary directory

为什么用Interproscan的结果不能输入到指定的文件夹中呢?

sam@sam-Precision-WorkStation-T7500[interproscan] ./interproscan.sh -i

/sam/syn/result/cluster9/orf/cluster9_proteins.fasta –o

/sam/syn/result/cluster9/proscan/cluster9 –goterms –iprlookup -pa -f

XML

10/01/2014 09:23:03:647 Welcome to InterProScan-5.2-45.0

10/01/2014 09:23:15:703 Running the following analyses:

[jobTIGRFAM-13.0, jobProDom-2006.1, jobPanther-8.1, jobSMART-6.2,

jobPrositePatterns-20.97, jobSuperFamily-1.75, jobPRINTS-42.0,

jobGene3d-3.5.0, jobHAMAP-201310.09, jobPIRSF-2.84, jobPfamA-27.0,

jobPrositeProfiles-20.97, jobCoils-2.2]

10/01/2014 09:23:15:708 Running InterProScan v5 in STANDALONE mode...

Loading file /sam/syn/result/cluster9/orf/cluster9_proteins.fasta

Available matches will be retrieved from the pre-calculated match

lookup service.

Matches for any sequences that are not represented in the lookup

service will be calculated locally.

10/01/2014 23:55:28:499 25% completed

11/01/2014 03:37:23:414 50% completed

11/01/2014 03:52:30:150 75% completed

11/01/2014 04:04:42:828 90% completed

2014-01-11 04:25:50,398

[uk.ac.ebi.interpro.scan.management.model.implementations.WriteOutputStep:245]

WARN - At run completion, unable to delete temporary directory

/sam/interproscan/temp/sam-Precision-WorkStation-T7500_20140110_092329954_cd8z/jobPIRSF-2.84

2014-01-11 04:25:50,401

[uk.ac.ebi.interpro.scan.management.model.implementations.WriteOutputStep:250]

WARN - At run completion, unable to delete temporary directory

/sam/interproscan/temp/sam-Precision-WorkStation-T7500_20140110_092329954_cd8z

11/01/2014 04:25:54:297 100% done: InterProScan analyses completed

原来在于我的这个-o这个参数,名字后面应该跟上文件名格式;

或者用-d这个参数,只要指定文件夹就行,不用跟文件名和文件名格式

ps:

没什么要说的,他们这个官网的介绍真新详细,这是目前我唯一从头看到尾的一份说明说,翻译理解水平有限,查证的话可以看官网的说明。

参考资料:

cath数据库fasta备注_sam's note相关推荐

  1. cath数据库fasta备注_数据库(同源)搜索软件 FASTA 和 BLAST

    FASTA和BLAST是目前功能最全,使用最广的同源性数据库搜索软件包.它们在Needleman 的动态算法的基础上做了很多技术上的改进, 如采用启发性算法, 使得在精确度牺牲较小的情况下, 速度快了 ...

  2. cath数据库fasta备注_ncbi nr 数据库提取fasta

    在nr库这里挣扎许久了.数据库太大,下载和建库都很困难.下载了nr blast库,拆分更容易下载,但是没搞定blast版本的更新,下载的是5的库,软件还是4?尝试从库里抽提fasta自己建库(用新版的 ...

  3. C#,生信软件实践(01)——DNA序列数据库FASTA文件合并工具的源代码

    1 生物信息学简介 生物信息学(BioInformatics)是研究生物信息的采集.处理.存储.传播,分析和解释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计算机科学相结合形成的 ...

  4. 转: databasemetadata 无法获取数据库表备注的解决方法

    转自: https://blog.csdn.net/10km/article/details/77389038 mysql/jdbc:设置useInformationSchema=true读取表注释信 ...

  5. 【学习笔记】山东大学生物信息学-01 生物数据库

    课程地址:山东大学生物信息学 文章目录 一.生物数据库 1.1 PubMed 文献数据库 1.2 一级核酸数据库 1.2.1 INSDC = Genbank + ENA + DDBJ 1.2.2 基因 ...

  6. 黄聪:NaviCat通过Http方式连接服务器的MySQL数据库(转)

    首先到NaviCat官网上去下载最新版本的NaviCat.安装完成后,打开NaviCat,如下图所示: 然后点击左上角的连接,弹出新键连接信息,如下图所示: 在主机名IP地址那里填写LocalHost ...

  7. sentinel 官方文档_Sentinel控制台监控数据持久化到MySQL数据库

    阅读文本大概需要3分钟. 根据官方wiki文档,Sentinel控制台的实时监控数据,默认仅存储 5 分钟以内的数据.如需持久化,需要定制实现相关接口. https://github.com/alib ...

  8. db2查询字段备注_通过逐浪数据精灵管理sqlserver数据表备注以及字段说明

    通过逐浪数据精灵管理sqlserver的数据表备注以及字段说明备注(附脚本方法) 基本介绍 逐浪数据精灵,是由逐浪软件团队提供的生成态产品,可以快速的方便的管理数据表,目前对商业用户开放. 管理数据库 ...

  9. 测开5 - Python(模块、操作数据库、操作Excel、加密)

    1⃣️ 模块 模块分为:标准模块(python自带的).第三方模块(如pymysql).自己写的 python 文件(一个python文件,就是一个模块) 导入模块的实质:把导入的模块运行了一遍 查找 ...

最新文章

  1. ORM单表查询,跨表查询,分组查询
  2. 科普天地|“GPS欺骗”如何误导自动驾驶汽车
  3. otto android,Albert otto
  4. SpringBoot2.0实现静态资源版本控制
  5. 【代码笔记】iOS-自定义loading(IanAlert)
  6. pythongui显示图片_opencv2.4.13+python2.7学习笔记--opencv中的Gui特性--图片:读图像,显示图像,保存图像...
  7. mysql主从数据库同步问题_聊聊MySQL主从数据库同步的那些事儿
  8. 2012年十大项目月度得分榜
  9. boolean类型默认值_【Java基础】还在问String属于什么数据类型
  10. 如何使用U盘替换光驱引导部署WES7系统
  11. 根据Excel记录生成Mysql和Hive建表语句
  12. c语言字符程序示例,C语言程序设计实例大全
  13. 微信小程序之评分页面
  14. 吃货联盟订餐系统项目实践
  15. cryptography
  16. 《人生效率手册》读后感
  17. 如何调出手机信任计算机的指令,苹果手机怎么连接到电脑上面去发(苹果在哪设置信任电脑)...
  18. 树莓派 3b jupyter notebook 设置为后台服务
  19. BERT生成能力改进:分离对话生成和对话理解
  20. 对于SAP的月结相关流程介绍及操作讲解

热门文章

  1. 安卓handler的用法,handler举例
  2. 2022 版史上最全 Java 八股文,没有任何异议
  3. 解决桌面图标无法拖动的方法
  4. 微信公众号及微信支付签名算法
  5. Lua实现md5加密
  6. K_A02_001 基于单片机驱动4位数码管模块(74HC595) 0-3滚动+ 时钟显示
  7. Linux系统安全以及应用
  8. 《外星人入侵》 教程详解
  9. Python实现BP神经网络ANN单隐层回归模型项目实战
  10. MATLAB数字图像水印