【2】基因功能注释之SwissProt和Interproscan
SwissProt注释
1. 获取uniprot_sprot数据库
wget ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.fasta.gz -P /home/user/DB
gzip -dc uniprot_sprot.fasta.gz > uniprot_sprot.fasta
2. 建库比对
diamond makedb --in /home/user/JustDo/wang/two-genome/Swiss-Prot/uniprot_sprot.fasta -d /home/user/JustDo/wang/two-genome/Swiss-Prot/uniprot_diamond.dmnd
diamond blastp --threads 4 --db /home/user/JustDo/wang/two-genome/Swiss-Prot/uniprot_diamond.dmnd --query /home/user/JustDo/wang/two-genome/Cc/genome/assembly/protein.fa --outfmt 6 qseqid qlen qstart qend sseqid slen sstart send pident ppos gaps length bitscore evalue qtitle stitle --evalue 1e-5 --max-target-seqs 1 --out swissprot.blast.xls
Interproscan
官网地址:http://www.ebi.ac.uk/interpro/download.html
github:https://github.com/ebi-pf-team/interproscan/wiki
1. 下载并解压
wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.52-86.0/interproscan-5.52-86.0-64-bit.tar.gz
tar -pxvzf interproscan-5.52-86.0-64-bit.tar.gz
##-p preserve the file permissions #即保存文件权限
2. 安装
安装Panther模块
cd /home/user/interproscan-5.52-86.0/data/
wget ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/data/panther-data-12.0.tar.gz
tar -pxvzf panther-data-12.0.tar.gz
3. 调用数据库注释
/home/user/JustDo/wang/two-genome/interproscan-5.52-86.0/interproscan.sh -appl Pfam -goterms -iprlookup -i protein.fa –pa -b Cc.pfam.go -f tsv
NOTE(亲测):如果将-goterms -iprlookup放到命令的末尾将不会提取GO信息,需要紧接着-appl的参数。
##参数说明
调用数据库参数:
-appl/--applications application_name (optional) ##By default, all available analyses are run.
所有可用的数据库list:
CDD,COILS,Gene3D,HAMAP,MOBIDB,PANTHER,Pfam,PIRSF,PRINTS,ProDom
PROSITE (Profiles and Patterns),SFLD,SMART (unlicensed components only by default - this analysis has simplified post-processing that includes an E-value filter, however you should not expect it to give the same match output as the fully licensed version of SMART)
SUPERFAMILY,TIGRFAMs
以下的数据库在interproscan 5中可用,但是需要获得许可:
Phobius (licensed software),SignalP,SMART (licensed components),TMHMM
NOTE: 另外,一般最好指定数据库,如果不指定数据库全部运行的话常常会报错。-appl后面可以接多个数据库,数据库名称之间用逗号隔开即可。
其他参数:
-i
/ --fasta sequence_file
#蛋白fasta序列输入
-iprlookup,--iprlookup (optional)
-goterms,--goterms (optional)
#开启GO注释,这两个参数一般一起开,GO的注释依赖于-iprlookup参数
-b / --output-file-base file_name (optional)
#输出文件名的前缀
-f (可以同时添加多个-f 输出多个格式)
#输出文件的格式,支持的格式为TSV, XML, GFF3, HTML and SVG
-pa
/ --pathways (optional)
#输出mapping到的通路(pathway)信息
NOTE: 提供的输入文件中(如protein.fa)中不能带有*号。
【2】基因功能注释之SwissProt和Interproscan相关推荐
- 基因功能注释分析的意义
基因功能注释分析的意义 基因功能注释分析简介 基因功能的注释依赖于基因结构或者序列,将基因序列或蛋白序列和主流数据库进行比对获取该基因的功能信息,最终对预测的编码基因进行功能注释.常见的功能注释数据库 ...
- 差异表达基因热图怎么看_获得差异表达基因后-基因功能注释
基因功能注释一言以概之,就是symbol--->ENTREZID--->GO/KEGG/GSEA. 第一步:加载包 library(DOSE) library(GO.db) library ...
- 宏基因组定量、功能注释和高级分析代码
今天是第1283期日报. Nature子刊:Salmon不比对快速定量宏基因组基因 Nature Methods[IF:28.467] ① Salmon是一种准确快速定量转录本丰度的方法:② 它是第一 ...
- 基因组注释3.基因的功能注释Prokka
基因组注释的前两篇为大家讲解了关于基因组组成成分分析(包括重复序列的识别.非编码基因和编码基因预测等)的内容,今天,将重点介绍如何进行基因的功能注释. 基因的功能注释 获得基因结构信息后,我们希望能够 ...
- go split 正则_WEGO使用—华大基因在线GO功能注释
点击上方「蓝字」关注我们 WEGO是华大基因公司的一个在线GO注释的网站,根据网站的介绍:WEGO(网络基因本体注释图)是一个简单但有用的工具,用于可视化,比较和绘制基因本体注释结果.随着GO词汇越来 ...
- go kegg_GO 和 KEGG 的区别 | GO KEGG数据库用法 | 基因集功能注释 | 代谢通路富集
一直都搞不清楚这两者的具体区别. 其实初学者搞不清楚很正常,因为它们的本质是相通的,都是对基因进行归类注释的数据库. 建议初学者自己使用一下这两个数据库,应该很快就能明白其中的区别. (抱歉之前没讲清 ...
- 插件 | 蛋白序列集合功能注释快速完成 - Quick Protein Anno
写在前面 下游数据分析的时候,大体会遇到以下两个场景: 手工查看基因组任意位置的基因,具体的注释信息,以及其前后基因的功能注释信息 手上有某个序列或者某几个序列,想要快速知道这些序列对应的蛋白到底都有 ...
- 教程 | “美好体验”本地 BLAST 基因功能鉴定
我突然觉得,TBtools 应该有一个愿景,亦即:让数据分析成为一种享受,而不是折磨. 写在前面 在过去的一个月内,TBtools每天都在更新.而几乎所有更新都只有一个目的,那么就是进一步支持&quo ...
- KEGG功能注释工具 KofamKOALA 安装与使用
KEGG数据库,即京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes),是系统分析基因功能.基因组信息的数据库. KofamKOALA是一个方便的 ...
最新文章
- 2022-2028年中国电子灌封胶行业市场研究及前瞻分析报告
- 900 多道 LeetCode 题解,这个 GitHub 项目值得 Star!
- Linux性能挖潜的隐藏招数:内核CPU亲和性参数调整
- linux打包文件命令行,Linux 命令行 | 打包和解包命令
- 实验四:用一维数组实现杨辉三角
- Spring(七)持久层
- 非规范SQL的sharding-jdbc实践
- 真随机和伪随机区别_用骰子DIY真随机助记词 | 火星号精选
- Java-命令行传递参数
- 自学成为动画师?你真的准备好了吗?
- Redmi 10X Pro样张首曝:搭载流光相机技术 一键成创意大片
- vSphere 7 With K8s系列09:部署wordpress示例
- spark 学习总结
- ERP沙盘模拟实验报告
- 用c语言ipv6组播,闲谈IPv6-组播和广播
- cosx的麦克劳林级数是多少_余弦函数的泰勒级数
- 头条推荐越来越少是否还要坚持下去
- axure中继器求和_Axure案例:用中继器做一个2级折叠菜单
- CSS 滚动条,浮动问题,图片bug
- ZigZag Conversion(“Z”形转换)