用Annovar注释非人类基因组,如小鼠mm9
annovar一般只包含人类基因组注释数据库,其他的物种如小鼠需要自己进行建立注释信息。
第一步:下载annovar软件
上Annovar官网下载(http://annovar.openbioinformatics.org/en/latest/user-guide/download/),现在要邮件注册后才能下载。邮件注册后会给你最新版软件下载地址,下载后文件为annovar.latest.tar.gz。
第二步:安装Annovar
linux系统下用该命令解压
tar zxvf annovar.latest.tar.gz
解压后生成annovar文件夹,里面有6个perl脚本程序和两个文件夹,其中一个是example文件夹,另一个是已经建立好的hg19或者GRCh37的humandb的数据库文件夹,可用于人的注释。
第三步:使用Annovar
人的注释方法,官网介绍的很详细,但仅仅有人的数据库肯定是满足不了大家的需求。
一般如果你想看是否有某种物种,如小鼠mm9的注释库时,命令行运行
perl annotate_variation.pl -builder mm9 -downdb avdblist -webfrom annovar ./
会生成一个mm9开头的文件,里面包含小鼠mm9有多少注释数据库,然后自己可以构建一个mousedb数据库
先在annovar文件夹里面创建mousedb文件夹(名字可自取),命令mkdir mousedb
然后使用annovar文件夹下的perl程序annotate_variation.pl
perl annotate_variation.pl -downdb -buildver mm9 -webfrom annovar refGene mousedb/
这个命令能实现的是帮忙下载mm9的refGene的文件,保存在mousedb文件下,自动解压后文件名为mm9_refGene.txt。
然后程序会提示使用以下两个命令继续建库
annotate_variation.pl --buildver mm9 --downdb seq mousedb/mm9_seq retrieve_seq_from_fasta.pl mousedb/mm9_refGene.txt -seqdir mousedb/mm9_seq -format refGene -outfile mousedb/mm9_refGeneMrna.fa
同样在annovar文件下运行这两个perl程序
perl annotate_variation.pl --buildver mm9 --downdb seq mousedb/mm9_seq
通过这个命令,会在mousedb下创建文件夹mm9_seq,并且在里面下载mm9的基因组文件chromFa.tar.gz,perl程序帮忙解压后是按染色体分开的fasta格式文件。
然后继续运行perl程序
perl retrieve_seq_from_fasta.pl mousedb/mm9_refGene.txt -seqdir mousedb/mm9_seq -format refGene -outfile mousedb/mm9_refGeneMrna.fa
该程序会会在mousedb下创建mm9_refGeneMrna.fa文件,是根据mm9_refGene.txt的信息,重新构建成的老鼠转录表达基因fasta格式文件
这样老鼠mm9 annovar gene based注释库就弄好了
以文本文件test.input为案例进行测试
生成test.input的txt格式文件,根据annovar官网介绍,只要这最基本的五列信息就可以进行注释,五列分别染色体名称,染色体上的位置,染色体上的位置,参考基因组碱基,变异碱基。
1 19215217 19215217 T C 1 33803084 33803084 A G 1 33803198 33803198 A G 1 37499237 37499237 T C 1 37499238 37499238 T C 1 37500003 37500003 T C 1 43826936 43826936 T C 1 58853960 58853960 A G 1 58854487 58854487 A G 1 60436865 60436865 T C
然后使用perl程序进行gene based的注释
perl annotate_variation.pl -out test -build mm9 test.input mousedb
注释后会生成test.variant_function,test.exonic_variant_function和test.log文件,前两个即为所需要的文件。用这个例子输出test.exonic_variant_function文件输出为空文件,因为这些位点没有在exonic区域的,所以没有结果。如果有位点在exonic中,则在test.exonic_variant_function中会更具体的描述为同义突变还是非同义突变
intronic Tfap2b 1 19215217 19215217 T C UTR3 Bag2 1 33803084 33803084 A G UTR3 Bag2 1 33803198 33803198 A G UTR3 Mgat4a 1 37499237 37499237 T C UTR3 Mgat4a 1 37499238 37499238 T C UTR3 Mgat4a 1 37500003 37500003 T C intronic Uxs1 1 43826936 43826936 T C intronic Casp8 1 58853960 58853960 A G intronic Casp8 1 58854487 58854487 A G intronic Cyp20a1 1 60436865 60436865 T C
转载于:https://www.cnblogs.com/Raymontian/p/7113096.html
用Annovar注释非人类基因组,如小鼠mm9相关推荐
- Annovar注释的突变文件转MAF对象
maftools可以读入Annovar注释的突变文件,生成成MAF对象,方便下游的突变分析. 1. 合并不同样本的突变文件,加上样本编号 原始的vcf文件经过Annovar软件注释后会生成注释好的.v ...
- Annovar 软件注释流程
第一步:下载Annovar 上Annovar官网下载(http://annovar.openbioinformatics.org/en/latest/user-guide/download/),现在要 ...
- Annovar 信息注释
ANNOVAR 注释软件 ANNOVAR简介 ANNOVAR结构 ANNOVAR下载数据库 ANNOVAR输入格式 ANNOVAR格式转换 ANNOVAR注释功能 用table_annovar.pl进 ...
- 微生物所科学家建成小鼠肠道微生物资源库
https://www.nature.com/articles/s41467-019-13836-5 1月7日,<自然·通讯>发表了中国科学家完成的小鼠肠道微生物资源库工作. 肠道微生物是 ...
- ANNOVAR gene-based annotation
欢迎关注"生信修炼手册"! 通过基因相关注释,可以知道变异位点在基因组上的位置和对蛋白质编码的影响.在进行注释之前,首先需要下载物种对应的数据库,以human为例,命令如下 ann ...
- NGS数据分析实践:02. 参考基因组及注释库的下载
NGS数据分析实践:02. 参考基因组及注释库的下载 1. 参考基因组数据 2. 已知的SNP和Indel变异数据 3. annovar注释所需数据库的下载 4. 其他数据库 系列文章: 二代测序方法 ...
- 肠菌亦“醉”人 | 中国团队登Cell子刊,发现60%的非酒精性脂肪肝与肠道菌有关,携带者体内酒精可达健康人4-6倍...
导读 2019年9月19日<Cell Metabolism>上一则研究发现,在中国队列中,能产生大量酒精的Klebsiella pneumoniae菌与高达60%的非酒精性脂肪肝患者有关. ...
- 基因组序列及注释数据下载
1. 网站下载 NCBI Download - NCBI Ensembl Accessing Ensembl Data UCSC https://hgdownload.soe.ucsc.ed ...
- vim 代码注释插件
参考: 1.http://www.vim.org/scripts/script.php?script_id=1218 2.http://www.dutor.net/index.php/2010/05/ ...
最新文章
- 在baidu上找到自己
- facebook maskrcnn 安装笔记
- android 虚拟机快捷键中英列表
- 201671010436 王雪刚 实验四 《英文文本统计分析》结对项目报告
- 留学申请中,你们怎么老让我做科研啊?
- 苹果确认部分AirPods Pro存在静电噪音等声音问题 将免费更换
- WPF Logical Tree vs. Visual Tree
- Linux程序设计之套接字: 循环服务 并发服务
- C#学习笔记第一篇——类进阶
- linux远程升级运行程序,在LINUX上对DSP程序远程升级的实现想法
- matlab生成网络流量,BP神经网络 预测网络流量
- 【图像压缩】基于matlab行程编码(RLE)图像压缩【含Matlab源码 404期】
- oracle库导出,oracle整库导出
- java-ToStringBuilder介绍
- 2022年高压电工考试试题模拟考试平台操作
- 软件测试培训到底值不值得参加?
- 自己总结的常见命令(用过的)
- 职业生涯规划需要考虑的三大要点
- Flutter布局中的松约束、紧约束
- 误删文件夹但是回收站没有找到怎么恢复?