找了突变,获得了snp的vcf文件,肯定想知道这些突变位点到底是出现在哪些基因上以及那些转录本上;如果是出现在外显子上的突变,想了解这些突变会对编码蛋白造成怎么样的影响,这些统统能用annovar解决,选择annovar的Gene-based annotation即可,可查看之前的笔记Annovar注释vcf-笔记

但是如果想获得其他信息或者说更加详细的信息,网上搜了下,发现推荐使用snpEFF来做突变注释,而且软件更新的很勤快~~!因此学习一下,做个笔记

软件下载与安装

wget http://sourceforge.net/projects/snpeff/files/snpEff_latest_core.zip

unzip snpEff_latest_core.zip

下载数据库

java -jar snpEff.jar databases |grep 'Homo_sapiens' |less -S

会有下面这些关于人的数据库,可根据自己的基因组版本进行选择,GRCh37.75则表示的是ENSEMBL的参考基因组

GRCh37.75 Homo_sapiens

GRCh38.86 Homo_sapiens

hg19 Homo_sapiens (USCS)

hg19kg Homo_sapiens (UCSC KnownGenes)

hg38 Homo_sapiens (USCS)

hg38kg Homo_sapiens (UCSC KnownGenes)

testHg19ChrM Homo_sapiens (UCSC)

然后当然是下载对应数据库,我选择的是GRCh37.75

java -jar snpEff.jar download GRCh37.75

注释

以GATK获得的snp的vcf文件为例,对其进行注释

java -Xmx4g -jar ~/biosoft/SnpEff/snpEff/snpEff.jar GRCh37.75 KPGP-00001_filtered_pass.snp.vcf >KPGP-00001_filtered_pass.snpEff.vcf

输出的vcf文件

从结果文件KPGP-00001_filtered_pass.snpEff.vcf可看出,其还是一个vcf格式的文件,但是在原来的输出文件基础上增加了一个tag:ANN

因此我可以将这个vcf格式文件稍微处理下,保留原来的vcf文件的前5列,再加上ANNtag形成一个新文件来查看

perl -alne 'next if $_ =~ /^#/;$F[7] =~ /(ANN=\S+)/;print "$F[1]\t$F[2]\t$F[3]\t$F[4]\t$F[5]\t$1"' KPGP-00001_filtered_pass.snpEff.vcf >snpEff.anntag.vcf

可以看到如下:

1 63268 rs75478250 T C ANN=C|non_coding_transcript_exon_variant|MODIFIER|OR4G11P|ENSG00000240361|transcript|ENST00000492842|unprocessed_pseudogene|1/1|n.321T>C||||||

从上可看出ANNtag将注释信息以"|"分割,每个field有其对应的意义,比如从ANN=开始:

Allele :C表示该突变在参考基因组上的碱基

Annotation :non_coding_transcript_exon_variant表示突变类型?

Putative_impact :MODIFIER表示snpEFF对这个突变的影响的预测,有4个程度(HIGH, MODERATE, LOW, MODIFIER)

Gene Name :OR4G11P表示该突变所在基因的基因名,如果是这个突变位于intergenic,则使用该突变离的最近的一个基因的名称

Gene ID :ENSG00000240361表示gene id,这里是使用ENSEMBL id

Feature type :transcript表示突变所在区域的类型,比如transcript, motif, miRNA等

Feature ID :ENST00000492842表示Feature type对应的id

Transcript biotype :unprocessed_pseudogene表示The bare minimum is at least a description on whether the transcript is {“Coding”, “Noncoding”}. Whenever possible, use ENSEMBL biotypes

Rank / total :1/1表示Exon or Intron rank / total number of exons or introns,前面的1表示这个突变是在第1个exon上(因为annatation已经给出了这个是突变是在exon上),后面的11表示这个突变所在的transcript总共有1个exon(个人理解是这个意思)

HGVS.c :n.321T>C表示Variant using HGVS notation (DNA level)

突变影响的预测,如上所述,snpEff给予每个突变的影响进行了预测

HIGH:The variant is assumed to have high (disruptive) impact in the protein, probably causing protein truncation, loss of function or triggering nonsense mediated decay

MODERATE:A non-disruptive variant that might change protein effectiveness

LOW:Assumed to be mostly harmless or unlikely to change protein behavior

MODIFIER:Usually non-coding variants or variants affecting non-coding genes, where predictions are difficult or there is no evidence of impact

所以我们也可以根据这些categorized impact来找more significant variants

snpEFF官方说明还有列出了每种impact有哪些Effect Classic,以及对应的解释说明

Summary

snpEff软件也有丰富的参数选择,比如:

可以根据自己的需求来个性化建库,

-t可以使用Mutlithreaded

SnpSift filter可以过滤掉一些不想显示的突变信息,如:-no-intron :Do not show INTRON changes

-fi intervals.bed可以选择输入vcf文件的注释intervals位置

还有其他功能,由于现在只是想看下snpEFF和annovar的区别,所以只是简单的记录下

java vcf文件 昵称怎么写_Annovar注释vcf-笔记相关推荐

  1. java class文件反编译 去掉无用注释

    java class文件反编译之后 有一些没有用的注释 在myEclipse中使用正则表达式 /\*(.*)\*/

  2. 循序渐进!java读文件并重新写文件

    ClickHouse 是什么? ClickHouse:是一个用于联机分析(OLAP)的列式数据库管理系统(DBMS) 我们首先理清一些基础概念 OLTP:是传统的关系型数据库,主要操作增删改查,强调事 ...

  3. 使用bcftools提取指定样本的vcf文件(extract specified samples in vcf format)

    1.下载安装bcftools. 2.准备样本ID文件,这里命名为samplelistname.txt,一个样本一行,如下所示: sample1 sample2 sample3 3.输入命令: bcft ...

  4. java 文件路径怎么写_java本地文件路径怎么写

    1. java里文件路径怎么写 File file = new File("D:\\123.txt"); 你这种不用绝对路径是不行的, 只有一个方法,在web工程启动servlet ...

  5. Java 生成随机昵称(形容词加名词)

    Java 生成随机昵称 今天写了个使用java生成随机可爱昵称的代码,就是使用形容词拼接名词. package com.haier.util;import java.util.Random;publi ...

  6. VCF文件中QUAL和GQ的区别

    最近开始分析vcf文件, 于是去搜了相关VCF格式解读的博客. 大部分关于这两个指标的解读如下,都是描述质量值的,但也没说具体啥区别. QUAL:Phred格式(Phred_scaled)的质量值,表 ...

  7. 实操 | 合并VCF文件的几种方法及注意事项

    背 景 在基因组分析领域的很多不同场景中,需要合并VCF文件. VCF文件.简单来说,就是记录样本基因型的文件.但多数VCF文件不只记录了基因型,也包含有关该基因型的来源的细节. 其它文件.VCF文件 ...

  8. VCF文件与vcftools简单介绍

    在用于存储reads比对结果的SAM/BAM格式提出之后(2009年),用于存储变异检测结果的格式VCF( variant call format )也被提出(2010年),与此同时作者还提供了配套的 ...

  9. snpEff 注释拟南芥的VCF文件

    1. 下载snpEff 软件,解压即可使用,使用前安装java. brew cask install java.#macos 系统,其他系统请下载安装 2. 在tair 网站https://www.a ...

最新文章

  1. json.net使用说明一
  2. ASP.NET 弹出窗口
  3. win10 无法安装/启用 .net framework 3.5 的一种解决方案
  4. Qt中的QFormLayout
  5. kibana操作elasticsearch:新增数据(自定义id)
  6. 取两个日期相差几年_干货~44个最常用的日期和时间类函数组合
  7. 关于js校验,检验常见的比如:电话,数字,邮箱,手机号等等
  8. Linux中Cache内存占用过高解决办法
  9. 软件工程 敏捷的酒后问答
  10. 【转】对路径**的访问被拒绝
  11. 2017.4.22 hankson的趣味题 思考记录
  12. 21 句话入门机器学习
  13. element-ui表单中的文本域 调整高度
  14. Xmind用例导入到TAPD的方案(附代码)
  15. http POST请求键值对参数以及json参数
  16. 2. web前端开发分享-css,js进阶篇
  17. Java基础break语句
  18. 【笔记整理】通信原理第五章复习——模拟信号的数字化
  19. 【元胞自动机】激进策略元胞自动机三车道(开放辅路,软件园影响)交通流模型matlab源码
  20. 有一个程序媛女友/老婆是什么样的体验?

热门文章

  1. mac 访问网站,字体变粗
  2. 一体化会是未来商业的核心
  3. uniapp获取微信openid - 微信提现 - 登录授权 - AndroidStudio离线打包微信登陆
  4. 变电站电源屏及温湿度和烟感设备协议接入流程记录
  5. 2021年云南高考成绩查询电话,高考成绩查询电话方式云南,2021年云南高考成绩查询方式入口...
  6. 软件设计模式-行为型模式
  7. 【直播资料下载】Python 系列直播——深入Python与日志服务,玩转大规模数据分析处理实战第三讲... 1
  8. 读 The Algorithmic Foundations of Differential Privacy(一)
  9. 张俊林:ChatGPT会取代搜索引擎吗?
  10. 快捷键将光标移动到行尾