Vcf文件格式是GATK钟爱的表示遗传变异的一种文件格式。

就拿GATK给出的vcf例子说明吧,下面这个文件只表示了一个完整vcf文件的前几个SNP。

看上去确实有点复杂,那就把它分为两部分看吧,第一部分把他归为说明文件,就是每一列最前面有2个#符号的那些列所提到的就是为了解释下面“正文”INFO列中可能要出现的一些tags和和FORMAT列中对基因型的表示。第二部分可以归为下面的内容:

#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA12878
chr1 873762 . T G 5231.78 PASS AC=1;AF=0.50;AN=2;DP=315;Dels=0.00;HRun=2;HaplotypeScore=15.11;MQ=91.05;MQ0=15;QD=16.61;SB=-1533.02;VQSLOD=-1.5473 GT:AD:DP:GQ:PL 0/1:173,141:282:99:255,0,255
chr1 877664 rs3828047 A G 3931.66 PASS AC=2;AF=1.00;AN=2;DB;DP=105;Dels=0.00;HRun=1;HaplotypeScore=1.59;MQ=92.52;MQ0=4;QD=37.44;SB=-1152.13;VQSLOD= 0.1185 GT:AD:DP:GQ:PL 1/1:0,105:94:99:255,255,0
chr1 899282 rs28548431 C T 71.77 PASS AC=1;AF=0.50;AN=2;DB;DP=4;Dels=0.00;HRun=0;HaplotypeScore=0.00;MQ=99.00;MQ0=0;QD=17.94;SB=-46.55;VQSLOD=-1.9148 GT:AD:DP:GQ:PL 0/1:1,3:4:25.92:103,0,26
chr1 974165 rs9442391 T C 29.84 LowQual AC=1;AF=0.50;AN=2;DB;DP=18;Dels=0.00;HRun=1;HaplotypeScore=0.16;MQ=95.26;MQ0=0;QD=1.66;SB=-0.98 GT:AD:DP:GQ:PL 0/1:14,4:14:60.91:61,0,255

CHROM: 表示变异位点是在哪个contig 里call出来的,如果是人类全基因组的话那就是chr1…chr22,chrX,Y,M了。

POS: 变异位点相对于参考基因组所在的位置,如果是indel,就是第一个碱基所在的位置。

ID: 如果call出来的SNP存在于dbsnp数据库里,就会显示相应的dbsnp里的rs编号。

REF和REF: 在这个变异位点处,参考基因组中所对应的碱基和研究对象基因组中所对应的碱基。

QUAL: 可以理解为所call出来的变异位点的质量值。Q=-10lgP,Q表示质量值;P表示这个位点发生错误的概率。因此,如果想把错误率从控制在90%以上,P的阈值就是1/10,那lg(1/10)=-1,Q=(-10)*(-1)=10。同理,当Q=20时,错误率就控制在了0.01。

FILTER: 理想情况下,QUAL这个值应该是用所有的错误模型算出来的,这个值就可以代表正确的变异位点了,但是事实是做不到的。因此,还需要对原始变异位点做进一步的过滤。无论你用什么方法对变异位点进行过滤,过滤完了之后,在FILTER一栏都会留下过滤记录,如果是通过了过滤标准,那么这些通过标准的好的变异位点的FILTER一栏就会注释一个PASS,如果没有通过过滤,就会在FILTER这一栏提示除了PASS的其他信息。如果这一栏是一个“.”的话,就说明没有进行过任何过滤。

到现在,我们就可以解释上面的例子了:

chr1:873762是一个新发现的T/G变异,并且有很高的可信度(qual=5231.78)。
chr1:877664是一个已知的变异为A/G 的SNP位点,名字rs3828047,并且具有很高的可信度(qual=3931.66)。
chr1:899282是一个已知的变异为C/T的SNP位点,名字rs28548431,但可信度较低(qual=71.77)。
chr1:974165是一个已知的变异为T/C的SNP位点,名字rs9442391,但是这个位点的质量值很低,被标
成了“LowQual”,在后续分析中可以被过滤掉。

Vcf文件看起来很复杂,挺吓人的样子,但是里面大部分都是一些tags,而这些tags基本上都是在VASR中过滤用的,能够理解每个tags的意思最好,如果实在不理解也就不用管了。其实最关键的信息也就是那么几列:

chr1 873762 . T G [CLIPPED] GT:AD:DP:GQ:PL 0/1:173,141:282:99:255,0,255
chr1 877664 rs3828047 A G [CLIPPED] GT:AD:DP:GQ:PL 1/1:0,105:94:99:255,255,0
chr1 899282 rs28548431 C T [CLIPPED] GT:AD:DP:GQ:PL 0/1:1,3:4:25.92:103,0,26

其中最后面两列是相对应的,每一个tag对应一个或者一组值,如:

chr1:873762,GT对应0/1;AD对应173,141;DP对应282;GQ对应99;PL对应255,0,255。

GT: 表示这个样本的基因型,对于一个二倍体生物,GT值表示的是这个样本在这个位点所携带的两个等位基因。0表示跟REF一样;1表示表示跟ALT一样;2表示第二个ALT。当只有一个ALT 等位基因的时候,0/0表示纯和且跟REF一致;0/1表示杂合,两个allele一个是ALT一个是REF;1/1表示纯和且都为ALT;

AD: 对应两个以逗号隔开的值,这两个值分别表示覆盖到REF和ALT碱基的reads数,相当于支持REF和支持ALT的测序深度。

DP: 覆盖到这个位点的总的reads数量,相当于这个位点的深度(并不是多有的reads数量,而是大概一定质量值要求的reads数)。

PL: 对应3个以逗号隔开的值,这三个值分别表示该位点基因型是0/0,0/1,1/1的没经过先验的标准化Phred-scaled似然值(L)。如果转换成支持该基因型概率(P)的话,由于L=-10lgP,那么P=10(-L/10),因此,当L值为0时,P=100=1。因此,这个值越小,支持概率就越大,也就是说是这个基因型的可能性越大。

GQ: 表示最可能的基因型的质量值。表示的意义同QUAL。

举个例子说明一下:

chr1 899282 rs28548431 C T [CLIPPED] GT:AD:DP:GQ:PL 0/1:1,3:4:25.92:103,0,26

在这个位点,GT=0/1,也就是说这个位点的基因型是C/T;GQ=25.92,质量值并不算太高,可能是因为cover到这个位点的reads数太少,DP=4,也就是说只有4条reads支持这个地方的变异;AD=1,3,也就是说支持REF的read有一条,支持ALT的有3条;在PL里,这个位点基因型的不确定性就表现的更突出了,0/1的PL值为0,虽然支持0/1的概率很高;但是1/1的PL值只有26,也就是说还有10(-2.6)=0.25%的可能性是1/1;但几乎不可能是0/0,因为支持0/0的概率只有10(-10.3)=5*10-11。

vcf 格式文件详解相关推荐

  1. XML格式文件详解及Java解析XML文件内容方法

    XML格式文件详解 1.概述 XML,即可扩展标记语言,XML是互联网数据传输的重要工具,它可以跨越互联网任何的平台,不受编程语言和操作系统的限制,可以说它是一个拥有互联网最高级别通行证的数据携带者. ...

  2. Y4M(YUV4MPEG2) 格式文件详解

    Y4M 格式详解 · 扩展名: .y4m · 格式样例: http://samples.mplayerhq.hu/yuv4mpeg2/ YUV4MPEG2 是一种简单的文件格式,它被设计用来保存原始的 ...

  3. Sat格式文件详解翻译

    SAT Save File Format 7.0(Sat文件存储格式7.0) 译者:Mrzhu007 日期:2018年04月13日 博客地址:金色世界 ACIS can store modeling ...

  4. 点云ply格式文件详解

    PLy多边形文件格式,又被称作斯坦福三角形格式,它是一种为了储存计算机多边形图形集对象的格式.它即简单执行又是一个通用程度较高的格式.Ply文件有两种子格式ASCII和二进制形式,ASCII具有简单易 ...

  5. 【音频】Wav格式文件详解

    一,Windows支持两种RIFF(Resource Interchange File Format,"资源交互文件格式")格式的音频文件 MIDI的RMID文件和波形音频文件格式 ...

  6. Linux中/proc目录下文件详解

    Linux中/proc目录下文件详解(一) 声明:可以自由转载本文,但请务必保留本文的完整性. 作者:张子坚 email:zhangzijian@163.com 说明:本文所涉及示例均在fedora ...

  7. linux /proc目录文件详解

    Linux中/proc目录下文件详解(一) /proc文件系统下的多种文件提供的系统信息不是针对某个特定进程的,而是能够在整个系统范围的上下文中使用.可以使用的文件随系统配置的变化而变化.命令proc ...

  8. STM32(Cortex-M3)启动过程+IAR中xcl及icf文件详解

    一:STM32(Cortex-M3)启动过程(入口地址) ARM7和ARM9启动时从绝对地址0X00000000开始执行复位中断程序,即固定了复位后的起始地址,但中断向量表的位置是可变的. Corte ...

  9. /etc/passwd 文件详解

    /etc/passwd  文件详解 /etc/passwd  保存了系统中每一个用户的信息 /etc/passwd 中每个用户的信息占用了一行,也就是说这个文件有多少行,系统就有多少个用户. 要查看系 ...

  10. Linux中/proc目录下文件详解(二)

    Linux中/proc目录下文件详解(二) /proc/mdstat文件 这个文件包含了由md设备驱动程序控制的RAID设备信息. 示例: [root@localhost ~]# cat /proc/ ...

最新文章

  1. 开发一个微信小程序贵不贵,需要花费多少钱?
  2. 配置安全的windows2003服务器
  3. [BZOJ] 3191 [JLOI2013]卡牌游戏
  4. Java两种设计模式_23种设计模式(11)java策略模式
  5. Java文件类字符串getAbsolutePath()方法(带示例)
  6. js解释器rhino查看执行环境
  7. 正整数 n 所有可能的和式的组合
  8. 【原型设计】实用节:Axure RP9 的一些常用的快捷按键组合操作
  9. 终端进入网页_华为云进入IDC MarketScape终端安全检测与响应市场领导者象限
  10. linq To DataTable
  11. 驾驭大数据,全民打飞机(转)
  12. 计算机运算器存储器知识点,计算机一级知识点:运算器、控制器
  13. 我把朋友圈关掉了235天
  14. 读写执行Druapl7 Note-5: 利用FTP安装module或theme时出错(FIXED)
  15. nero burning rom 2021绿色版安装及使用教程
  16. 霍尔传感器的工作原理、分类及应用
  17. ps边框制作教程: ps做框子
  18. win10怎么添加计算机共享的打印机,win10如何添加打印机共享?
  19. 帝国CMS系统自动生成sitemap.xml网站地图的教程
  20. mysql 分离和附加数据库_分离数据库和附加数据库有什么区别

热门文章

  1. SQL查询语句可以执行,但是提示对象名无效
  2. QDataTime格式互转
  3. 传奇地图时间限制脚本_脚本第一课限制进入次数地图设置方法
  4. 5款伊思儷超媒體繁体游戏 中文简体补丁
  5. 基于单片机的水壶自动加热系统_基于单片机电热水壶控制系统的设计
  6. 线下交易如何避免微信和支付宝交易风控
  7. Peoplesoft Pentest
  8. 元气骑士如何获得机器人成就皮肤_元气骑士:新版本皮肤上架,隐藏皮肤这样才能获得,其实很简单...
  9. 逆向分析工具IDA与开源工具Ghidra、Cutter对比测评
  10. 【软件下载】常用安装包下载链接