【生信进阶练习1000days】day10-vcf format
文章目录
- 学习材料
- 1. VCF(Variant Calling Format)
学习材料
- https://docs.gdc.cancer.gov/Data/File_Formats/VCF_Format/
1. VCF(Variant Calling Format)
VCF文件是常见的文本格式,它包含三个主要内容:
- meta-information lines(元信息)
- a head line(列名信息)
- data lines(包含基因组中某个位点的信息,也包括基因型的信息)
##fileformat=VCFv4.1
##fileDate=20090805
##source=myImputationProgramV3.1
##reference=file:///seq/references/1000GenomesPilot-NCBI36.fasta
##contig=<ID=20,length=62435964,assembly=B36,md5=f126cdf8a6e0c7f379d618ff66beb2da,species="Homo sapiens",taxonomy=x>
##phasing=partial
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency">
##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele">
##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129">
##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership">
##FILTER=<ID=q10,Description="Quality below 10">
##FILTER=<ID=s50,Description="Less than 50% of samples have data">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">
##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality">
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003
20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:.,.
20 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 0/0:41:3
20 1110696 rs6040355 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4
20 1230237 . T . 47 PASS NS=3;DP=13;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:2
20 1234567 microsat1 GTC G,GTCT 50 PASS NS=3;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3
这个##符号后解释的信息比较多,可以自己查看手册,这里重点讲解每一列的含义
每份VCF文件有8列是确定的,每一列之间都是以tab分隔符隔开,且缺失数据的位置一般使用**.
** 符号来替代数据
- CHROM-chromosome:染色体
- POS-position:参考位点的位置,基因组上起始的第一个碱基的位置为1。在每个参考序列的染色体中,位点位置按递增顺序进行数值排序。允许有多个POS相同的记录,端粒用位置0或N+1表示,其中N为对应染色体或重叠群的长度。(要求N为整数)
- ID-identifier:记录的ID号,可以是SNP的rsid,如果没有id号,每个id号只在一条记录中显示。
- REF-reference base(s):参考碱基,碱基为A,C,T,G,N中的任一个(不区分大小写),一条记录中的ref列可以有多个碱基,
此时POS指的就是碱基字符串中第一个碱基的位置
- ALT-alternate bases(s) :由逗号分隔的,相对于参考基因组的(变异)碱基
- QUAL - quality: Phred格式(Phred_scaled)的质量值,可以理解为所call出来的变异位点的质量值。表示在该位点存在variant的可能性;
该值越高,则variant的可能性越大;
计算方法:① Q=-10*lgP,Q表示质量值;P表示这个位点发生错误的概率。
②Phred值Q = -10 * lg (1-p) ,p为variant存在的概率;
通过计算公式可以看出值为10的表示错误概率为0.1,该位点为variant的概率为90%。
同理,当Q=20时,错误率就控制在了0.01。 - FILTER - filter status:变异位点的过滤记录。FILTER的PASS代表变异位点通过了过滤,是比较好的标准变异。如果没有通过过滤,就会在FILTER这一栏提示除了PASS的其他信息。如果这一栏是一个“.”的话,就说明没有进行过任何过滤。
- INFO:其它信息-较多
【生信进阶练习1000days】day10-vcf format相关推荐
- 生信识图之 点图进阶-3(MA)
各位亲爱的土豪富婆,承蒙您慧眼识珠大驾光临大Y老师为您准备的小灶课堂. -----以下是日常碎碎念,日理万机的您,可以直接跳到图图图图分割线享用----- 对于"诈尸式"更新,大Y ...
- 生信识图之 点图进阶-6(UMAP)
各位亲爱的土豪富婆,见字如面. -----以下是日常碎碎念,日理万机的您,可以直接跳到图图图图分割线享用----- 春天来啦,又到了--考研计划的时候.大Y老师不是会把咱们公众号的更新陆续同步到知乎上 ...
- 生信识图之 点图进阶-4 (PCA下篇)
各位亲爱的土豪富婆,承蒙您慧眼识珠大驾光临大Y老师为您准备的小灶课堂. 近期有朋友说发现有人抄袭咱们的文章,自标为"原创".对此大Y老师有心理准备,咱们的每一篇文章都是大Y老师仔细 ...
- 生信识图 之 点图进阶-1
各位亲爱的土豪富婆,承蒙您慧眼识珠大驾光临大Y老师为您准备的小灶课堂. -----以下是日常碎碎念,日理万机的您,可以直接跳到图图图图分割线享用----- 大Y老师做生信分析十多年了,在此期间结识很多 ...
- 生信分析矫正P值_生物信息分析:从入门到精(fang)通(qi) 第1期FASTQ! BAM! VCF! 傻傻分不清楚...
生信小白:肉哥,上次听完你的介绍,我满脑子跟这张图片一样...凌乱?!我们为什么不一次性把整本书读取了,非要把这本书撕碎呢? 西克孚肉:这主要受限于技术,测序仪一次只能读取几百.几千.几万个碱基,这与 ...
- .md是什么文件_生信中常见的数据文件格式
TCGA | GEO | 文献阅读 | 数据库 | 理论知识 R语言 | Bioconductor | 服务器与Linux 前面我们介绍了各种测序技术的原理:illumina.Sanger.第三代和第 ...
- 生信人的自我修养:Linux 命令速查手册
标题:生信人的自我修养:Linux 命令速查手册 目标:致力于为生信人打造一个完整的 Linux 命令速查手册 作者:简佐义(jianzuoyi@qq.com) 版本:1.0 日期:2020-11-2 ...
- 【生信】常见测序数据格式
[生信]常见测序数据格式 文章的文字与图片全部/部分来源网络或学术论文,文章会持续修缮更新,仅供大家学习使用. 目录 [生信]常见测序数据格式 1.FASTA 2.FASTQ 3.GFF 4.BED ...
- 生信技能-高通量测序工具bam、samtools、bedtools及conda的下载和安装
一.BWA 1.介绍 简介:用于建立 index:基于 BWT 算法,将 reads 比对到参考基因组:最新版本 bwa-mem2,Intel实验室对计算效率进行了优化. 详情:baw是一款将序列比对 ...
- 生信分析流程构建的几大流派
导言 构建生信分析流程是生物信息学从业人员必备的技能之一,对该项能力的评估常常是各大公司招录人员的参考项目之一. 在进行 ngsjs 项目时,我做了一张示意图来表示一些高通量测序数据分析项目重现性的要 ...
最新文章
- js删除组数中的某一个元素(完整代码附效果图)
- 计算机仿真和vr的区别,AR对比VR有何不同?你能分清楚他们的区别么
- 构建之法阅读笔记06
- 《leetcode》reverse-integer
- mysql查看服务器CPU和内存_怎么查看服务器的cpu和内存的硬件信息
- linux c 密码 星号,Linux C : 登录密码星号 * 显示,包含能回退 backspace
- 超级终端连接华为交换机_Win8系统如何使用超级终端连接华为交换机?
- 金融现金贷用户数据分析和用户画像(基于12万真实数据)
- NUVOTON新唐单片机使用入门
- 2022年数学建模国赛c题论文+代码(附详解)
- 新福克斯刷隐藏功能简明教程(转)
- Ingress基本故障排除方法
- spring结合时,web.xml的配置
- FFmpeg压缩MP4视频命令
- 【转】三款免费的在线项目管理工具
- 网页嵌入Twitter的推文
- python c++情侣网名是什么意思_“果然,他用的是情侣网名!”
- cookbook 6.1 温标的转换
- weblogic反序列化
- 趣味问题:农夫分牛(有关浮点数的讨论)
热门文章
- C#常用操作类库一(验证类)
- practice:win2008 core基本管理(一)
- 三年级下册我想发明的机器人_我想发明的机器人作文300字
- junit可执行但控制层无法执行_解决junit5无法使用gradle test运行测试
- python输入输出格式_Python基础-用户的输入及格式化输出 | 【韩涛博客】
- c++ 调用windows tts_有关调用约定的历史 – 第三部分
- python ** 运算符_Python学习第二天--运算符小结
- 计算机二级怎么让试题变简单,如何有效利用历年真题备考全国计算机等级考试?...
- 与原子操作相关的 volatile 和 sig_atmotic_t
- python生成折线图怎么对特定点做颜色_python库matplotlib绘制折线图,散点图以及设置样式...