文章目录

  • 学习材料
  • 1. VCF(Variant Calling Format)

学习材料

  • https://docs.gdc.cancer.gov/Data/File_Formats/VCF_Format/

1. VCF(Variant Calling Format)

VCF文件是常见的文本格式,它包含三个主要内容:

  • meta-information lines(元信息)
  • a head line(列名信息)
  • data lines(包含基因组中某个位点的信息,也包括基因型的信息)
##fileformat=VCFv4.1
##fileDate=20090805
##source=myImputationProgramV3.1
##reference=file:///seq/references/1000GenomesPilot-NCBI36.fasta
##contig=<ID=20,length=62435964,assembly=B36,md5=f126cdf8a6e0c7f379d618ff66beb2da,species="Homo sapiens",taxonomy=x>
##phasing=partial
##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of Samples With Data">
##INFO=<ID=DP,Number=1,Type=Integer,Description="Total Depth">
##INFO=<ID=AF,Number=A,Type=Float,Description="Allele Frequency">
##INFO=<ID=AA,Number=1,Type=String,Description="Ancestral Allele">
##INFO=<ID=DB,Number=0,Type=Flag,Description="dbSNP membership, build 129">
##INFO=<ID=H2,Number=0,Type=Flag,Description="HapMap2 membership">
##FILTER=<ID=q10,Description="Quality below 10">
##FILTER=<ID=s50,Description="Less than 50% of samples have data">
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
##FORMAT=<ID=GQ,Number=1,Type=Integer,Description="Genotype Quality">
##FORMAT=<ID=DP,Number=1,Type=Integer,Description="Read Depth">
##FORMAT=<ID=HQ,Number=2,Type=Integer,Description="Haplotype Quality">
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA00001 NA00002 NA00003
20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0|0:48:1:51,51 1|0:48:8:51,51 1/1:43:5:.,.
20 17330 . T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0|0:49:3:58,50 0|1:3:5:65,3 0/0:41:3
20 1110696 rs6040355 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1|2:21:6:23,27 2|1:2:0:18,2 2/2:35:4
20 1230237 . T . 47 PASS NS=3;DP=13;AA=T GT:GQ:DP:HQ 0|0:54:7:56,60 0|0:48:4:51,51 0/0:61:2
20 1234567 microsat1 GTC G,GTCT 50 PASS NS=3;DP=9;AA=G GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3

这个##符号后解释的信息比较多,可以自己查看手册,这里重点讲解每一列的含义
每份VCF文件有8列是确定的,每一列之间都是以tab分隔符隔开,且缺失数据的位置一般使用**.** 符号来替代数据

  • CHROM-chromosome:染色体
  • POS-position:参考位点的位置,基因组上起始的第一个碱基的位置为1。在每个参考序列的染色体中,位点位置按递增顺序进行数值排序。允许有多个POS相同的记录,端粒用位置0或N+1表示,其中N为对应染色体或重叠群的长度。(要求N为整数)
  • ID-identifier:记录的ID号,可以是SNP的rsid,如果没有id号,每个id号只在一条记录中显示。
  • REF-reference base(s):参考碱基,碱基为A,C,T,G,N中的任一个(不区分大小写),一条记录中的ref列可以有多个碱基,此时POS指的就是碱基字符串中第一个碱基的位置
  • ALT-alternate bases(s) :由逗号分隔的,相对于参考基因组的(变异)碱基
  • QUAL - quality: Phred格式(Phred_scaled)的质量值,可以理解为所call出来的变异位点的质量值。表示在该位点存在variant的可能性;该值越高,则variant的可能性越大;
    计算方法:① Q=-10*lgP,Q表示质量值;P表示这个位点发生错误的概率。
    ②Phred值Q = -10 * lg (1-p) ,p为variant存在的概率;
    通过计算公式可以看出值为10的表示错误概率为0.1,该位点为variant的概率为90%。
    同理,当Q=20时,错误率就控制在了0.01。
  • FILTER - filter status:变异位点的过滤记录。FILTER的PASS代表变异位点通过了过滤,是比较好的标准变异。如果没有通过过滤,就会在FILTER这一栏提示除了PASS的其他信息。如果这一栏是一个“.”的话,就说明没有进行过任何过滤。
  • INFO:其它信息-较多

【生信进阶练习1000days】day10-vcf format相关推荐

  1. 生信识图之 点图进阶-3(MA)

    各位亲爱的土豪富婆,承蒙您慧眼识珠大驾光临大Y老师为您准备的小灶课堂. -----以下是日常碎碎念,日理万机的您,可以直接跳到图图图图分割线享用----- 对于"诈尸式"更新,大Y ...

  2. 生信识图之 点图进阶-6(UMAP)

    各位亲爱的土豪富婆,见字如面. -----以下是日常碎碎念,日理万机的您,可以直接跳到图图图图分割线享用----- 春天来啦,又到了--考研计划的时候.大Y老师不是会把咱们公众号的更新陆续同步到知乎上 ...

  3. 生信识图之 点图进阶-4 (PCA下篇)

    各位亲爱的土豪富婆,承蒙您慧眼识珠大驾光临大Y老师为您准备的小灶课堂. 近期有朋友说发现有人抄袭咱们的文章,自标为"原创".对此大Y老师有心理准备,咱们的每一篇文章都是大Y老师仔细 ...

  4. 生信识图 之 点图进阶-1

    各位亲爱的土豪富婆,承蒙您慧眼识珠大驾光临大Y老师为您准备的小灶课堂. -----以下是日常碎碎念,日理万机的您,可以直接跳到图图图图分割线享用----- 大Y老师做生信分析十多年了,在此期间结识很多 ...

  5. 生信分析矫正P值_生物信息分析:从入门到精(fang)通(qi) 第1期FASTQ! BAM! VCF! 傻傻分不清楚...

    生信小白:肉哥,上次听完你的介绍,我满脑子跟这张图片一样...凌乱?!我们为什么不一次性把整本书读取了,非要把这本书撕碎呢? 西克孚肉:这主要受限于技术,测序仪一次只能读取几百.几千.几万个碱基,这与 ...

  6. .md是什么文件_生信中常见的数据文件格式

    TCGA | GEO | 文献阅读 | 数据库 | 理论知识 R语言 | Bioconductor | 服务器与Linux 前面我们介绍了各种测序技术的原理:illumina.Sanger.第三代和第 ...

  7. 生信人的自我修养:Linux 命令速查手册

    标题:生信人的自我修养:Linux 命令速查手册 目标:致力于为生信人打造一个完整的 Linux 命令速查手册 作者:简佐义(jianzuoyi@qq.com) 版本:1.0 日期:2020-11-2 ...

  8. 【生信】常见测序数据格式

    [生信]常见测序数据格式 文章的文字与图片全部/部分来源网络或学术论文,文章会持续修缮更新,仅供大家学习使用. 目录 [生信]常见测序数据格式 1.FASTA 2.FASTQ 3.GFF 4.BED ...

  9. 生信技能-高通量测序工具bam、samtools、bedtools及conda的下载和安装

    一.BWA 1.介绍 简介:用于建立 index:基于 BWT 算法,将 reads 比对到参考基因组:最新版本 bwa-mem2,Intel实验室对计算效率进行了优化. 详情:baw是一款将序列比对 ...

  10. 生信分析流程构建的几大流派

    导言 构建生信分析流程是生物信息学从业人员必备的技能之一,对该项能力的评估常常是各大公司招录人员的参考项目之一. 在进行 ngsjs 项目时,我做了一张示意图来表示一些高通量测序数据分析项目重现性的要 ...

最新文章

  1. js删除组数中的某一个元素(完整代码附效果图)
  2. 计算机仿真和vr的区别,AR对比VR有何不同?你能分清楚他们的区别么
  3. 构建之法阅读笔记06
  4. 《leetcode》reverse-integer
  5. mysql查看服务器CPU和内存_怎么查看服务器的cpu和内存的硬件信息
  6. linux c 密码 星号,Linux C : 登录密码星号 * 显示,包含能回退 backspace
  7. 超级终端连接华为交换机_Win8系统如何使用超级终端连接华为交换机?
  8. 金融现金贷用户数据分析和用户画像(基于12万真实数据)
  9. NUVOTON新唐单片机使用入门
  10. 2022年数学建模国赛c题论文+代码(附详解)
  11. 新福克斯刷隐藏功能简明教程(转)
  12. Ingress基本故障排除方法
  13. spring结合时,web.xml的配置
  14. FFmpeg压缩MP4视频命令
  15. 【转】三款免费的在线项目管理工具
  16. 网页嵌入Twitter的推文
  17. python c++情侣网名是什么意思_“果然,他用的是情侣网名!”
  18. cookbook 6.1 温标的转换
  19. weblogic反序列化
  20. 趣味问题:农夫分牛(有关浮点数的讨论)

热门文章

  1. C#常用操作类库一(验证类)
  2. practice:win2008 core基本管理(一)
  3. 三年级下册我想发明的机器人_我想发明的机器人作文300字
  4. junit可执行但控制层无法执行_解决junit5无法使用gradle test运行测试
  5. python输入输出格式_Python基础-用户的输入及格式化输出 | 【韩涛博客】
  6. c++ 调用windows tts_有关调用约定的历史 – 第三部分
  7. python ** 运算符_Python学习第二天--运算符小结
  8. 计算机二级怎么让试题变简单,如何有效利用历年真题备考全国计算机等级考试?...
  9. 与原子操作相关的 volatile 和 sig_atmotic_t
  10. python生成折线图怎么对特定点做颜色_python库matplotlib绘制折线图,散点图以及设置样式...