欢迎关注”生信修炼手册”!

Mutation Annotation Format, 简称MAF, 是由TCGA制定的一种文件格式,用来存储突变注释信息。在TCGA中,对于突变数据有以下四种类型

  1. Annotated Somatic Mutation, 体细胞突变的注释文件,格式为VCF, 采用VEP软件进行注释,文件后缀为vep.vcf.gz

  2. Raw Simple Somatic Mutation, 体细胞突变的原始文件,格式为VCF, 文件后缀为vcf.gz

  3. Aggregated Somatic Mutation, protected的突变注释文件,需要账号和权限才可以下载,格式为MAF, 文件后缀为maf.gz

  4. Masked Somatic Mutation, open access的突变注释文件,免费下载的,格式为MAF, 文件后缀为maf.gz

在TCGA中,VCF通常用于记录单个样本的体细胞突变相关结果,MAF用于整合所有样本的体细胞突变注释结果,所以称MAF格式为project-level, 根据数据的开放性,又分为protected和open access, 其中open access就是我们可以直接下载得到的MAF文件, 以乳腺癌为例,在TCGA中提供了4个MAF文件

对应4个不同的体细胞突变calling软件,每个文件中包含了1044个样本的体细胞SNV注释结果。

MAF和VCF类似,也是一个纯文本的格式,由\t分隔的许多列构成,从GDC下载的MAF文件的截图如下

#开头的为注释行,其他部分为正文,每一列有一个固定的表头, 完整的MAF共有100多列,在实际处理中,我们可能没有这么多列的信息,常用的几列解释如下

  1. column1, Hugo_Symbol, 由HUGO提供的gene  symbol, 表示SNV所在的基因名称

  2. column 2,Entrez_Gene_id, SNV所在基因的entrez  id, 如果没有对应的基因,则用0表示

  3. column 4,NCBI_Build, snv calling时使用的参考基因组版本

  4. column5,Chromsome, SNV所在的染色体

  5. column6,Start_Position, SNV在染色体上的起始位置

  6. column7,End_Position,SNV在染色体上的终止位置

  7. column9,Variant_Classification, SNV位点的分类,Missense_Mutation,Nonsense_Mutation等类别,分类的依据为SNV对翻译的影响

  8. column10,Variant_Type,  SNV位点的类型,比如SNP, INS,DEl等类型

  9. column11,Reference_Allel, 参考基因组上的allel

  10. column12,Tumor_Seq_Allel1, 肿瘤样本中该位点对应的主等位基因

  11. column13,Tumor_Seq_Allel2,肿瘤样本中该位点对应的次等位基因

  12. column16,Tumor_Sample_Barcode, 肿瘤样本的barcode

  13. column17,Tumor_Normal_Barcode,配对的正常样本的barcode

每一列的详细含义见如下链接

https://docs.gdc.cancer.gov/Data/File_Formats/MAF_Format/

MAF是专门针对human定义的一种文件格式,通过一个文件就可以包含所有样本的SNV和对应的注释信息,对于下游分析而言,非常的方便。在实际使用中, 对于VCF文件,可以通过vcf2maf将其转换为MAF格式,在后续文章中会具体介绍该软件的用法。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

MAF:Mutation Annotation Format格式简介相关推荐

  1. 音频格式简介和PCM转换成WAV

    1 音频格式简介 AudioRecord录制的音频文件格式为PCM,MediaPlayer无法播放PCM格式文件,AudioTrack可以播放PCM格式文件. PCM(Puls Code Modula ...

  2. 图形图像相关格式简介

    格式简介: 1.BMP:英文(Bitmap)Windows操作系统中的标准图像文件格式,本身是不压缩文件.BMP文件存储数据时,图像的扫描方式是按从左到右.从下到上的顺序.颜色深度位数可以是1bit. ...

  3. python中的format什么意思中文-Python中format()格式输出全解

    格式化输出:format() format():把传统的%替换为{}来实现格式化输出 1.使用位置参数:就是在字符串中把需要输出的变量值用{}来代替,然后用format()来修改使之成为想要的字符串, ...

  4. [转载]LEB128格式简介(CN)

    [转载]LEB128格式简介(CN) LEB128即"Little-Endian Base 128",基于128的小印第安序编码格式,是对任意有符号或者无符号整型数的可变长度的编码 ...

  5. RGB与YUV格式简介

    (1) RGB格式简介 RGB色彩模式是一种颜色标准,是通过对红(R).绿(G).蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的.图像中每一个像素的RGB分量都分配一个0~25 ...

  6. [转载] Python format()格式:中文对齐问题

    参考链接: Python format() :<填充><对齐><宽度>,<精度><类型>引导符号填充单个字符,表示所创槽区域空余部分的填充 ...

  7. SDI视频数据流格式简介(频率、速率、YUV、EAV、SAV)

    文章目录 SDI视频格式简介 SDI视频流数据格式 示意图 SDI视频格式简介 ​ 常见的SDI视频格式主要包括SD-SDI.HD-SDI.3G-SDI三种,其比特率依次增加,也对应着不同分辨率和刷新 ...

  8. http报文格式简介

    前端和后端的沟通其实和我们生活中人与人之间的沟通是一样的,也是一种通信,只不过是计算机之间的通信.人与人之间之所以能沟通是因为我们遵循了同一种规则(协议)--语言.通信的双方只有遵循一种共同的通信协议 ...

  9. Java JSON格式简介说明

    转自: Java JSON格式简介说明 下文笔者讲述java中JSON格式的相关简介说明,如下所示: JSON简介说明 JSON(JavaScript Object Notation) 是一种轻量级的 ...

  10. json格式简介和相关操作

    前言:在日常工作中,我们常常会使用json做一些数据的处理,那了解json的一些基础知识和相关操作就尤为重要,本篇就是对于json格式的概括介绍和简单使用. 1.json格式简介 1.1 json基本 ...

最新文章

  1. angular 字符串转换成数字_蓝盟IT外包,Python算法的一般技术和嵌入式库|python|字符串|key|算法|调用...
  2. php5.3.6安装教程,apache2.2.19+php5.3.6配置教程
  3. 001_Gson概述
  4. xampp php源码的路径,php – XAMPP中的根路径
  5. Spread表格组件For JAVA功能介绍—表格相关操作
  6. Socket网络编程--简单Web服务器(6)
  7. python服务端语言_使用Python实现简单的服务器功能
  8. reids笔记4 集群
  9. mysql connector net 6.9.5_mysql connector/net6.9.5 下载 - 51下载网
  10. c++优先队列小节(常常弄混)
  11. matlab 调制识别,调制方式识别仿真
  12. Datalogic得利捷携突破性无线充电技术推出三款最新产品
  13. java 异或表示状态
  14. java微信登录_java微信授权登陆
  15. 微信支付页面不显示以及空白页error -1
  16. ping某个域名的详细过程
  17. oracle分区注意点,ORACLE分区表梳理系列(二)- 分区表日常维护及注意事项
  18. 如何评价双CPU的电脑?好用吗?
  19. 往者不可谏,来者犹可追,记2020第二个十年年终总结
  20. 【Python】Word文档重复字检测程序

热门文章

  1. H2GIS读取GPX文件 测试 GPXRead
  2. java restsharp_RestSharp使用总结
  3. http状态码大全(最全整理)
  4. Arcgis拓扑检查必须相互覆盖操作步骤
  5. 嵌入式系统安全实验-下载Linux内核源代码生成内核映像
  6. servlet使用jsp内置对象
  7. 利用SPSS做数据分析②之数据处理1
  8. 专访李运华:程序员如何在技术上提升自己
  9. 佛系程序员的月薪五万指南 -- 作者|李运华
  10. tcp 三次握手和四次断连深入分析:连接状态和socket API的关系----BAT 李运华