VAF的概念和计算方法

VAF的全称是Variant Allele Frequency(变异等位基因频率)或Variant Allele Fraction(变异等位基因分数)。简单来说就是在基因组某个位点支持alternate/mutant allele的reads覆盖深度占这个位点总reads覆盖深度的比例。以VCF文件中的字段为例,其中DP代表Total Depth,AD代表Allele Depth,因此VAF的计算就是:

VAF=AlleleDepthTotalDepth=ADDPVAF = \frac{Allele Depth}{Total Depth} = \frac{AD}{DP}VAF=TotalDepthAlleleDepth​=DPAD​

VAF用得比较多的地方是在二倍体germline的genotyping中,杂合位点的VAF在高深度(比如depth>80)情况下应该接近50%;如果VAF接近0.25/0.75说明基因组上可能还有另一份拷贝。另一个应用场景就是癌症基因组的somatic genotyping。肿瘤组织、cfDNA、ctDNA、CTC genotyping的结果中会包含正常的allele(与正常体细胞一致)以及突变的allele,其中突变allele的所占的比例就是VAF。VAF可以用于推断肿瘤的异质性和肿瘤纯度,此外VAF的高低可能会影响癌症的预后。

MAF的概念和计算方法

MAF的全称是Minor Allele Frequency(次等位基因频率),是群体遗传学中的概念。MAF描述的是群体中丰度次高(第二高)的allele的频率。打个比方,在1000个人的群体中,某个位点有3种碱基类型:A、C、G。其中A碱基的频率是0.6,C碱基频率0.3,G碱基频率0.1,那么次等位基因频率指的就是C碱基的频率0.3。MAF可以用来区分某个allele是常见的多态性还是稀有变异。

要注意的是MAF在生物信息学中可能还指代Mutation Annotation Format、Multiple Alignment Format,也看到有人用mutant allele frequency表述VAF的概念,所以一定要注意区分。

肿瘤纯度的概念和计算方法

肿瘤纯度(tumor purity)指的是样本中肿瘤细胞占所有细胞的比例。因为取样过程很难保证取到的所有细胞都是肿瘤细胞,并且混杂的正常体细胞会对后续的分析产生影响(比如基因的表达水平),因此在生物信息学分析中最好计算肿瘤纯度并做相应的校正。常用的估算肿瘤纯度的生物信息学工具有:ABSOLUTE、PyClone、SciClone、EXPANDS、ESTIMATE等。

MCF的概念和计算方法

MCF(Mutant Cell Fraction)指的是包含某个SNV的细胞比例。在简化模型下——不考虑CNV,并且是二倍体杂合SNV的时候,MCF就是VAF的2倍:

MCF=VAF∗2MCF = VAF * 2 MCF=VAF∗2

CCF的概念和计算方法

CCF(Cancer Cell Fraction)指的是肿瘤细胞中包含某个SNV的细胞所占比例。CCF和MCF之间也可以换算,设肿瘤纯度为α,在不考虑CNV,并且是二倍体杂合SNV时:

CCF=MCFαCCF = \frac{MCF}{\alpha} CCF=αMCF​

原文链接: https://byteofbio.com/archives/7.html

另外一篇关于VAF的博文也有些意义:

在VCF文件中,通常以AD这个字段表示allel的测序深度,多个allel的测序深度用逗号连接,DP表示该位点总的测序深度, 举例如下。

AD = 4,8
DP = 12

AD这个字段有4和8两个allel, 在二倍体生物中,第一个数字代表ref allel的测序深度,第二个数字代表alt allel的测序深度,所以该位点在该样本中的VAF=8/12。

对于突变位点而言,还有一个频率,称之为MAF, 全称是Minor Allel Frequency, 描述的是次等位基因在人群中的频率,从这里也可以看出VAF和MAF的不同支持,这两个概念都是针对allel 频率而言的,MAF描述的是allel在人群中的频率,而VAF描述的是allel在某个样本中的频率。

VAF的值的大小有什么含义呢?以二倍体生物为例,假设所有的细胞中该位点都是杂合的,那么50%的染色体上包含了ref allel, 另外50%的染色体上包含了alt allel, 则测序结果中该位点的VAF值应该为0.5。对于germline genotype而言,一个可靠的突变位点其VAF的值应该在0.5附近。

如果VAF偏离0.5很多,说明对应的染色体区域在细胞中不在是两拷贝了,比如VAF的值为0.25, 说明包含alt allel的染色体占1/4, ref allel的染色体占3/4, 按照所有细胞突变情况完全一致的假设,只有当每个细胞中出现了三份拷贝,两份拷贝是ref allel, 一份拷贝是alt allel时,会出现0.25的情况。

对于生殖变异的检测,认为其VAF的偏移来源于拷贝数的变化,对于体细胞检测而言,更多的认为VAF的偏移来源于肿瘤细胞的异质性。在肿瘤组织取样时,不可避免的会混入正常的体细胞,而且考虑到肿瘤微环境本身的复杂性,在肿瘤组织中也会浸润诸如免疫细胞等其他细胞类型,肿瘤细胞本身也可以划分为不同的亚型,考虑到以上种种因素,肿瘤样本是一个多种细胞类型的混合物,更多的认为其VAF的偏移来源于不同细胞类型占比的变化。

在进一步简化这个模型,将肿瘤样本划分为正常体细胞和肿瘤细胞两种,ref allel等于正常细胞x2 + 肿瘤细胞, alt allel 等于肿瘤细胞,VAF的值就可以反映肿瘤细胞和正常细胞的比例,可以用来推测肿瘤纯度。在肿瘤基因组研究中,还会将VAF当做一个marker, 取样本中所有位点VAF的均值当做一个指标,可以比较不同分组,不同肿瘤中VAF分布的差异,也可以根据VAF的高低将样本分组进行生存分析。

原文链接 : https://cloud.tencent.com/developer/article/1556025

VAF,MAF,肿瘤纯度,MCF,CCF的概念和计算方法 (转载)相关推荐

  1. 【生物信息】ESTIMATE 分析免疫评分和肿瘤纯度

    ESTIMATE 分析免疫评分和肿瘤纯度 背景: 从病人身上获取的肿瘤组织不仅仅包括包括肿瘤细胞,还包括与肿瘤微环境相关的很多其他细胞,比如正常的基质细胞,免疫细胞.血管内皮和血管内的血细胞. 其中比 ...

  2. Front Immunol 复现 | 4. 使用estimate包评估肿瘤纯度

    前几天有同学问了一篇文章里的一个方法的实现,看了一下这篇文章除了qPCR验证基本都是纯生信,今天就试着来复现一下.随缘复现哈,如果阅读数据不好看的话,可能就放弃了,希望大家多多点赞.在看,转发支持. ...

  3. ESTIMATE包计算肿瘤纯度

    介绍 肿瘤组织中的正常细胞不仅在分子研究中影响肿瘤信号,而且在癌症生物学中也起着重要作用. 估计包使用基因表达数据预测肿瘤组织中基质细胞和免疫细胞的存在. 示例 首先使用通过Affymetrix U13 ...

  4. 系统吞吐量(TPS)、用户并发量、性能测试概念和公式(转载)

    原文地址:http://www.ha97.com/5095.html PS:下面是性能测试的主要概念和计算公式,记录下: 一.系统吞度量要素: 一个系统的吞度量(承压能力)与request对CPU的消 ...

  5. Data guard概念篇一(转载)

    本文转载至以下链接,感谢作者分享! http://tech.it168.com/db/2008-02-14/200802141545840_1.shtml 一.Data Guard配置(Data Gu ...

  6. 特征值分解、奇异值分解、PCA概念整理(转载)

    版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/jinshengtao/article/details/18448355 本文将分别介绍特征值分解.奇 ...

  7. 【原码, 反码, 补码的基础概念和计算方法】

    数值在计算机中是以补码的方式存储的,在探求为何计算机要使用补码之前, 让我们先了解原码, 反码和补码的概念. 原码就是符号位加上数字的二进制表示, 即用第一位表示符号, 其余位表示值. 反码的表示方法 ...

  8. 按位取反的概念和计算方法

    读本文前请首先搞懂  "反码","取反","按位取反(~)",这3个概念是不一样的. 取反:0变1,1变0 反码:正数的反码是其本身,对于负 ...

  9. 钢绞线弹性模量怎么计算_预应力钢绞线的弹性模量概念及计算方法 - 新闻中心 - 湖南汇赢钢铁科技公司...

    在了解钢绞线弹性模量的计算方法之前,我们先来回顾下预应力钢绞线的概念.预应力钢绞线全称预应力混凝土用钢绞线,该产品主要用于预应力混凝土结构配筋用.如大跨度铁路和公路的桥梁.吊车梁.岩土锚固工程.多层工 ...

最新文章

  1. 设置VSCode打开键盘快捷方式和键盘快捷方式配置JSON分别快捷键为:Ctrl+Alt+K和Shift+Alt+K
  2. Android 腾讯入门教程( 智能手表UI设计 和 MVC模式 )
  3. Cesium学习笔记(五):3D 模型 (http://blog.csdn.net/umgsoil/article/details/74572877)
  4. PHP + mysql 对日期的操作
  5. Ibatis - Open quote is expected for attribute {1} associated with an element type '
  6. linux系列之 SSH
  7. Managing the Activity Lifecycle
  8. 织梦支持html5吗,自动更新HTML FOR DedeCMS V5.3(支持首页,列表页,文章页)
  9. 南昌大学计算机接收调剂的条件,关于2018年河南昌大学学硕士研究生接收调剂程序及要求的须知详情...
  10. (06)vtk修改默认鼠标操作,实现鼠标按键控制模型旋转
  11. Spring Security的HTTP基本验证示例
  12. 看漫画学python 电子书_看漫画学Python电子版(mobi azw3 epub)
  13. Java 打印100以内的所有奇数和偶数
  14. 剩余电流互感器互感电流放大转真有效值
  15. 第一次让你从一架纸飞机的角度看世界
  16. BF的数据结构题单-提高组——P1783 海滩防御
  17. Linux中etc目录详解大全总汇详解
  18. seajs学习(1)----什么是系统
  19. 2设置使用 Yocto 项目
  20. C语言 strcpy 和 strcpy_s 函数区别 - C语言零基础入门教程

热门文章

  1. linux startx无效_startx命令_Linux startx 命令用法详解:用来启动X Window
  2. 银行统一支付平台(介绍、架构)
  3. chrome提示代理(https://....)要求提供用户名和密码
  4. android 微信 耗电吗,微信太耗电了怎么办?微信耗电的两种解决方案
  5. java 3D学习笔记
  6. 【shell】How can I create a select menu in a shell script?
  7. 涂涂乐的详细实现之三--文件IO操作
  8. 自己制作dns解析服务器,如何使用自己的DNS服务器解析域名,架设自己的DNS服务器...
  9. ggplot绘制时间相关性折线图和面积图(2)
  10. 全新UI宝宝起名神器小程序源码+样式非常美观