Deseq的理论基础

原文:Differential Expression Analysis for Sequence Count Data by Anders and Huber 2010

写篇博文简单总结一下这个模型的统计方法。首先,Deseq的目标是给定基因,检验不同组的read counts是否存在显著差别。如果reads是互相独立的,那么read counts服从二项分布,可以由Poisson分布近似(当the probability of read足够小,且样本数足够大时),所以Poisson分布曾被广泛用于count data analysis。但Poisson分布是单参数分布,它的参数除了决定reads的频率外,同样决定了其均值和方差,所以让read counts服从Poisson的假设非常严格,并且均值和方差相等的假设也会造成overdispersion problem,为了避免Poisson分布可能带来的问题,学界采用了负二项分布作为替换。原文也继承了这样的思想,用负二项分布对read counts建模,下面我们开始讨论Deseq的细节。


模型

Number of reads in sample jjj that are assigned to gene iii记为KijK_{ij}Kij​,假设
Kij∼NB(μij,σij2)K_{ij} \sim NB(\mu_{ij},\sigma^2_{ij})Kij​∼NB(μij​,σij2​)

其中μij\mu_{ij}μij​代表均值,σij2\sigma_{ij}^2σij2​代表方差。

  • 通常我们用试验成功的次数rrr与成功概率ppp作为负二项分布的参数,mass function为
    f(k)=(k+r−1r−1)pr(1−p)kf(k)=\left( \begin{matrix} k+r-1 \\ r-1 \end{matrix} \right)p^r(1-p)^kf(k)=(k+r−1r−1​)pr(1−p)k将参数用均值和方差替换:p=μijσij2,r=μij2σij2−μijp=\frac{\mu_{ij}}{\sigma_{ij}^2},r = \frac{\mu_{ij}^2}{\sigma_{ij}^2-\mu_{ij}}p=σij2​μij​​,r=σij2​−μij​μij2​​可以得到read counts的mass function f(kij)=(kij+μij2σij2−μij−1μij2σij2−μij−1)(μijσij2)μij2σij2−μij(1−μijσij2)kijf(k_{ij})=\left( \begin{matrix} k_{ij}+ \frac{\mu_{ij}^2}{\sigma_{ij}^2-\mu_{ij}}-1 \\ \frac{\mu_{ij}^2}{\sigma_{ij}^2-\mu_{ij}}-1 \end{matrix} \right)\left(\frac{\mu_{ij}}{\sigma_{ij}^2} \right)^{\frac{\mu_{ij}^2}{\sigma_{ij}^2-\mu_{ij}}}\left(1-\frac{\mu_{ij}}{\sigma_{ij}^2} \right)^{k_{ij}}f(kij​)=⎝⎛​kij​+σij2​−μij​μij2​​−1σij2​−μij​μij2​​−1​⎠⎞​(σij2​μij​​)σij2​−μij​μij2​​(1−σij2​μij​​)kij​

  • 假设μij=qi,ρ(j)⋅sj\mu_{ij}=q_{i,\rho(j)} \cdot s_jμij​=qi,ρ(j)​⋅sj​,其中sjs_jsj​是size factor,它代表样本jjj对基因的覆盖程度,qi,ρ(j)q_{i,\rho(j)}qi,ρ(j)​中下标ρ(j)\rho(j)ρ(j)代表sample jjj的experiment condition,所以qi,ρ(j)q_{i,\rho(j)}qi,ρ(j)​是condition-dependent value of gene iii,代表expression strength,它与true concentration of fragments of gene iii under condition ρ(j)\rho(j)ρ(j)的期望成正比;

  • 假设σij2=μij⏟shot noise+sj2vi,ρ(j)⏟raw variance\sigma^2_{ij}=\underbrace{\mu_{ij}}_{\text{shot\ noise}}+\underbrace{s_j^2v_{i,\rho(j)}}_{\text{raw\ variance}}σij2​=shot noiseμij​​​+raw variancesj2​vi,ρ(j)​​​ 其中vi,ρ(j)v_{i,\rho(j)}vi,ρ(j)​是关于qi,ρ(j)q_{i,\rho(j)}qi,ρ(j)​的平滑函数,这个假设的作用是pool the data,因为在估计单个gene的方差时,样本数很可能不足以保证估计量的质量,所以加这个假设使得在做单个gene的方差估计时可以borrow information from entire dataset。

参数估计
考虑data {kij}i=1,j=1i=n,j=m\{k_{ij}\}_{i=1,j=1}^{i=n,j=m}{kij​}i=1,j=1i=n,j=m​,上述模型中需要估计的参数及其估计量如下

  • size factor {sj}j=1m\{s_j\}_{j=1}^m{sj​}j=1m​,估计量为
    s^j=medianikij(∏v=1mkiv)1m\hat s_j = \text{median}_i \frac{k_{ij}}{(\prod_{v=1}^m k_{iv})^{\frac{1}{m}}}s^j​=mediani​(∏v=1m​kiv​)m1​kij​​这是一个没用统计方法的,人为构造出来的估计,首先要明确sjs_jsj​代表样本jjj的数据能覆盖多少基因片段,因此给定基因iii,用kij(∏v=1mkiv)1m\frac{k_{ij}}{(\prod_{v=1}^m k_{iv})^{\frac{1}{m}}}(∏v=1m​kiv​)m1​kij​​代表样本jjj与所有样本在此基因上的coverage的比值,再取这一系列{kij(∏v=1mkiv)1m}\{\frac{k_{ij}}{(\prod_{v=1}^m k_{iv})^{\frac{1}{m}}}\}{(∏v=1m​kiv​)m1​kij​​}的中位数作为样本jjj对所有基因片段coverage的平均水平,用median是因为count data的variation可能比较大,为了让估计量更稳健而选择中位数;
  • expression strength {qi,ρ}i=1n\{q_{i, \rho}\}_{i=1}^n{qi,ρ​}i=1n​ given ρ\rhoρ,估计量为q^i,ρ=1mρ∑j:ρ(j)=ρkijs^j\hat q_{i,\rho}=\frac{1}{m_{\rho}}\sum_{j:\rho(j)=\rho} \frac{k_{ij}}{\hat s_j}q^​i,ρ​=mρ​1​j:ρ(j)=ρ∑​s^j​kij​​其中mρm_{\rho}mρ​代表number of replicates of condition ρ\rhoρ,这个估计量就是对基因iii的所有用size factor做了rescaling的count的平均值
  • smooth function vi,ρ(qi,ρ(j)):R+→R+v_{i,\rho}(q_{i,\rho(j)}):\mathbb R^+ \to \mathbb R^+vi,ρ​(qi,ρ(j)​):R+→R+,它的估计量为v^ρ=wρ(q^i,ρ)−zi,ρ\hat v_{\rho}=w_{\rho}(\hat q_{i,\rho})-z_{i,\rho}v^ρ​=wρ​(q^​i,ρ​)−zi,ρ​ 其中wρw_{\rho}wρ​是sample variance on the common scale,zi,ρz_{i,\rho}zi,ρ​是一个bias correction termwρ(q^i,ρ)=1mρ−1∑j:ρ(j)=ρ(kijs^j−q^i,ρ)2,zi,ρ=q^i,ρmρ∑j:ρ(j)=ρ1s^jw_{\rho}(\hat q_{i,\rho})=\frac{1}{m_{\rho}-1}\sum_{j:\rho(j)=\rho} \left(\frac{k_{ij}}{\hat s_j} -\hat q_{i,\rho}\right)^2,z_{i,\rho}=\frac{\hat q_{i,\rho}}{m_{\rho}}\sum_{j:\rho(j)=\rho} \frac{1}{\hat s_j}wρ​(q^​i,ρ​)=mρ​−11​j:ρ(j)=ρ∑​(s^j​kij​​−q^​i,ρ​)2,zi,ρ​=mρ​q^​i,ρ​​j:ρ(j)=ρ∑​s^j​1​

最后证明一下v^ρ\hat v_{\rho}v^ρ​是一个无偏估计:因为s^j\hat s_js^j​是构造的,与我们熟悉的参数估计方法无关,所以为了简化问题,我们假设它就是s^j≈sj\hat s_j \approx s_js^j​≈sj​。因为E[Kij]=μij=qi,ρ(j)⋅sjE[K_{ij}]=\mu_{ij}=q_{i,\rho(j)} \cdot s_jE[Kij​]=μij​=qi,ρ(j)​⋅sj​,所以
E[q^i,ρ]=1mρ∑j:ρ(j)=ρEKijs^j=1mρ∑j:ρ(j)=ρqi,ρ(j)⋅sjs^j≈qi,ρE[\hat q_{i,\rho}]=\frac{1}{m_{\rho}}\sum_{j:\rho(j)=\rho} \frac{EK_{ij}}{\hat s_j}=\frac{1}{m_{\rho}}\sum_{j:\rho(j)=\rho} \frac{q_{i,\rho(j)} \cdot s_j}{ \hat s_j} \approx q_{i,\rho}E[q^​i,ρ​]=mρ​1​j:ρ(j)=ρ∑​s^j​EKij​​=mρ​1​j:ρ(j)=ρ∑​s^j​qi,ρ(j)​⋅sj​​≈qi,ρ​

因此,当我们认可s^j=sj\hat s_j= s_js^j​=sj​的假设时,可以将q^i,ρ\hat q_{i,\rho}q^​i,ρ​视为qi,ρq_{i,\rho}qi,ρ​的无偏估计。根据
(mρ−1)wρ(q^i,ρ)=∑j:ρ(j)=ρ(kijs^j−q^i,ρ)2=∑j:ρ(j)=ρ(kijs^j−1mρ∑j:ρ(j)=ρkijs^j)2=(1−1mρ)∑j:ρ(j)=ρkij2s^j2−1mρ∑j:ρ(j)=ρl:ρ(l)=ρj≠lkijkils^js^l\begin{aligned}(m_{\rho}-1)w_{\rho}(\hat q_{i,\rho})& =\sum_{j:\rho(j)=\rho} \left(\frac{k_{ij}}{\hat s_j} -\hat q_{i,\rho}\right)^2 \\ &=\sum_{j:\rho(j)=\rho} \left(\frac{k_{ij}}{\hat s_j} -\frac{1}{m_{\rho}}\sum_{j:\rho(j)=\rho} \frac{k_{ij}}{\hat s_j}\right)^2 \\ & = \left(1-\frac{1}{m_{\rho}} \right)\sum_{j:\rho(j)=\rho} \frac{k_{ij}^2}{\hat s_j^2}-\frac{1}{m_{\rho}}\sum_{\begin{matrix}j:\rho(j)=\rho \\ l:\rho(l)=\rho \\ j \ne l \end{matrix}} \frac{k_{ij}k_{il}}{\hat s_j \hat s_l}\end{aligned}(mρ​−1)wρ​(q^​i,ρ​)​=j:ρ(j)=ρ∑​(s^j​kij​​−q^​i,ρ​)2=j:ρ(j)=ρ∑​⎝⎛​s^j​kij​​−mρ​1​j:ρ(j)=ρ∑​s^j​kij​​⎠⎞​2=(1−mρ​1​)j:ρ(j)=ρ∑​s^j2​kij2​​−mρ​1​j:ρ(j)=ρl:ρ(l)=ρj​=l​∑​s^j​s^l​kij​kil​​​

因为
EKij2=μij2+σij2=sj2qi,ρ2+sjqi,ρ+sj2vρEKijKil=sjslqi,ρ2EK_{ij}^2=\mu_{ij}^2+\sigma_{ij}^2=s_j^2q_{i,\rho}^2+s_jq_{i,\rho}+s_j^2v_{\rho} \\ EK_{ij}K_{il}=s_js_lq_{_{i,\rho}}^2EKij2​=μij2​+σij2​=sj2​qi,ρ2​+sj​qi,ρ​+sj2​vρ​EKij​Kil​=sj​sl​qi,ρ​2​
计算期望可得,(mρ−1)Ewρ(q^i,ρ)=(1−1mρ)∑j:ρ(j)=ρEKij2s^j2−1mρ∑j:ρ(j)=ρl:ρ(l)=ρj≠lEKijKils^js^l=vρ+qi,ρmρ∑j:ρ(j)=ρ1sj⏟=E[zi,ρ]=E[q^i,ρmρ∑j:ρ(j)=ρ1s^j]\begin{aligned}(m_{\rho}-1)Ew_{\rho}(\hat q_{i,\rho})& =\left(1-\frac{1}{m_{\rho}} \right)\sum_{j:\rho(j)=\rho} \frac{EK_{ij}^2}{\hat s_j^2}-\frac{1}{m_{\rho}}\sum_{\begin{matrix}j:\rho(j)=\rho \\ l:\rho(l)=\rho \\ j \ne l \end{matrix}} \frac{EK_{ij}K_{il}}{\hat s_j \hat s_l} \\ & = v_{\rho}+\underbrace{\frac{q_{i,\rho}}{m_{\rho}}\sum_{j:\rho(j)=\rho}\frac{1}{s_j}}_{=E[z_{i,\rho}]=E[\frac{\hat q_{i,\rho}}{m_{\rho}}\sum_{j:\rho(j)=\rho} \frac{1}{\hat s_j}]}\end{aligned}(mρ​−1)Ewρ​(q^​i,ρ​)​=(1−mρ​1​)j:ρ(j)=ρ∑​s^j2​EKij2​​−mρ​1​j:ρ(j)=ρl:ρ(l)=ρj​=l​∑​s^j​s^l​EKij​Kil​​=vρ​+=E[zi,ρ​]=E[mρ​q^​i,ρ​​∑j:ρ(j)=ρ​s^j​1​]mρ​qi,ρ​​j:ρ(j)=ρ∑​sj​1​​​​

假设检验
考虑ρ∈{A,B}\rho \in \{A,B\}ρ∈{A,B},replicates分别为mA,mBm_A,m_BmA​,mB​,我们想检验
H0:qi,A=qi,BHa:qi,A≠qi,BH_0:q_{i,A}=q_{i,B} \\ H_a:q_{i,A} \ne q_{i,B}H0​:qi,A​=qi,B​Ha​:qi,A​​=qi,B​

为此,我们引入检验统计量
KiA=∑j:ρ(j)=AKij,KiB=∑j:ρ(j)=BKij,KiS=KiA+KiBK_{iA}=\sum_{j:\rho(j)=A}K_{ij},K_{iB}=\sum_{j:\rho(j)=B}K_{ij},K_{iS}=K_{iA}+K_{iB}KiA​=j:ρ(j)=A∑​Kij​,KiB​=j:ρ(j)=B∑​Kij​,KiS​=KiA​+KiB​

给定observation (kiA,kiB)(k_{iA},k_{iB})(kiA​,kiB​),用pip_ipi​表示这个检验的p值,下面介绍p值的计算方法。

假设H0H_0H0​为真,记p(a,b)=P(KiA=a,KiB=b)=P(KiA=a)P(KiB=b)p(a,b)=P(K_{iA}=a,K_{iB}=b)=P(K_{iA}=a)P(K_{iB}=b)p(a,b)=P(KiA​=a,KiB​=b)=P(KiA​=a)P(KiB​=b),KiAK_{iA}KiA​与KiBK_{iB}KiB​均服从负二项分布,分布的参数估计方法如下:

  • Pooled mean estimation: q^iO=∑j:ρ(j)∈{A,B}kijs^j\hat q_{iO}=\sum_{j:\rho(j) \in \{A,B\}} \frac{k_{ij}}{\hat s_j}q^​iO​=j:ρ(j)∈{A,B}∑​s^j​kij​​
  • Estimation of mean: μ^iA=∑j:ρ(j)=As^jq^iO,μ^iB=∑j:ρ(j)=Bs^jq^iO\hat \mu_{iA} = \sum_{j :\rho(j)=A} \hat s_j\hat q_{iO},\hat \mu_{iB} = \sum_{j :\rho(j)=B} \hat s_j\hat q_{iO}μ^​iA​=j:ρ(j)=A∑​s^j​q^​iO​,μ^​iB​=j:ρ(j)=B∑​s^j​q^​iO​
  • Estimation of variance: σ^iA2=∑j:ρ(j)=As^jq^iO+s^j2vA(q^iO),σ^iB2=∑j:ρ(j)=Bs^jq^iO+s^j2vB(q^iO)\hat \sigma_{iA}^2 = \sum_{j :\rho(j)=A} \hat s_j\hat q_{iO}+\hat s_j^2 v_{A}(\hat q_{iO}) ,\hat \sigma_{iB}^2 = \sum_{j :\rho(j)=B} \hat s_j\hat q_{iO}+\hat s_j^2 v_{B}(\hat q_{iO}) σ^iA2​=j:ρ(j)=A∑​s^j​q^​iO​+s^j2​vA​(q^​iO​),σ^iB2​=j:ρ(j)=B∑​s^j​q^​iO​+s^j2​vB​(q^​iO​)

确定了分布的参数后可以得到p(a,b)p(a,b)p(a,b)。以KiA,KiBK_{iA},K_{iB}KiA​,KiB​为检验统计量,cut-off point为
{(a,b):a+b=kiS,p(a,b)=p(kiA,kiB)}\{(a,b):a+b=k_{iS},p(a,b)=p(k_{iA},k_{iB})\}{(a,b):a+b=kiS​,p(a,b)=p(kiA​,kiB​)}
pi=∑a+b=kiS,p(a,b)≤p(kiA,kiB)p(a,b)∑a+b=kiSp(a,b)p_i=\frac{\sum_{a+b=k_{iS},p(a,b) \le p(k_{iA},k_{iB})}p(a,b)}{\sum_{a+b=k_{iS}}p(a,b)}pi​=∑a+b=kiS​​p(a,b)∑a+b=kiS​,p(a,b)≤p(kiA​,kiB​)​p(a,b)​

Deseq的理论基础相关推荐

  1. Deseq2的理论基础

    Deseq2的理论基础 原文:Moderated estimation of fold change and dispersion for RNA-seq data with Deseq2 by Lo ...

  2. 【转载】图像缩放与插值理论基础

    图像的缩放 图像经过缩放后有可能在原图中招不到对应的像素点,这需要用图像插值来解决. 1.理论基础 假设图像的X轴方向缩放比例是Kx,Y轴方向的缩放比是Ky,则缩放后输出图像的点(x' , y')对应 ...

  3. 机器学习理论基础到底有多可靠?

    机器学习领域近年的发展非常迅速,然而我们对机器学习理论的理解还很有限,有些模型的实验效果甚至超出了我们对基础理论的理解. 目前,领域内越来越多的研究者开始重视和反思这个问题.近日,一位名为 Aidan ...

  4. 信息理论基础 周炯槃 常迥

    通信的数学原理  作者  乡农 https://wenku.baidu.com/view/080af641ddccda38376baf4e.html 信息理论是应用十分广泛的基础学科.它随着通讯技术的 ...

  5. 人大魏哲巍:图神经网络的理论基础

    [专栏:研究思路]近年来,由于图结构数据的强大表现力,用机器学习方法分析图的研究越来越受到重视.图神经网络是一类基于深度学习的处理图结构数据的方法,在众多领域展现出了卓越的性能,因此已成为一种广泛应用 ...

  6. 魏哲巍:图神经网络的理论基础 | 青源 Talk 第 7 期

    活动议程 日期:11月12日(周五) 时间 主题 13:30-13:35 开场简介 张峰 中国人民大学副教授,青源会会员 13:35-14:20 主题:图神经网络的理论基础 魏哲巍 中国人民大学教授, ...

  7. 汪昭然:构建“元宇宙”和理论基础,让深度强化学习从虚拟走进现实

    作者 | 陈彩娴 深度强化学习的故事,可以追溯到2015年: 当时,位于英国伦敦的一家小公司 DeepMind 在<Nature>上发表了一篇文章"Human-level con ...

  8. 从2019 AI顶会最佳论文,看深度学习的理论基础

    2020-01-27 13:15:38 如果能有一种理论告诉我们什么样的模型架构.运算方式能最好地表示某种数据,什么样的损失函数.迭代方式能最高效地学习到某种能力,什么样的设置又使这种能力能处理各种意 ...

  9. 科普丨可拓学,诞生于中国的人工智能的理论基础之一

    [作者简介]  蔡 文,1942 年生,广东澄海人,广东工业大学研究员, 可拓学创立者,国家级有突出贡献的专家 杨春燕,1964 年生,山东泰安人,研究员,中国人工智能学会可拓工程专业委员会副主任 可 ...

最新文章

  1. 你用对锁了吗?浅谈 Java “锁” 事
  2. 在TSQL中替换换行符
  3. Oracle JDBC版本区别(转)
  4. STM32 电机教程 28 - ST MCLIB实战之 位置闭环控制
  5. JVM调优总结(一)
  6. mysql js 命令行登录_mysqlsh 命令行模式与密码保存-爱可生
  7. Laravel 5 多个视图共享数据的方法
  8. Apache+Tomcat整合
  9. tp-link无线网卡linux下的驱动,Ubuntu14下安装无线网卡驱动(TP-LINK TL-WN823N)
  10. php网站挂马,网页挂马详细教程
  11. 视频截图获取视频某一帧做图片
  12. 深度强化学习(机器之心)
  13. [渝粤教育] 重庆城市管理职业学院 脑洞大开背后的创新思维 参考 资料
  14. Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling 阅读笔记
  15. 解释太阳能量来源《张朝阳的物理课》估算太阳寿命约百亿年
  16. 硬件编程经常用的u8,u16怎么来的?
  17. SolidWorks卸载重装教程
  18. TIBCO横向打印数据
  19. 压力测试中的指标概念
  20. 加速to B市场布局,Adobe推Experience Platform全数据管理打造体验式企业

热门文章

  1. 【正一专栏】钱都从哪里来的?
  2. eclipse+ADT下android开发AVD若干问题
  3. Leetcode 382. 链表随机节点 解题思路及C++实现
  4. 关于Apache mod_rewrite的中文配置、使用和语法介绍(实现URL重写和防盗链功能)
  5. 求最大连续子序列和——解法1 – 暴力出奇迹||解法2 – 分治
  6. JVM锁和分布式锁是什么关系
  7. 组件间数据交互||父组件向子组件传值-基本使用|| 父组件向子组件传值-props属性名规则
  8. 计算属性|| 计算属性与方法的区别:计算属性是基于它们的依赖进行缓存的 ;方法不存在缓存||侦听器
  9. 普通函数与函数模板的区别
  10. 双击SDK Manager.exe和AVD Manager.exe时,弹出提示:failed to execute tools\android.bat解决办法