Law of Iterated Expectations (LIE)

在讲方差分解之前,我们需要先理解双期望定理。对于一个X,我们可以根据不同的Y将其任意的划分为几部分:

于是经过这样的划分,X总体的均值其实是等价于每一个划分下均值的总体均值。

E⁡[X]=E⁡[E⁡[X∣Y]]\operatorname{E} [X]=\operatorname{E} [\operatorname{E} [X|Y]] E[X]=E[E[X∣Y]]

举个例子,假设一共划分为三部分,每部分的均值分别为70 60 80, 于是

E[X]=E[E[X∣Y]]=E[E[X∣Y=y1]+E[X∣Y=y2]+E[X∣Y=y3]]=70+60+803=70\begin{aligned} & E[X]=E[E[X\mid Y]]\\ = & E[E[X\mid Y=y_{1} ]+E[X\mid Y=y_{2} ]+E[X\mid Y=y_{3} ]]\\ = & \frac{70+60+80}{3}\\ = & 70 \end{aligned} ===​E[X]=E[E[X∣Y]]E[E[X∣Y=y1​]+E[X∣Y=y2​]+E[X∣Y=y3​]]370+60+80​70​

从理论上,
E[E[X∣Y]]=∫p(y)∫xp(x∣y)dxdy=∫p(x,y)xdxdy=∫p(x)xdx=E[X]\begin{aligned} E[E[X\mid Y]] & =\int p( y)\int xp( x|y) dxdy\\ & =\int p( x,y) xdxdy\\ & =\int p( x) xdx\\ & =E[ X] \end{aligned} E[E[X∣Y]]​=∫p(y)∫xp(x∣y)dxdy=∫p(x,y)xdxdy=∫p(x)xdx=E[X]​

Mathematical Derivation of the Law of Total Variance

另一个重要的规则是total variance:
Var(X)=E⁡[Var(X∣Y)]+Var(E⁡[X∣Y])Var(X)=\operatorname{E} [Var(X\mid Y)\ ]+Var(\operatorname{E} [X\mid Y]) Var(X)=E[Var(X∣Y) ]+Var(E[X∣Y])

它刻画了方差的两个组成成分:
E⁡[Var(X∣Y)]=E⁡[E⁡[X2∣Y]−(E⁡[X∣Y])2]Def. of variance=E⁡[E⁡[X2∣Y]]−E⁡[(E⁡[X∣Y])2]Lin. of Expectation=E⁡[X2]−E⁡[(E⁡[X∣Y])2]law of Ite. ExpectVar(E[X∣Y])=E[(E[X∣Y])2]−E[E[X∣Y]]2Def. of variance=E[(E[X∣Y])2]−E[X]2law of Ite. Expect∴E⁡[Var(X∣Y)]+Var(E⁡[X∣Y])=E⁡[X2]−E[X]2=Var(X)\begin{aligned} \operatorname{E} [Var(X\mid Y)\ ] & =\operatorname{E} [\ \operatorname{E} [X^{2} \mid Y\ ]-(\operatorname{E} [X\mid Y])^{2} \ ] & \text{Def. of variance}\\ & =\operatorname{E} [\ \operatorname{E} [X^{2} \mid Y]\ ]-\operatorname{E} [\ (\operatorname{E} [X\mid Y])^{2} \ ] & \text{Lin. of Expectation}\\ & =\operatorname{E} [X^{2} ]-\operatorname{E} [\ (\operatorname{E} [X\mid Y])^{2} \ ] & \text{law of Ite. Expect} \end{aligned}\\ \\ \begin{aligned} Var(E[X\mid Y]) & =E[( E[X\mid Y])^{2} ]-E[E[X\mid Y]]^{2} & \text{Def. of variance}\\ & =E[( E[X\mid Y])^{2} ]-E[X]^{2} & \text{law of Ite. Expect} \end{aligned}\\ \\ \therefore \ \operatorname{E} [Var(X\mid Y)\ ]+Var(\operatorname{E} [X\mid Y])=\operatorname{E} [X^{2} ]-E[X]^{2} =Var( X) E[Var(X∣Y) ]​=E[ E[X2∣Y ]−(E[X∣Y])2 ]=E[ E[X2∣Y] ]−E[ (E[X∣Y])2 ]=E[X2]−E[ (E[X∣Y])2 ]​Def. of varianceLin. of Expectationlaw of Ite. Expect​Var(E[X∣Y])​=E[(E[X∣Y])2]−E[E[X∣Y]]2=E[(E[X∣Y])2]−E[X]2​Def. of variancelaw of Ite. Expect​∴ E[Var(X∣Y) ]+Var(E[X∣Y])=E[X2]−E[X]2=Var(X)

怎么理解呢?

  1. 什么是E⁡[Var(X∣Y)]\displaystyle \operatorname{E} [Var(X\mid Y)\ ]E[Var(X∣Y) ]? 直观来看,他是每个划分下方差的均值,因此,它刻画了样本内差异的均值。
  2. 什么是Var(E[X∣Y])\displaystyle Var(E[X\mid Y])Var(E[X∣Y])? 它刻画了不同分组下均值的差异程度,因此,它刻画了样本间差异的程度。

因此,方差刻画了样本内和样本间差异的叠加,这就是Law of Total Variance.

与k-means聚类的联系

熟悉聚类算法的同学可能意识到,k means聚类其实有两种等价的学习方式,分别是,最小化类内距离(within-cluster sum of squares (WCSS)):
arg min⁡S∑i=1k∑x∈Si∥x−μi∥2=arg min⁡S∑i=1k∣Si∣Var⁡Si{\displaystyle \underset{\mathbf{S}}{\operatorname{arg\ min}}\sum ^{k}_{i=1}\sum _{\mathbf{x} \in S_{i}}\Vert \mathbf{x} -\boldsymbol{\mu }_{i}\Vert ^{2} =\underset{\mathbf{S}}{\operatorname{arg\ min}}\sum ^{k}_{i=1} |S_{i} |\operatorname{Var} S_{i}} Sarg min​i=1∑k​x∈Si​∑​∥x−μi​∥2=Sarg min​i=1∑k​∣Si​∣VarSi​
以及最大化类间距离(between-cluster sum of squares, BCSS):
arg max⁡S∑i=1k∣Si∣∥x‾−μi∥2{\displaystyle \underset{\mathbf{S}}{\operatorname{arg\ max}}\sum ^{k}_{i=1} |S_{i} |\Vert \overline{\mathbf{{\displaystyle x}}} -\boldsymbol{\mu }_{i}\Vert ^{2}} Sarg max​i=1∑k​∣Si​∣∥x−μi​∥2
显然,它们分别对应着E⁡[Var(X∣Y)]\displaystyle \operatorname{E} [Var(X\mid Y)\ ]E[Var(X∣Y) ]和Var(E[X∣Y])\displaystyle Var(E[X\mid Y])Var(E[X∣Y]),因为他们加起来是等于常数(方差),因此根据全方差公式,最小化前者等价于最大化后者。

与最小二乘法的联系

所谓最小二乘法,其实就是搜索最优的f\displaystyle ff:
E⁡[(Y−f(X))2]=E⁡[(Y−E⁡(Y∣X)+E⁡(Y∣X)−f(X))2]=E⁡[E⁡{(Y−E⁡(Y∣X)+(E⁡(Y∣X)−f(X))2∣X}]=E⁡[((Y−E⁡(Y∣X))2+(E⁡(Y∣X)−f(X))2+2(Y−E⁡(Y∣X))(E⁡(Y∣X)−f(X))∣X]=E⁡[Var⁡(Y∣X)]+E⁡[(E⁡(Y∣X)−f(X))2]+2(E[Y∣X]−E⁡(Y∣X))(E⁡(Y∣X)−f(X))=E⁡[Var⁡(Y∣X)]+E⁡[(E⁡(Y∣X)−f(X))2].{\displaystyle \begin{aligned} \operatorname{E} [(Y-f(X))^{2} ] & =\operatorname{E} [(Y-\operatorname{E} (Y|X)\ \ +\ \ \operatorname{E} (Y|X)-f(X))^{2} ]\\ & =\operatorname{E} [\operatorname{E} \{(Y-\operatorname{E} (Y|X)\ \ +\ \ \left(\operatorname{E} (Y|X)-f(X)\right)^{2} |X\}]\\ & =\operatorname{E}\left[\left( (Y-\operatorname{E} (Y|X)\ \right)^{2} +\left(\operatorname{E} (Y|X)-f(X)\right)^{2} +2\left( Y-\operatorname{E} (Y|X)\right)\left(\operatorname{E} (Y|X)-f(X)\right) |X\right]\\ & =\operatorname{E} [\operatorname{Var} (Y|X)]+\operatorname{E}\left[\left(\operatorname{E} (Y|X)-f(X)\right)^{2}\right] +2\left( E[ Y|X] -\operatorname{E} (Y|X)\right)\left(\operatorname{E} (Y|X)-f(X)\right)\\ & =\operatorname{E} [\operatorname{Var} (Y|X)]+\operatorname{E} [(\operatorname{E} (Y|X)-f(X))^{2} ]\ . \end{aligned}} E[(Y−f(X))2]​=E[(Y−E(Y∣X)  +  E(Y∣X)−f(X))2]=E[E{(Y−E(Y∣X)  +  (E(Y∣X)−f(X))2∣X}]=E[((Y−E(Y∣X) )2+(E(Y∣X)−f(X))2+2(Y−E(Y∣X))(E(Y∣X)−f(X))∣X]=E[Var(Y∣X)]+E[(E(Y∣X)−f(X))2]+2(E[Y∣X]−E(Y∣X))(E(Y∣X)−f(X))=E[Var(Y∣X)]+E[(E(Y∣X)−f(X))2] .​
其中
Var⁡(Y∣X)=E⁡((Y−E⁡(Y∣X))2∣X)=E⁡(Y2−2YE⁡(Y∣X)+E⁡(Y∣X)2∣X)=E⁡(Y2∣X−2E[Y∣X]E⁡(Y∣X)+E⁡(Y∣X)2)=E⁡[Y2∣X]−(E⁡[Y∣X])2\begin{aligned} {\displaystyle \operatorname{Var} (Y|X)} & {\displaystyle =\operatorname{E}\Bigl(\bigl( Y-\operatorname{E} (Y\mid X)\bigr)^{2} \mid X\Bigr)}\\ & {\displaystyle =\operatorname{E}\Bigl( Y^{2} -2Y\operatorname{E} (Y\mid X)+\operatorname{E} (Y\mid X)^{2} \mid X\Bigr)}\\ & {\displaystyle =\operatorname{E}\Bigl( Y^{2} |X-2E[ Y|X]\operatorname{E} (Y\mid X)+\operatorname{E} (Y\mid X)^{2}\Bigr)}\\ & ={\displaystyle \operatorname{E} [Y^{2} \mid X\ ]-(\operatorname{E} [Y\mid X])^{2}} \end{aligned} Var(Y∣X)​=E((Y−E(Y∣X))2∣X)=E(Y2−2YE(Y∣X)+E(Y∣X)2∣X)=E(Y2∣X−2E[Y∣X]E(Y∣X)+E(Y∣X)2)=E[Y2∣X ]−(E[Y∣X])2​

可以发现,当f=E⁡(Y∣X)\displaystyle f=\operatorname{E} (Y|X)f=E(Y∣X)的时候,右边的那项将消失,因此条件期望就是最优的f\displaystyle ff,
E((Y−E[Y∣X])2)=E[Var[Y∣X]]E\left(( Y-E[ Y|X])^{2}\right) =E[ Var[ Y|X]] E((Y−E[Y∣X])2)=E[Var[Y∣X]]
因为回归其实也可以直观上理解为一种最小化样本内差异的方法。

参考资料

A mathematical derivation of the Law of Total Variance

直观理解Law of Total Variance(方差分解公式)相关推荐

  1. Bias-Variance Tradeoff -----bias(偏差)和variance(方差),过拟合与欠拟合

    首先说结论: Bias is reduced and variance is increased in relation to model complexity 在下面的图中就是...从右下角到左上角 ...

  2. 用相似矩阵的几何意义直观理解PCA降维方法

    PCA(主成分分析)是降维中最经典的方法,其推导求解的常用两种方法包括最大方差理论(样本点到超平面的投影都尽可能分开)以及最小平方误差理论(样本点到超平面的距离都足够近),以上两种方法都需要进行严格意 ...

  3. 通俗理解误差、偏差、方差以及它们和过拟合、欠拟合之间的关系.

    文章目录 0. 引言 1. 误差.偏差和方差的数学定义 2. 偏差与方差的直观理解 3. 偏差.方差与欠拟合.过拟合的关系 4. 欠拟合.欠拟合的产生原因及解决方案 0. 引言 作为一名算法工程师,在 ...

  4. 直观理解高斯函数相乘

    此处仅直观理解高斯函数的单变量相乘,不涉及复杂的数学推导. 有以下两个高斯函数: f1(x)=12π−−√σ1exp−(x−μ1)22σ21f1(x)=12πσ1exp−(x−μ1)22σ12 f_1 ...

  5. 梯度的直观理解_关于梯度、旋度和散度的直观理解

    关于梯度.旋度和散度的直观理解 散度为零,说明是无源场:散度不为零时,则说明是有源场(有正源或负源) 若你的场是一个流速场,则该场的散度是该流体在某一点单位时间流出单位体积的净流量. 如果在某点,某场 ...

  6. BP反向传播算法的思考和直观理解 -卷积小白的随机世界

    https://www.toutiao.com/a6690831921246634504/ 2019-05-14 18:47:24 本篇文章,本来计划再进一步完善对CNN卷积神经网络的理解,但在对卷积 ...

  7. RNN循环神经网络的直观理解:基于TensorFlow的简单RNN例子

    RNN 直观理解 一个非常棒的RNN入门Anyone Can learn To Code LSTM-RNN in Python(Part 1: RNN) 基于此文章,本文给出我自己的一些愚见 基于此文 ...

  8. 3.7 注意力模型直观理解-深度学习第五课《序列模型》-Stanford吴恩达教授

    注意力模型直观理解 (Attention Model Intuition) 在本周大部分时间中,你都在使用这个编码解码的构架(a Encoder-Decoder architecture)来完成机器翻 ...

  9. 3.10 直观理解反向传播-深度学习-Stanford吴恩达教授

    ←上一篇 ↓↑ 下一篇→ 3.9 神经网络的梯度下降法 回到目录 3.11 随机初始化 直观理解反向传播 (Backpropagation Intuition (Optional)) 这个视频主要是推 ...

  10. SVM支持向量机【直观理解】

    转载文章:https://baijiahao.baidu.com/s?id=1607469282626953830&wfr=spider&for=pc 如果你曾经使用机器学习解决分类问 ...

最新文章

  1. 创建Joomla菜单
  2. 用Python和OpenCV创建一个图片搜索引擎的完整指南
  3. LiveVideoStackCon深圳-发掘移动客户端更多可能
  4. linux内核中断向量表,中断向量表
  5. 为什么用Object.prototype.toString.call(obj)检测对象类型?
  6. [leetcode]347. Top K Frequent Elements
  7. [react] react中的setState缺点是什么呢?
  8. Shiro之UsernamePasswordTokenRememberMeAuthenticationTokenAuthenticationToken
  9. java中thread实例_Java多线程并发执行demo代码实例
  10. 天池学习赛:工业蒸汽量预测4——模型验证
  11. Python中在脚本中引用其他文件函数的方法
  12. PHP直播源码,直播系统源代码功能有哪些?
  13. Linux系统中CentOS光盘的挂载
  14. 看云上 ClickHouse 如何做计算存储分离
  15. 官方示例(十):网页开发3D粒子系统实现降雨效果 ThingJS
  16. power query连接mysql
  17. 备份Linux系统(通用)
  18. 独享云虚拟主机和云服务器,共享虚拟主机和独享虚拟主机的区别
  19. 智汀教你如何用手机远程控制智能门锁
  20. 干线协议(802.1q/ISL)

热门文章

  1. iredmail mysql 配置_CentOS下iRedMail安装配置
  2. JESD204B调试4
  3. 蓝牙音箱CSR芯片系列解密
  4. 基于STM32的频率计Proteus仿真教程
  5. 好用的scrum敏捷开发工具有哪些?推荐3个scrum项目管理工具
  6. python抽奖小程序_python实现简单的抽奖小程序,抽奖的内容从文件里面读取
  7. 局域网计算机怎样注销用户名,win10系统取消局域网共享用户名密码的解决办法...
  8. python单例模式解析_深度解密Python单例模式
  9. 微信转账2020假图片_微信头像图片2020独一无二
  10. 神仙代码静态测试工具 Helix QAC 2022.3中的新增功能