Law of Iterated Expectations (LIE)

在讲方差分解之前，我们需要先理解双期望定理。对于一个X，我们可以根据不同的Y将其任意的划分为几部分：

于是经过这样的划分，X总体的均值其实是等价于每一个划分下均值的总体均值。

E⁡[X]=E⁡[E⁡[X∣Y]]\operatorname{E} [X]=\operatorname{E} [\operatorname{E} [X|Y]] E[X]=E[E[X∣Y]]

举个例子，假设一共划分为三部分，每部分的均值分别为70 60 80, 于是

E[X]=E[E[X∣Y]]=E[E[X∣Y=y1]+E[X∣Y=y2]+E[X∣Y=y3]]=70+60+803=70\begin{aligned} & E[X]=E[E[X\mid Y]]\\ = & E[E[X\mid Y=y_{1} ]+E[X\mid Y=y_{2} ]+E[X\mid Y=y_{3} ]]\\ = & \frac{70+60+80}{3}\\ = & 70 \end{aligned} ===E[X]=E[E[X∣Y]]E[E[X∣Y=y1]+E[X∣Y=y2]+E[X∣Y=y3]]370+60+8070

从理论上，
E[E[X∣Y]]=∫p(y)∫xp(x∣y)dxdy=∫p(x,y)xdxdy=∫p(x)xdx=E[X]\begin{aligned} E[E[X\mid Y]] & =\int p( y)\int xp( x|y) dxdy\\ & =\int p( x,y) xdxdy\\ & =\int p( x) xdx\\ & =E[ X] \end{aligned} E[E[X∣Y]]=∫p(y)∫xp(x∣y)dxdy=∫p(x,y)xdxdy=∫p(x)xdx=E[X]

Mathematical Derivation of the Law of Total Variance

另一个重要的规则是total variance：
Var(X)=E⁡[Var(X∣Y)]+Var(E⁡[X∣Y])Var(X)=\operatorname{E} [Var(X\mid Y)\ ]+Var(\operatorname{E} [X\mid Y]) Var(X)=E[Var(X∣Y) ]+Var(E[X∣Y])

它刻画了方差的两个组成成分：
E⁡[Var(X∣Y)]=E⁡[E⁡[X2∣Y]−(E⁡[X∣Y])2]Def. of variance=E⁡[E⁡[X2∣Y]]−E⁡[(E⁡[X∣Y])2]Lin. of Expectation=E⁡[X2]−E⁡[(E⁡[X∣Y])2]law of Ite. ExpectVar(E[X∣Y])=E[(E[X∣Y])2]−E[E[X∣Y]]2Def. of variance=E[(E[X∣Y])2]−E[X]2law of Ite. Expect∴E⁡[Var(X∣Y)]+Var(E⁡[X∣Y])=E⁡[X2]−E[X]2=Var(X)\begin{aligned} \operatorname{E} [Var(X\mid Y)\ ] & =\operatorname{E} [\ \operatorname{E} [X^{2} \mid Y\ ]-(\operatorname{E} [X\mid Y])^{2} \ ] & \text{Def. of variance}\\ & =\operatorname{E} [\ \operatorname{E} [X^{2} \mid Y]\ ]-\operatorname{E} [\ (\operatorname{E} [X\mid Y])^{2} \ ] & \text{Lin. of Expectation}\\ & =\operatorname{E} [X^{2} ]-\operatorname{E} [\ (\operatorname{E} [X\mid Y])^{2} \ ] & \text{law of Ite. Expect} \end{aligned}\\ \\ \begin{aligned} Var(E[X\mid Y]) & =E[( E[X\mid Y])^{2} ]-E[E[X\mid Y]]^{2} & \text{Def. of variance}\\ & =E[( E[X\mid Y])^{2} ]-E[X]^{2} & \text{law of Ite. Expect} \end{aligned}\\ \\ \therefore \ \operatorname{E} [Var(X\mid Y)\ ]+Var(\operatorname{E} [X\mid Y])=\operatorname{E} [X^{2} ]-E[X]^{2} =Var( X) E[Var(X∣Y) ]=E[ E[X2∣Y ]−(E[X∣Y])2 ]=E[ E[X2∣Y] ]−E[ (E[X∣Y])2 ]=E[X2]−E[ (E[X∣Y])2 ]Def. of varianceLin. of Expectationlaw of Ite. ExpectVar(E[X∣Y])=E[(E[X∣Y])2]−E[E[X∣Y]]2=E[(E[X∣Y])2]−E[X]2Def. of variancelaw of Ite. Expect∴ E[Var(X∣Y) ]+Var(E[X∣Y])=E[X2]−E[X]2=Var(X)

怎么理解呢？

什么是E⁡[Var(X∣Y)]\displaystyle \operatorname{E} [Var(X\mid Y)\ ]E[Var(X∣Y) ]? 直观来看，他是每个划分下方差的均值，因此，它刻画了样本内差异的均值。
什么是Var(E[X∣Y])\displaystyle Var(E[X\mid Y])Var(E[X∣Y])? 它刻画了不同分组下均值的差异程度，因此，它刻画了样本间差异的程度。

因此，方差刻画了样本内和样本间差异的叠加，这就是Law of Total Variance.

与k-means聚类的联系

熟悉聚类算法的同学可能意识到，k means聚类其实有两种等价的学习方式，分别是，最小化类内距离(within-cluster sum of squares (WCSS))：
arg min⁡S∑i=1k∑x∈Si∥x−μi∥2=arg min⁡S∑i=1k∣Si∣Var⁡Si{\displaystyle \underset{\mathbf{S}}{\operatorname{arg\ min}}\sum ^{k}_{i=1}\sum _{\mathbf{x} \in S_{i}}\Vert \mathbf{x} -\boldsymbol{\mu }_{i}\Vert ^{2} =\underset{\mathbf{S}}{\operatorname{arg\ min}}\sum ^{k}_{i=1} |S_{i} |\operatorname{Var} S_{i}} Sarg mini=1∑kx∈Si∑∥x−μi∥2=Sarg mini=1∑k∣Si∣VarSi
以及最大化类间距离(between-cluster sum of squares, BCSS)：
arg max⁡S∑i=1k∣Si∣∥x‾−μi∥2{\displaystyle \underset{\mathbf{S}}{\operatorname{arg\ max}}\sum ^{k}_{i=1} |S_{i} |\Vert \overline{\mathbf{{\displaystyle x}}} -\boldsymbol{\mu }_{i}\Vert ^{2}} Sarg maxi=1∑k∣Si∣∥x−μi∥2
显然，它们分别对应着E⁡[Var(X∣Y)]\displaystyle \operatorname{E} [Var(X\mid Y)\ ]E[Var(X∣Y) ]和Var(E[X∣Y])\displaystyle Var(E[X\mid Y])Var(E[X∣Y])，因为他们加起来是等于常数（方差），因此根据全方差公式，最小化前者等价于最大化后者。

与最小二乘法的联系

所谓最小二乘法，其实就是搜索最优的f\displaystyle ff：
E⁡[(Y−f(X))2]=E⁡[(Y−E⁡(Y∣X)+E⁡(Y∣X)−f(X))2]=E⁡[E⁡{(Y−E⁡(Y∣X)+(E⁡(Y∣X)−f(X))2∣X}]=E⁡[((Y−E⁡(Y∣X))2+(E⁡(Y∣X)−f(X))2+2(Y−E⁡(Y∣X))(E⁡(Y∣X)−f(X))∣X]=E⁡[Var⁡(Y∣X)]+E⁡[(E⁡(Y∣X)−f(X))2]+2(E[Y∣X]−E⁡(Y∣X))(E⁡(Y∣X)−f(X))=E⁡[Var⁡(Y∣X)]+E⁡[(E⁡(Y∣X)−f(X))2].{\displaystyle \begin{aligned} \operatorname{E} [(Y-f(X))^{2} ] & =\operatorname{E} [(Y-\operatorname{E} (Y|X)\ \ +\ \ \operatorname{E} (Y|X)-f(X))^{2} ]\\ & =\operatorname{E} [\operatorname{E} \{(Y-\operatorname{E} (Y|X)\ \ +\ \ \left(\operatorname{E} (Y|X)-f(X)\right)^{2} |X\}]\\ & =\operatorname{E}\left[\left( (Y-\operatorname{E} (Y|X)\ \right)^{2} +\left(\operatorname{E} (Y|X)-f(X)\right)^{2} +2\left( Y-\operatorname{E} (Y|X)\right)\left(\operatorname{E} (Y|X)-f(X)\right) |X\right]\\ & =\operatorname{E} [\operatorname{Var} (Y|X)]+\operatorname{E}\left[\left(\operatorname{E} (Y|X)-f(X)\right)^{2}\right] +2\left( E[ Y|X] -\operatorname{E} (Y|X)\right)\left(\operatorname{E} (Y|X)-f(X)\right)\\ & =\operatorname{E} [\operatorname{Var} (Y|X)]+\operatorname{E} [(\operatorname{E} (Y|X)-f(X))^{2} ]\ . \end{aligned}} E[(Y−f(X))2]=E[(Y−E(Y∣X) + E(Y∣X)−f(X))2]=E[E{(Y−E(Y∣X) + (E(Y∣X)−f(X))2∣X}]=E[((Y−E(Y∣X) )2+(E(Y∣X)−f(X))2+2(Y−E(Y∣X))(E(Y∣X)−f(X))∣X]=E[Var(Y∣X)]+E[(E(Y∣X)−f(X))2]+2(E[Y∣X]−E(Y∣X))(E(Y∣X)−f(X))=E[Var(Y∣X)]+E[(E(Y∣X)−f(X))2] .
其中
Var⁡(Y∣X)=E⁡((Y−E⁡(Y∣X))2∣X)=E⁡(Y2−2YE⁡(Y∣X)+E⁡(Y∣X)2∣X)=E⁡(Y2∣X−2E[Y∣X]E⁡(Y∣X)+E⁡(Y∣X)2)=E⁡[Y2∣X]−(E⁡[Y∣X])2\begin{aligned} {\displaystyle \operatorname{Var} (Y|X)} & {\displaystyle =\operatorname{E}\Bigl(\bigl( Y-\operatorname{E} (Y\mid X)\bigr)^{2} \mid X\Bigr)}\\ & {\displaystyle =\operatorname{E}\Bigl( Y^{2} -2Y\operatorname{E} (Y\mid X)+\operatorname{E} (Y\mid X)^{2} \mid X\Bigr)}\\ & {\displaystyle =\operatorname{E}\Bigl( Y^{2} |X-2E[ Y|X]\operatorname{E} (Y\mid X)+\operatorname{E} (Y\mid X)^{2}\Bigr)}\\ & ={\displaystyle \operatorname{E} [Y^{2} \mid X\ ]-(\operatorname{E} [Y\mid X])^{2}} \end{aligned} Var(Y∣X)=E((Y−E(Y∣X))2∣X)=E(Y2−2YE(Y∣X)+E(Y∣X)2∣X)=E(Y2∣X−2E[Y∣X]E(Y∣X)+E(Y∣X)2)=E[Y2∣X ]−(E[Y∣X])2

可以发现，当f=E⁡(Y∣X)\displaystyle f=\operatorname{E} (Y|X)f=E(Y∣X)的时候，右边的那项将消失，因此条件期望就是最优的f\displaystyle ff，
E((Y−E[Y∣X])2)=E[Var[Y∣X]]E\left(( Y-E[ Y|X])^{2}\right) =E[ Var[ Y|X]] E((Y−E[Y∣X])2)=E[Var[Y∣X]]
因为回归其实也可以直观上理解为一种最小化样本内差异的方法。

参考资料

A mathematical derivation of the Law of Total Variance

直观理解Law of Total Variance(方差分解公式)相关推荐

Bias-Variance Tradeoff -----bias（偏差）和variance(方差)，过拟合与欠拟合
首先说结论: Bias is reduced and variance is increased in relation to model complexity 在下面的图中就是...从右下角到左上角 ...
用相似矩阵的几何意义直观理解PCA降维方法
PCA(主成分分析)是降维中最经典的方法,其推导求解的常用两种方法包括最大方差理论(样本点到超平面的投影都尽可能分开)以及最小平方误差理论(样本点到超平面的距离都足够近),以上两种方法都需要进行严格意 ...
通俗理解误差、偏差、方差以及它们和过拟合、欠拟合之间的关系.
文章目录 0. 引言 1. 误差.偏差和方差的数学定义 2. 偏差与方差的直观理解 3. 偏差.方差与欠拟合.过拟合的关系 4. 欠拟合.欠拟合的产生原因及解决方案 0. 引言作为一名算法工程师,在 ...
直观理解高斯函数相乘
此处仅直观理解高斯函数的单变量相乘,不涉及复杂的数学推导. 有以下两个高斯函数: f1(x)=12π−−√σ1exp−(x−μ1)22σ21f1(x)=12πσ1exp−(x−μ1)22σ12 f_1 ...
梯度的直观理解_关于梯度、旋度和散度的直观理解
关于梯度.旋度和散度的直观理解散度为零,说明是无源场:散度不为零时,则说明是有源场(有正源或负源) 若你的场是一个流速场,则该场的散度是该流体在某一点单位时间流出单位体积的净流量. 如果在某点,某场 ...
BP反向传播算法的思考和直观理解 -卷积小白的随机世界
https://www.toutiao.com/a6690831921246634504/ 2019-05-14 18:47:24 本篇文章,本来计划再进一步完善对CNN卷积神经网络的理解,但在对卷积 ...
RNN循环神经网络的直观理解：基于TensorFlow的简单RNN例子
RNN 直观理解一个非常棒的RNN入门Anyone Can learn To Code LSTM-RNN in Python(Part 1: RNN) 基于此文章,本文给出我自己的一些愚见基于此文 ...
3.7 注意力模型直观理解-深度学习第五课《序列模型》-Stanford吴恩达教授
注意力模型直观理解 (Attention Model Intuition) 在本周大部分时间中,你都在使用这个编码解码的构架(a Encoder-Decoder architecture)来完成机器翻 ...
3.10 直观理解反向传播-深度学习-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 3.9 神经网络的梯度下降法回到目录 3.11 随机初始化直观理解反向传播 (Backpropagation Intuition (Optional)) 这个视频主要是推 ...
SVM支持向量机【直观理解】
转载文章:https://baijiahao.baidu.com/s?id=1607469282626953830&wfr=spider&for=pc 如果你曾经使用机器学习解决分类问 ...

直观理解Law of Total Variance(方差分解公式)