无偏估计的数学证明和分析

最近学习PCA，在求最大化方差 σ2=1P−1∑k=1P(vT(xk−μ))2−λ(∥v∥2−1)\sigma^{2} = \frac{1}{P-1} \sum_{k=1}^{P}(v^{T}(x_{k}-\mu ))^{2}-\lambda(\left \| v \right \|^{2}-1)σ2=P−11∑k=1P(vT(xk−μ))2−λ(∥v∥2−1) 时遇到了无偏估计的问题——为什么是P-1而不是P？整理了一些笔记写上来供参考，有错误的地方望批评指正。

简单理解

首先我们了解下无偏估计的定义：
估计量的数学期望等于被估计参数的真实值，则此估计量为被估计参数的无偏估计。

乍一看很绕口，我们从现实中的简单例子去解释会更好理解。
如果我们想知道一个城市人口的平均高度，我们可以通过采集该城市所有人的身高并计算平均值，这样得到的就是无偏的平均身高。
但实际情况是，出于成本考虑，我们不太可能去测量所有人的身高，于是我们通过采样来估计实际的平均身高。于是我们应用了随机采样等方法，而这些方法虽然没法准确地估计该城市的平均身高，但不同的采样方法均在真实平均身高附近波动，那么我们就可以说这个估计是无偏的。

类似的，我们用一下以下算法去估计总体方差：
s2=1n∑i=1n(xi−xˉ)2s^{2} = \frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}s2=n1i=1∑n(xi−xˉ)2

以芯靶图为例，如果我们用n代入计算得到的预测值会偏离靶图中心；而用n计算，得到的值会在靶图中心。

数学证明及解析

将公式展开计算如下：
s2=∑i=1n(xi−xˉ)2n−1E(s2)=E(∑i=1n(xi−xˉ)2n−1)=1n−1E[∑i=1n(xi−xˉ)2]=1n−1E[∑i=1n[(xi−μ)−(xˉ−μ)]2]\begin{aligned} & s^{2} = \frac{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}{n-1}\\ & E(s^{2}) = E(\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}{n-1})\\ &= \frac{1}{n-1}E[\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}]\\ &= \frac{1}{n-1}E[\sum_{i=1}^{n}[(x_{i}-\mu) - (\bar{x}-\mu)]^{2}] \end{aligned}s2=n−1∑i=1n(xi−xˉ)2E(s2)=E(n−1∑i=1n(xi−xˉ)2)=n−11E[i=1∑n(xi−xˉ)2]=n−11E[i=1∑n[(xi−μ)−(xˉ−μ)]2]

E[∑i=1n[(xi−μ)−(xˉ−μ)]2]E[\sum_{i=1}^{n}[(x_{i}-\mu) - (\bar{x}-\mu)]^{2}]E[∑i=1n[(xi−μ)−(xˉ−μ)]2]由E[∑i=1n(xi−xˉ)2]E[\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}]E[∑i=1n(xi−xˉ)2]加一个μ\muμ括号里面再减一个μ\muμ得到。展开得到：

=1n−1E[∑i=1n(xi−μ)2−2∑i=1n(xi−μ)(xˉ−μ)+∑i=1n(xˉ−μ)2]=1n−1E[∑i=1n(xi−μ)2−2(xˉ−μ)∑i=1n(xi−μ)+∑i=1n(xˉ−μ)2]=1n−1E[∑i=1n(xi−μ)2−n(xˉ−μ)2]=1n−1(∑i=1nE(xi−μ)2−nE[(xˉ−μ)2])=1n−1(∑i=1nσxi2−nσxˉ2)\begin{aligned} & = \frac{1}{n-1}E[\sum_{i=1}^{n}(x_{i}-\mu)^{2} - 2\sum_{i=1}^{n}(x_{i}-\mu)(\bar{x}-\mu) + \sum_{i=1}^{n}(\bar{x}-\mu)^{2}]\\ & = \frac{1}{n-1}E[\sum_{i=1}^{n}(x_{i}-\mu)^{2} - 2(\bar{x}-\mu)\sum_{i=1}^{n}(x_{i}-\mu) + \sum_{i=1}^{n}(\bar{x}-\mu)^{2}]\\ & = \frac{1}{n-1}E[\sum_{i=1}^{n}(x_{i}-\mu)^{2} - n(\bar{x}-\mu)^{2}]\\ & = \frac{1}{n-1}(\sum_{i=1}^{n}E(x_{i}-\mu)^{2} - nE[(\bar{x}-\mu)^{2}])\\ & = \frac{1}{n-1}(\sum_{i=1}^{n}\sigma_{x_{i}}^{2} - n\sigma_{\bar{x}}^{2})\\ \end{aligned}=n−11E[i=1∑n(xi−μ)2−2i=1∑n(xi−μ)(xˉ−μ)+i=1∑n(xˉ−μ)2]=n−11E[i=1∑n(xi−μ)2−2(xˉ−μ)i=1∑n(xi−μ)+i=1∑n(xˉ−μ)2]=n−11E[i=1∑n(xi−μ)2−n(xˉ−μ)2]=n−11(i=1∑nE(xi−μ)2−nE[(xˉ−μ)2])=n−11(i=1∑nσxi2−nσxˉ2)

其中，xˉ−μ\bar{x}-\muxˉ−μ是个数所以能够被从求和符号内提出来。

又因为σxi2=σ2\sigma_{x_{i}}^{2}=\sigma^{2}σxi2=σ2，且σxˉ2=σ2n\sigma_{\bar x}^{2}=\frac{\sigma^{2}}{n}σxˉ2=nσ2，因此：

=1n−1(nσ2−σ2)=1n−1(n−1)σ2=σ2\begin{aligned} &=\frac{1}{n-1}(n\sigma^{2}-\sigma^{2})\\ &=\frac{1}{n-1}(n-1)\sigma^{2}\\ &=\sigma^{2} \end{aligned}=n−11(nσ2−σ2)=n−11(n−1)σ2=σ2

因此E(s2)E(s^{2})E(s2)是σ2\sigma^{2}σ2的无偏估计量。

Reference

https://www.zhihu.com/question/22983179
https://www.youtube.com/watch?v=wlcvRrYKkx8