5.4 估计、偏差和方差

5.4.1 点估计

点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。简单的来说，指直接以样本指标来估计总体指标，也叫定值估计。通常它们是总体的某个特征值，如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量，作为未知参数或未知参数的函数的估计值。构造点估计常用的方法是：

①矩估计法，用样本矩估计总体矩

②最大似然估计法。利用样本分布密度构造似然函数来求出参数的最大似然估计。

③最小二乘法。主要用于线性统计模型中的参数估计问题。

④贝叶斯估计法。

1. 矩估计法

矩估计法, 也称“矩法估计”，就是利用样本矩来估计总体中相应的参数。对于随机变量来说，矩是其最广泛，最常用的数字特征，主要有中心矩和原点矩。由辛钦大数定律知，简单随机样本的原点矩依概率收敛到相应的总体原点矩，这就启发我们想到用样本矩替换总体矩，进而找出未知参数的估计，基于这种思想求估计量的方法称为矩法。用矩法求得的估计称为矩法估计，简称矩估计。最简单的矩估计法是用一阶样本原点矩来估计总体的期望而用二阶样本中心矩来估计总体的方差。

1.1 原点矩与中心距

原点矩：E(Xk)E(X^k)E(Xk) 中心矩：E(X−EX)kE(X-E X)^{k}E(X−EX)k

一阶原点矩就是期望，二阶中心矩就是方差

1.2 原理概述

设总体X的概率密度为f(x;θ1,θ2,...,θm)f(x;\theta_1,\theta_2,...,\theta_m)f(x;θ1,θ2,...,θm)，其中θ1,θ2,...,θm\theta_1,\theta_2,...,\theta_mθ1,θ2,...,θm为未知参数，假定X的前m阶矩μk=E(Xk)(k=1,2,...,m)\mu_k=E(X^k)(k=1,2,...,m)μk=E(Xk)(k=1,2,...,m)都存在，他们是θ1,θ2,...,θm\theta_1,\theta_2,...,\theta_mθ1,θ2,...,θm的函数，记为qk(θ1,θ2,...,θm)q_k(\theta_1,\theta_2,...,\theta_m)qk(θ1,θ2,...,θm)，即
μk=∫−∞+∞xkf(x;θ1,θ2,⋯,θm)dx=qk(θ1,θ2,⋯,θm)\mu_{k}=\int_{-\infty}^{+\infty} x^{k} f\left(x ; \theta_{1}, \theta_{2}, \cdots, \theta_{m}\right) \mathrm{d} x=q_{k}\left(\theta_{1}, \theta_{2}, \cdots, \theta_{m}\right) μk=∫−∞+∞xkf(x;θ1,θ2,⋯,θm)dx=qk(θ1,θ2,⋯,θm)
从此方程(组)可解出
θj=hj(μ1,μ2,⋯,μm),j=1,2,⋯,m\theta_{j}=h_{j}\left(\mu_{1}, \mu_{2}, \cdots, \mu_{m}\right), \quad j=1,2, \cdots, m θj=hj(μ1,μ2,⋯,μm),j=1,2,⋯,m
那么，当μ1,μ2,⋯,μm\mu_{1}, \mu_{2}, \cdots, \mu_{m}μ1,μ2,⋯,μm均未知时，
θ^j=hj(a1,a2,⋯,am),j=1,2,⋯,m\hat{\theta}_{j} = h_{j}\left(a_{1}, a_{2}, \cdots, a_{m}\right), \quad j=1,2, \cdots, m θ^j=hj(a1,a2,⋯,am),j=1,2,⋯,m
就是θj\theta_jθj的矩估计，其中ak=1n∑i=1nXika_k =\frac{1}{n}\sum_{i=1}^{n}X_{i}^{k}ak=n1∑i=1nXik

1.3 应用实例

设总体X的概率密度为f(x;θ)={1θ,0⩽x⩽θ,θ>00,其他. f(x ; \theta)=\left\{\begin{array}{ll} \frac{1}{\theta}, & 0 \leqslant x \leqslant \theta, \quad \theta>0 \\ 0, & \text { 其他. } \end{array}\right.f(x;θ)={θ1,0,0⩽x⩽θ,θ>0 其他. ，试求未知参数θ\thetaθ的矩估计

解：因为只有一个参数，所以只需要一个方程，从而只需要一阶矩即可

1、先求总体矩

μ1=EX=∫0θx1θdx=θ/2\mu_1 = EX = \int_{0}^{\theta}x\frac{1}{\theta}dx = \theta/2μ1=EX=∫0θxθ1dx=θ/2

2、将θ\thetaθ用总体矩表示

θ=2μ1\theta = 2\mu_1θ=2μ1

3、将总体矩替换为样本矩

所以θ^=2a1=2Xˉ\hat{\theta} = 2a_1 = 2\bar{X}θ^=2a1=2Xˉ

2. 最大似然估计法

2.1 简单随机样本

简单随机样本是抽样技术的基本概念之一，是指抽样的数据，不但是随机变量，而且相互独立，遵从同一分布（即同总体所遵从的分布）。

2.2 原理概述

最大似然估计本质上是通过找到是结果概率最大化的参数值作为参数的估计

在简单随机样本的条件下，由于样本之间的独立性，可以得到下式
f(x;θ1,θ2,⋯,θm)=∏i=1nf(xi;θ1,θ2,⋯,θm)f\left(x ; \theta_{1}, \theta_{2}, \cdots, \theta_{m}\right) = \prod_{i=1}^{n} f\left(x_i; \theta_{1}, \theta_{2}, \cdots, \theta_{m}\right) f(x;θ1,θ2,⋯,θm)=i=1∏nf(xi;θ1,θ2,⋯,θm)

L=L(θ1,θ2,⋯,θm)=∏i=1nf(xi;θ1,θ2,⋯,θm)L = L(\theta_{1}, \theta_{2}, \cdots, \theta_{m}) = \prod_{i=1}^{n} f\left(x_i; \theta_{1}, \theta_{2}, \cdots, \theta_{m}\right) L=L(θ1,θ2,⋯,θm)=i=1∏nf(xi;θ1,θ2,⋯,θm)

L(θ^1,θ^2,⋯,θ^m)=max⁡θ1,...,θmL(θ1,θ2,⋯,θm)L(\hat\theta_{1}, \hat\theta_{2}, \cdots, \hat\theta_{m}) = \max_{\theta_{1},..., \theta_{m}}L(\theta_{1}, \theta_{2}, \cdots, \theta_{m}) L(θ^1,θ^2,⋯,θ^m)=θ1,...,θmmaxL(θ1,θ2,⋯,θm)

求LLL最大值的过程就是取对数，求偏导，令偏导数为0，最终得到θ\thetaθ的估计

2.3 应用实例

设总体X服从指数分布 f(x;λ)={λe−λx,x>0,λ>00,x≤0f(x ; \lambda)=\left\{\begin{array}{ll} \lambda e^{-\lambda x}, & x>0, \lambda>0 \\ 0, & x \le 0 \end{array}\right.f(x;λ)={λe−λx,0,x>0,λ>0x≤0，求未知参数λ\lambdaλ的极大似然估计
L(λ)=∏i=1n(λe−λxi)=λne−λ∑i=1nxiL(\lambda)=\prod_{i=1}^{n}\left(\lambda \mathrm{e}^{-\lambda x_{i}}\right)=\lambda^{n} \mathrm{e}^{-\lambda} \sum_{i=1}^{n} x_{i} L(λ)=i=1∏n(λe−λxi)=λne−λi=1∑nxi

ln⁡L(λ)=nln⁡λ−λ∑i=1nxi\ln L(\lambda)=n \ln \lambda-\lambda \sum_{i=1}^{n} x_{i} lnL(λ)=nlnλ−λi=1∑nxi

dln⁡L(λ)dλ=nλ−∑i=1nxi=0\frac{\operatorname{dln} L(\lambda)}{\mathrm{d} \lambda}=\frac{n}{\lambda}-\sum_{i=1}^{n} x_{i}=0 dλdlnL(λ)=λn−i=1∑nxi=0

从而解得λ\lambdaλ的极大似然估计如下
λ^=1Xˉ\hat \lambda = \frac{1}{\bar X} λ^=Xˉ1

5.4.2 偏差

评估一个估计量的好坏，需要有一个衡量的准则或标准，包括偏差在内，以下介绍三种标准

无偏性

无偏性考虑偏差

偏差： bias(θ^)=E(θ^)−θbias(\hat\theta)= E(\hat\theta)-\thetabias(θ^)=E(θ^)−θ

无偏： 偏差为0，即E(θ^)=θE(\hat\theta)=\thetaE(θ^)=θ

虽然无偏性只表示平均误差为零，但从实际应用的角度看无偏估计的意义还在于，如果适用这一个估计量θ^(X1,X2,...,Xn)\hat\theta(X_1,X_2,...,X_n)θ^(X1,X2,...,Xn)反复计算出N个估计值θ^1,θ^2,...,θ^N\hat\theta_1,\hat\theta_2,...,\hat\theta_Nθ^1,θ^2,...,θ^N，那么根据（辛钦）大数定律，当N很大时，它们的平均值

∑i=1Nθ^N=E(θ^)=θ^\frac{\sum_{i=1}^{N}\hat\theta}{N} = E(\hat\theta) = \hat\theta N∑i=1Nθ^=E(θ^)=θ^

则可以给出非常接近于真值的估计。（辛钦大数定律描述的就是规模足够大时，样本均值趋近于总体期望）

然而，在实际应用中，并非都能进行反复抽样，通常只是由一个容量为n的样本值，根据估计量来计算出一个估计值，就以此作为对未知参数的估计，因此，为了得到更准确的估计值，我们偏向于在无偏估计中选择有较小方差的估计，也就是下面的有效性。

有效性

有效性考虑方差

设θ^=θ^(X1,X2,...,Xn)\hat\theta = \hat\theta(X_1,X2,...,X_n)θ^=θ^(X1,X2,...,Xn)与θ^′=θ^′(X1,X2,...,Xn)\hat\theta' = \hat\theta'(X_1,X2,...,X_n)θ^′=θ^′(X1,X2,...,Xn)都是θ\thetaθ的无偏估计，如果对任何可能的参数值θ\thetaθ都有

Dθ(θ^)≤Dθ(θ^′)D_{\theta}(\hat\theta)\le D_\theta(\hat\theta') Dθ(θ^)≤Dθ(θ^′)
且至少对某个参数值θ0\theta_0θ0使小于号成立，则称 θ^\hat\thetaθ^ 比 θ^′\hat\theta'θ^′ 有效

相合性

称估计量θ^=θ^(X1,X2,...,Xn)\hat\theta = \hat\theta(X_1,X2,...,X_n)θ^=θ^(X1,X2,...,Xn)是未知参数θ\thetaθ的相合（或一致）估计量，如果θ^\hat\thetaθ^依概率收敛于θ\thetaθ，即对任意的ε>0\varepsilon>0ε>0，有
lim⁡n→∞P(∣θ^n−θ∣⩾ε)=0\lim _{n \rightarrow \infty} P\left(\left|\hat\theta_{n}-\theta\right| \geqslant \varepsilon\right)=0 n→∞limP(∣∣∣θ^n−θ∣∣∣⩾ε)=0
例如，样本原点矩ak=1n∑i=1nXika_k = \frac{1}{n}\sum_{i=1}^{n}X_i^kak=n1∑i=1nXik是总体原点矩μ=EXk\mu = EX^kμ=EXk的相合估计（根据大数定律证明）

更多见 5.4.5 一致性

5.4.3 方差与标准差

我们希望一个估计量的偏差尽可能小，但同时我们也希望估计量比较稳定，即估计量有较小的方差

均值的标准差
SE⁡(μ^m)=Var⁡[1m∑i=1mx(i)]=σm\operatorname{SE}\left(\hat{\mu}_{m}\right)=\sqrt{\operatorname{Var}\left[\frac{1}{m} \sum_{i=1}^{m} x^{(i)}\right]}=\frac{\sigma}{\sqrt{m}} SE(μ^m)=Var[m1i=1∑mx(i)]=mσ
均值的标准差在机器学习实验中非常有用。我们通常用测试集样本的误差均值来估计泛化误差。测试集中样本的数量决定了这个估计的精确度。

5.4.4 权衡偏差和方差以最小化均方误差

交叉验证

请见交叉验证，K折交叉验证的偏差和方差分析 - 简书 (jianshu.com)

均方误差（MSE）

推导过程见关于参数的均方误差与偏差和方差之间的关系推导 - 知乎 (zhihu.com)，值得注意的是 θ\boldsymbol\thetaθ是一个常数
MSE=E[(θ^m−θ)2]=Bias(θ^m)2+Var(θm)MSE = E[(\hat\theta_m-\theta)^2] = Bias(\hat\theta_m)^2+Var(\theta_m) MSE=E[(θ^m−θ)2]=Bias(θ^m)2+Var(θm)

偏差与方差的关系

从图中不仅能看到偏差与方差的关系，也能看出模型过拟合往往高方差低偏差，欠拟合往往高偏差低方差

5.4.5 一致性

弱一致性与强一致性

回到5.4.3节

一致性与渐进无偏

上面举的示例没看懂，为什么E(θ^m)=θE(\hat\theta_m) = \thetaE(θ^m)=θ ？m下标是什么意思？待解决。。。。。。

深度学习花书-5.4 估计、偏差和方差相关推荐

深度学习花书学习感悟之第二章线性代数
趁着寒假的闲暇时光,希望能稍加学习. 花书毕竟是深度学习四大名著之一,因此早就想拜读一下.在其中获得的感悟或者学习到的新的内容,希望能够通过博客的形式记录下来.一来是希望能够记录下自己学习的点点滴滴, ...
深度学习花书学习感悟之第三章概率论
一.概率密度函数说到概率密度函数(probability density function, PDF,后面用简写),肯定是针对连续型变量而言的.对于离散型变量,我们称之为分布律对于概率密度函数,有 ...
深度学习基础系列（八）| 偏差和方差
当我们费劲周章不断调参来训练模型时,不可避免地会思考一系列问题,模型好坏的评判标准是什么?改善模型的依据何在?何时停止训练为佳? 要解决上述问题,我们需要引入偏差和方差这两个概念,理解他们很重要,也是 ...
深度学习花书中的概念——百晓生知识处理库自动抽取
分割后的名词组 ['机器学习(machinelearning)', '逻辑回归(logisticregression)的简单机器学习算法可以决定是否建议剖腹产(Mor-Yosefetal.', '一个 ...
动手学习深度学习花书踩坑01-----FashionMNIST数据集下载失败
在网上看了很多方法,一下让改 mnist.py 里的URL路径,一下让指定本地文件路径的,都没成功,可能是我把文件位置放错了,最后用自己的方法,巧妙地解决了. 1 先执行一遍书中原本的代码,这时候下载 ...
Deep Learning 深度学习花书 Ian Goodfellow 伊恩·古德费洛
免责说明资源仅为学习参考,不可用于商业目的!版权归原作者所有,请在下载后于24小时内删除!谢谢! 链接: https://pan.baidu.com/s/1S8QMCTfgsMm3VYhtg3WcP ...
火遍日本 IT 界的深度学习入门书，你读完了吗？
在日本 IT 圈,有一本书的影响力超越了实力派的"花书",长期位列日亚"人工智能"类图书榜首,众多五星好评.也许你有所耳闻,这本书就是<深度学习入门:基于 ...
爆火的深度学习面试书现可白嫖！GitHub上线2周1.5K Star，之前售价146元
金磊发自凹非寺量子位报道 | 公众号 QbitAI 面试宝典千千万,但这一份,应当是深度学习领域里不容错过的那一个了. 这不,才在arXiv"上架"12天,GitHub就狂 ...
基于TensorFlow 2.0的中文深度学习开源书来了！GitHub趋势日榜第一，斩获2K+星
十三发自凹非寺量子位报道 | 公众号 QbitAI TensorFlow 2.0 发布已有一个半月之久,你会用了吗? 近日,一个叫做深度学习开源书的项目在火了.GitHub趋势日榜排名全球第 ...
中文深度学习入门书：小白易入，课程、实战项目全有 | 五位导师联合出品
入门深度学习的最大阻碍是啥,课程资料太少.难度太大? 可能对于大部分中国AIer来说,语言门槛高过了一座大山.网红课虽好,但是英语听不懂啊. 鉴于大家都有这方面的困惑,今天就给大家推荐一本巨有影响力的 ...

深度学习花书-5.4 估计、偏差和方差