深度学习花书-5.4 估计、偏差和方差
5.4 估计、偏差和方差
5.4.1 点估计
点估计是依据样本估计总体分布中所含的未知参数或未知参数的函数。简单的来说,指直接以样本指标来估计总体指标,也叫定值估计。通常它们是总体的某个特征值,如数学期望、方差和相关系数等。点估计问题就是要构造一个只依赖于样本的量,作为未知参数或未知参数的函数的估计值。构造点估计常用的方法是:
①矩估计法,用样本矩估计总体矩
②最大似然估计法。利用样本分布密度构造似然函数来求出参数的最大似然估计。
③最小二乘法。主要用于线性统计模型中的参数估计问题。
④贝叶斯估计法。
1. 矩估计法
矩估计法, 也称“矩法估计”,就是利用样本矩来估计总体中相应的参数。对于随机变量来说,矩是其最广泛,最常用的数字特征,主要有中心矩和原点矩。 由辛钦大数定律知,简单随机样本的原点矩依概率收敛到相应的总体原点矩,这就启发我们想到用样本矩替换总体矩,进而找出未知参数的估计,基于这种思想求估计量的方法称为矩法。用矩法求得的估计称为矩法估计,简称矩估计。最简单的矩估计法是用一阶样本原点矩来估计总体的期望而用二阶样本中心矩来估计总体的方差。
1.1 原点矩与中心距
原点矩:E(Xk)E(X^k)E(Xk) 中心矩:E(X−EX)kE(X-E X)^{k}E(X−EX)k
一阶原点矩就是期望,二阶中心矩就是方差
1.2 原理概述
设总体X的概率密度为f(x;θ1,θ2,...,θm)f(x;\theta_1,\theta_2,...,\theta_m)f(x;θ1,θ2,...,θm),其中θ1,θ2,...,θm\theta_1,\theta_2,...,\theta_mθ1,θ2,...,θm为未知参数,假定X的前m阶矩μk=E(Xk)(k=1,2,...,m)\mu_k=E(X^k)(k=1,2,...,m)μk=E(Xk)(k=1,2,...,m)都存在,他们是θ1,θ2,...,θm\theta_1,\theta_2,...,\theta_mθ1,θ2,...,θm的函数,记为qk(θ1,θ2,...,θm)q_k(\theta_1,\theta_2,...,\theta_m)qk(θ1,θ2,...,θm),即
μk=∫−∞+∞xkf(x;θ1,θ2,⋯,θm)dx=qk(θ1,θ2,⋯,θm)\mu_{k}=\int_{-\infty}^{+\infty} x^{k} f\left(x ; \theta_{1}, \theta_{2}, \cdots, \theta_{m}\right) \mathrm{d} x=q_{k}\left(\theta_{1}, \theta_{2}, \cdots, \theta_{m}\right) μk=∫−∞+∞xkf(x;θ1,θ2,⋯,θm)dx=qk(θ1,θ2,⋯,θm)
从此方程(组)可解出
θj=hj(μ1,μ2,⋯,μm),j=1,2,⋯,m\theta_{j}=h_{j}\left(\mu_{1}, \mu_{2}, \cdots, \mu_{m}\right), \quad j=1,2, \cdots, m θj=hj(μ1,μ2,⋯,μm),j=1,2,⋯,m
那么,当μ1,μ2,⋯,μm\mu_{1}, \mu_{2}, \cdots, \mu_{m}μ1,μ2,⋯,μm均未知时,
θ^j=hj(a1,a2,⋯,am),j=1,2,⋯,m\hat{\theta}_{j} = h_{j}\left(a_{1}, a_{2}, \cdots, a_{m}\right), \quad j=1,2, \cdots, m θ^j=hj(a1,a2,⋯,am),j=1,2,⋯,m
就是θj\theta_jθj的矩估计,其中ak=1n∑i=1nXika_k =\frac{1}{n}\sum_{i=1}^{n}X_{i}^{k}ak=n1∑i=1nXik
1.3 应用实例
设总体X的概率密度为f(x;θ)={1θ,0⩽x⩽θ,θ>00,其他. f(x ; \theta)=\left\{\begin{array}{ll} \frac{1}{\theta}, & 0 \leqslant x \leqslant \theta, \quad \theta>0 \\ 0, & \text { 其他. } \end{array}\right.f(x;θ)={θ1,0,0⩽x⩽θ,θ>0 其他. ,试求未知参数θ\thetaθ的矩估计
解:因为只有一个参数,所以只需要一个方程,从而只需要一阶矩即可
1、先求总体矩
μ1=EX=∫0θx1θdx=θ/2\mu_1 = EX = \int_{0}^{\theta}x\frac{1}{\theta}dx = \theta/2μ1=EX=∫0θxθ1dx=θ/2
2、将θ\thetaθ用总体矩表示
θ=2μ1\theta = 2\mu_1θ=2μ1
3、将总体矩替换为样本矩
所以θ^=2a1=2Xˉ\hat{\theta} = 2a_1 = 2\bar{X}θ^=2a1=2Xˉ
2. 最大似然估计法
2.1 简单随机样本
简单随机样本是抽样技术的基本概念之一,是指抽样的数据,不但是随机变量,而且相互独立,遵从同一分布(即同总体所遵从的分布)。
2.2 原理概述
最大似然估计本质上是通过找到是结果概率最大化的参数值作为参数的估计
在简单随机样本的条件下,由于样本之间的独立性,可以得到下式
f(x;θ1,θ2,⋯,θm)=∏i=1nf(xi;θ1,θ2,⋯,θm)f\left(x ; \theta_{1}, \theta_{2}, \cdots, \theta_{m}\right) = \prod_{i=1}^{n} f\left(x_i; \theta_{1}, \theta_{2}, \cdots, \theta_{m}\right) f(x;θ1,θ2,⋯,θm)=i=1∏nf(xi;θ1,θ2,⋯,θm)
L=L(θ1,θ2,⋯,θm)=∏i=1nf(xi;θ1,θ2,⋯,θm)L = L(\theta_{1}, \theta_{2}, \cdots, \theta_{m}) = \prod_{i=1}^{n} f\left(x_i; \theta_{1}, \theta_{2}, \cdots, \theta_{m}\right) L=L(θ1,θ2,⋯,θm)=i=1∏nf(xi;θ1,θ2,⋯,θm)
L(θ^1,θ^2,⋯,θ^m)=maxθ1,...,θmL(θ1,θ2,⋯,θm)L(\hat\theta_{1}, \hat\theta_{2}, \cdots, \hat\theta_{m}) = \max_{\theta_{1},..., \theta_{m}}L(\theta_{1}, \theta_{2}, \cdots, \theta_{m}) L(θ^1,θ^2,⋯,θ^m)=θ1,...,θmmaxL(θ1,θ2,⋯,θm)
求LLL最大值的过程就是取对数,求偏导,令偏导数为0,最终得到θ\thetaθ的估计
2.3 应用实例
设总体X服从指数分布 f(x;λ)={λe−λx,x>0,λ>00,x≤0f(x ; \lambda)=\left\{\begin{array}{ll} \lambda e^{-\lambda x}, & x>0, \lambda>0 \\ 0, & x \le 0 \end{array}\right.f(x;λ)={λe−λx,0,x>0,λ>0x≤0,求未知参数λ\lambdaλ的极大似然估计
L(λ)=∏i=1n(λe−λxi)=λne−λ∑i=1nxiL(\lambda)=\prod_{i=1}^{n}\left(\lambda \mathrm{e}^{-\lambda x_{i}}\right)=\lambda^{n} \mathrm{e}^{-\lambda} \sum_{i=1}^{n} x_{i} L(λ)=i=1∏n(λe−λxi)=λne−λi=1∑nxi
lnL(λ)=nlnλ−λ∑i=1nxi\ln L(\lambda)=n \ln \lambda-\lambda \sum_{i=1}^{n} x_{i} lnL(λ)=nlnλ−λi=1∑nxi
dlnL(λ)dλ=nλ−∑i=1nxi=0\frac{\operatorname{dln} L(\lambda)}{\mathrm{d} \lambda}=\frac{n}{\lambda}-\sum_{i=1}^{n} x_{i}=0 dλdlnL(λ)=λn−i=1∑nxi=0
从而解得λ\lambdaλ的极大似然估计如下
λ^=1Xˉ\hat \lambda = \frac{1}{\bar X} λ^=Xˉ1
5.4.2 偏差
评估一个估计量的好坏,需要有一个衡量的准则或标准,包括偏差在内,以下介绍三种标准
无偏性
无偏性考虑偏差
偏差: bias(θ^)=E(θ^)−θbias(\hat\theta)= E(\hat\theta)-\thetabias(θ^)=E(θ^)−θ
无偏: 偏差为0,即E(θ^)=θE(\hat\theta)=\thetaE(θ^)=θ
虽然无偏性只表示平均误差为零,但从实际应用的角度看无偏估计的意义还在于,如果适用这一个估计量θ^(X1,X2,...,Xn)\hat\theta(X_1,X_2,...,X_n)θ^(X1,X2,...,Xn)反复计算出N个估计值θ^1,θ^2,...,θ^N\hat\theta_1,\hat\theta_2,...,\hat\theta_Nθ^1,θ^2,...,θ^N,那么根据(辛钦)大数定律,当N很大时,它们的平均值
∑i=1Nθ^N=E(θ^)=θ^\frac{\sum_{i=1}^{N}\hat\theta}{N} = E(\hat\theta) = \hat\theta N∑i=1Nθ^=E(θ^)=θ^
则可以给出非常接近于真值的估计。(辛钦大数定律描述的就是规模足够大时,样本均值趋近于总体期望)
然而,在实际应用中,并非都能进行反复抽样,通常只是由一个容量为n的样本值,根据估计量来计算出一个估计值,就以此作为对未知参数的估计,因此,为了得到更准确的估计值,我们偏向于在无偏估计中选择有较小方差的估计,也就是下面的有效性。
有效性
有效性考虑方差
设θ^=θ^(X1,X2,...,Xn)\hat\theta = \hat\theta(X_1,X2,...,X_n)θ^=θ^(X1,X2,...,Xn)与θ^′=θ^′(X1,X2,...,Xn)\hat\theta' = \hat\theta'(X_1,X2,...,X_n)θ^′=θ^′(X1,X2,...,Xn)都是θ\thetaθ的无偏估计,如果对任何可能的参数值θ\thetaθ都有
Dθ(θ^)≤Dθ(θ^′)D_{\theta}(\hat\theta)\le D_\theta(\hat\theta') Dθ(θ^)≤Dθ(θ^′)
且至少对某个参数值θ0\theta_0θ0使小于号成立,则称 θ^\hat\thetaθ^ 比 θ^′\hat\theta'θ^′ 有效
相合性
称估计量θ^=θ^(X1,X2,...,Xn)\hat\theta = \hat\theta(X_1,X2,...,X_n)θ^=θ^(X1,X2,...,Xn)是未知参数θ\thetaθ的相合(或一致)估计量,如果θ^\hat\thetaθ^依概率收敛于θ\thetaθ,即对任意的ε>0\varepsilon>0ε>0,有
limn→∞P(∣θ^n−θ∣⩾ε)=0\lim _{n \rightarrow \infty} P\left(\left|\hat\theta_{n}-\theta\right| \geqslant \varepsilon\right)=0 n→∞limP(∣∣∣θ^n−θ∣∣∣⩾ε)=0
例如,样本原点矩ak=1n∑i=1nXika_k = \frac{1}{n}\sum_{i=1}^{n}X_i^kak=n1∑i=1nXik是总体原点矩μ=EXk\mu = EX^kμ=EXk的相合估计(根据大数定律证明)
更多见 5.4.5 一致性
5.4.3 方差与标准差
我们希望一个估计量的偏差尽可能小,但同时我们也希望估计量比较稳定,即估计量有较小的方差
均值的标准差
SE(μ^m)=Var[1m∑i=1mx(i)]=σm\operatorname{SE}\left(\hat{\mu}_{m}\right)=\sqrt{\operatorname{Var}\left[\frac{1}{m} \sum_{i=1}^{m} x^{(i)}\right]}=\frac{\sigma}{\sqrt{m}} SE(μ^m)=Var[m1i=1∑mx(i)]=mσ
均值的标准差在机器学习实验中非常有用。我们通常用测试集样本的误差均值来估计泛化误差。测试集中样本的数量决定了这个估计的精确度。
5.4.4 权衡偏差和方差以最小化均方误差
交叉验证
请见 交叉验证,K折交叉验证的偏差和方差分析 - 简书 (jianshu.com)
均方误差(MSE)
推导过程见 关于参数的均方误差与偏差和方差之间的关系推导 - 知乎 (zhihu.com),值得注意的是 θ\boldsymbol\thetaθ是一个常数
MSE=E[(θ^m−θ)2]=Bias(θ^m)2+Var(θm)MSE = E[(\hat\theta_m-\theta)^2] = Bias(\hat\theta_m)^2+Var(\theta_m) MSE=E[(θ^m−θ)2]=Bias(θ^m)2+Var(θm)
偏差与方差的关系
从图中不仅能看到偏差与方差的关系,也能看出模型过拟合往往高方差低偏差,欠拟合往往高偏差低方差
5.4.5 一致性
弱一致性与强一致性
回到5.4.3节
一致性与渐进无偏
上面举的示例没看懂,为什么E(θ^m)=θE(\hat\theta_m) = \thetaE(θ^m)=θ ?m下标是什么意思?待解决。。。。。。
深度学习花书-5.4 估计、偏差和方差相关推荐
- 深度学习花书学习感悟之第二章线性代数
趁着寒假的闲暇时光,希望能稍加学习. 花书毕竟是深度学习四大名著之一,因此早就想拜读一下.在其中获得的感悟或者学习到的新的内容,希望能够通过博客的形式记录下来.一来是希望能够记录下自己学习的点点滴滴, ...
- 深度学习花书学习感悟之第三章概率论
一.概率密度函数 说到概率密度函数(probability density function, PDF,后面用简写),肯定是针对连续型变量而言的.对于离散型变量,我们称之为分布律 对于概率密度函数,有 ...
- 深度学习基础系列(八)| 偏差和方差
当我们费劲周章不断调参来训练模型时,不可避免地会思考一系列问题,模型好坏的评判标准是什么?改善模型的依据何在?何时停止训练为佳? 要解决上述问题,我们需要引入偏差和方差这两个概念,理解他们很重要,也是 ...
- 深度学习 花书中的概念——百晓生知识处理库自动抽取
分割后的名词组 ['机器学习(machinelearning)', '逻辑回归(logisticregression)的简单机器学习算法可以决定是否建议剖腹产(Mor-Yosefetal.', '一个 ...
- 动手学习深度学习花书踩坑01-----FashionMNIST数据集下载失败
在网上看了很多方法,一下让改 mnist.py 里的URL路径,一下让指定本地文件路径的,都没成功,可能是我把文件位置放错了,最后用自己的方法,巧妙地解决了. 1 先执行一遍书中原本的代码,这时候下载 ...
- Deep Learning 深度学习 花书 Ian Goodfellow 伊恩·古德费洛
免责说明 资源仅为学习参考,不可用于商业目的!版权归原作者所有,请在下载后于24小时内删除!谢谢! 链接: https://pan.baidu.com/s/1S8QMCTfgsMm3VYhtg3WcP ...
- 火遍日本 IT 界的深度学习入门书,你读完了吗?
在日本 IT 圈,有一本书的影响力超越了实力派的"花书",长期位列日亚"人工智能"类图书榜首,众多五星好评.也许你有所耳闻,这本书就是<深度学习入门:基于 ...
- 爆火的深度学习面试书现可白嫖!GitHub上线2周1.5K Star,之前售价146元
金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 面试宝典千千万,但这一份,应当是深度学习领域里不容错过的那一个了. 这不,才在arXiv"上架"12天,GitHub就狂 ...
- 基于TensorFlow 2.0的中文深度学习开源书来了!GitHub趋势日榜第一,斩获2K+星
十三 发自 凹非寺 量子位 报道 | 公众号 QbitAI TensorFlow 2.0 发布已有一个半月之久,你会用了吗? 近日,一个叫做深度学习开源书的项目在火了.GitHub趋势日榜排名全球第 ...
- 中文深度学习入门书:小白易入,课程、实战项目全有 | 五位导师联合出品
入门深度学习的最大阻碍是啥,课程资料太少.难度太大? 可能对于大部分中国AIer来说,语言门槛高过了一座大山.网红课虽好,但是英语听不懂啊. 鉴于大家都有这方面的困惑,今天就给大家推荐一本巨有影响力的 ...
最新文章
- window.opener方法的使用 js跨域
- 网站站外优化工作这四项比较“突出”
- 1107 Linq高级查询
- Android系统截屏的实现(附代码)
- 数字图像处理:第八章 形态学运算
- 网络仿真中数据生成相关
- fir c语言程序,fir.rar fir的c语言程序 - 下载 - 搜珍网
- 正则式转化nfa 代码_从0到1打造正则表达式执行引擎(二)
- extjs初学者教程
- 利用QGIS提取天地图矢量底图中的建筑模型边界线
- Android Camera动态人脸识别+人脸检测基于OpenCV(无需OpenCVManager)
- 远程erp打印文件本地打印机没反应问题
- C++刷题: 逆波兰表达式(力扣150题)
- Progressive LayeredExtraction(PLE):ANovelMulti-Task Learning(MTL)ModelforPersonalizedRecommendations
- ios苹果签名多少钱?苹果企业签名是最便宜的吗
- 远程桌面连接服务器时,键盘不能正常打字
- 京东云提供全“云”保障 11.11京东累计金额突破1794亿元
- Python简笔画——用Turtle库画一只《穿红靴子的小鸭》
- pip的基本命令和使用
- guava之限流RateLimiter