假设样本变量为 XXX ,它的标签 Y" role="presentation">YYY 为 XXX 的函数 Y=f(X)+ϵ" role="presentation">Y=f(X)+ϵY=f(X)+ϵY = f\left (X\right ) + \epsilon 。其中为 ϵϵ\epsilon 机器学习模型学习不到的噪音。
对于机器学习模型 M,M,M, 假设训练后,对 XXX 的预测值为 X" role="presentation">XXX 的函数 f^(X)f^(X)\hat f \left (X \right ) 。
对于一个测试集中的样本点 xxx ,它的标签 y=f(x)+ϵ" role="presentation">y=f(x)+ϵy=f(x)+ϵy = f \left (x\right ) + \epsilon
记 f=f(x),f=f(x),f = f\left (x\right ) ,
假设 Eϵ=0,Varϵ=σ2E⁡ϵ=0,Var⁡ϵ=σ2\operatorname E \epsilon = 0, \operatorname {Var} \epsilon = \sigma ^2
使用不同的训练集对 MMM 进行多次训练,每次训练后都记录在点 x" role="presentation">xxx 的预测值 f^(x)f^(x)\hat f \left (x\right ) 。
记 f^=f^(x),f^=f^(x),\hat f = \hat f \left (x\right ), 则可把 f^f^\hat f 视为随机变量。
于是均方误差 (f^−y)2(f^−y)2\left (\hat f - y \right )^2 是随机变量 f^,ϵf^,ϵ\hat f, \epsilon 的函数,它期望值为:
E(f^−y)2=(Bias)2+Varf^+σ2E⁡(f^−y)2=(Bias)2+Var⁡f^+σ2\operatorname E \left (\hat f - y \right )^2 = \left ( \operatorname {Bias} \right ) ^2 + \operatorname {Var} \hat f + \sigma ^2
其中 Bias=Ef^−fBias=E⁡f^−f\operatorname {Bias} = \operatorname E \hat f - f
Varf^=E(f^−Ef^)2Var⁡f^=E⁡(f^−E⁡f^)2 \operatorname {Var} \hat f = \operatorname E \left (\hat f - \operatorname E \hat f\right ) ^2

证明

Ey=E(f+ϵ)=fE⁡y=E⁡(f+ϵ)=f\operatorname E y = \operatorname E \left ( f + \epsilon\right ) = f
Eϵ2=(Eϵ)2+Varϵ=Varϵ=σ2E⁡ϵ2=(E⁡ϵ)2+Var⁡ϵ=Var⁡ϵ=σ2\operatorname E \epsilon ^2 = \left ( \operatorname E \epsilon\right ) ^2 + \operatorname {Var} \epsilon = \operatorname {Var} \epsilon = \sigma ^2

E(f^−f)2=E(f^−Ef^+Ef^−f)2E⁡(f^−f)2=E⁡(f^−E⁡f^+E⁡f^−f)2\operatorname E \left (\hat f - f\right )^2 = \operatorname E \left (\hat f - \operatorname E \hat f + \operatorname E \hat f- f\right )^2
=E(f^−Ef^)2+(Ef^−f)2+2E(f^−Ef^)⋅(Ef^−f)=E⁡(f^−E⁡f^)2+(E⁡f^−f)2+2E(f^−E⁡f^)⋅(E⁡f^−f)= \operatorname E \left (\hat f - \operatorname E \hat f \right )^2 + \left ( \operatorname E \hat f- f\right ) ^2 + 2 E \left (\hat f - \operatorname E \hat f \right ) \cdot \left ( \operatorname E \hat f- f\right )
=E(Ef^−f)2+E(f^−Ef^)2=E(E⁡f^−f)2+E⁡(f^−E⁡f^)2= E \left ( \operatorname E \hat f- f\right ) ^2 + \operatorname E \left (\hat f - \operatorname E \hat f \right )^2
=(Bias)2+Varf^=(Bias)2+Var⁡f^= \left ( \operatorname {Bias} \right ) ^2 + \operatorname {Var} \hat f
因此 E(f^−y)2=E(f^−f−ϵ)2E⁡(f^−y)2=E⁡(f^−f−ϵ)2\operatorname E \left (\hat f - y \right )^2 = \operatorname E \left ( \hat f - f - \epsilon \right )^2
=E(f^−f)2+Eϵ2−2E(f^−f)Eϵ=E⁡(f^−f)2+E⁡ϵ2−2E⁡(f^−f)E⁡ϵ= \operatorname E \left ( \hat f - f \right )^2 + \operatorname E \epsilon ^2 - 2 \operatorname E \left ( \hat f - f \right ) \operatorname E \epsilon
=Eϵ2+E(f^−f)2=E⁡ϵ2+E⁡(f^−f)2= \operatorname E \epsilon ^2 + \operatorname E \left ( \hat f - f \right )^2
=σ2+(Bias)2+Varf^=σ2+(Bias)2+Var⁡f^=\sigma ^2 + \left ( \operatorname {Bias} \right ) ^2 + \operatorname {Var} \hat f

References

  1. Understanding the Bias-Variance Tradeoff
  2. Bias–variance tradeoff

机器学习的偏差-方差分解相关推荐

  1. 机器学习之过拟合与欠拟合以及偏差-方差分解

    1.过拟合 所谓过拟合就是:把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致训练出的模型其泛化能力降低,这就是过拟合. 如何解决? 1)Early stopping Earl ...

  2. 【机器学习-西瓜书】二、偏差-方差分解;泛化误差

    2.5偏差与方差 关键词:偏差-方差分解:泛化误差 . 偏差-方差分解是解释算法泛化性能的一种重要工具.偏差-方差分解试图对学习算法的期望泛化错误率进行拆解. 泛化误差可分解为:偏差,方差与噪声之和. ...

  3. 偏差-方差分解,学习和验证曲线评估模型

    偏差-方差分解 参考链接:https://www.zhihu.com/question/20448464 https://blog.csdn.net/simple_the_best/article/d ...

  4. 机器学习偏差方差_机器学习101 —偏差方差难题

    机器学习偏差方差 Determining the performance of our model is one of the most crucial steps in the machine le ...

  5. 你真的理解机器学习中偏差 - 方差之间的权衡吗?

    作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai 简书地址:http://www.jianshu.com/p/f143... 我认为对偏差 - 方差之间的 ...

  6. 【机器学习】——偏差方差,欠拟合过拟合

    这一篇我们就是介绍机器学习中误差的来源--模型的偏差与方差 偏差与方差的直观理解 我们首先从直观上来理解一下这两个词: 偏差 直观上我们感觉偏差就是预测值与真实值的偏离程度 方差 大家在统计学中应该都 ...

  7. 偏差-方差分解 Bias-Variance Decomposition(转载)

    转载自http://www.cnblogs.com/jmp0xf/archive/2013/05/14/Bias-Variance_Decomposition.html 完全退化了,不会分解,看到别人 ...

  8. python 方差分解_干货 :教你用Python来计算偏差-方差权衡

    原标题:干货 :教你用Python来计算偏差-方差权衡 作者:Jason Brownlee 翻译:吴振东 本文约3800字,建议阅读8分钟. 本文为你讲解模型偏差.方差和偏差-方差权衡的定义及联系,并 ...

  9. 独家 | 教你用Python来计算偏差-方差权衡

    作者:Jason Brownlee 翻译:吴振东 校对:车前子 本文约3800字,建议阅读8分钟. 本文为你讲解模型偏差.方差和偏差-方差权衡的定义及联系,并教你用Python来计算. 衡量一个机器学 ...

  10. 1.2 偏差/方差-深度学习第二课《改善深层神经网络》-Stanford吴恩达教授

    ←上一篇 ↓↑ 下一篇→ 1.1 训练/开发/测试集 回到目录 1.3 机器学习基础 偏差/方差 (Bias/Variance) 我注意到,几乎所有机器学习从业人员都期望深刻理解偏差和方差,这两个概念 ...

最新文章

  1. package.json 中的 bin 字段作用
  2. 【Redis】17.Cluster集群结构搭建
  3. 【Java】百钱买百鸡问题
  4. vue组件穿方法_vue组件间通信六种方式(完整版)
  5. Flutter进阶—实现动画效果(七)
  6. url编码解码的三种方式
  7. 牛客练习赛30: D. 消消乐(二分匹配+输出最小点覆盖)
  8. 【2017-5-21】问题总结 Session,Cookie,登录状态保持
  9. 在 Mac OS X 安装gcc编辑环境,make不能用时参考
  10. 《纽约时报》:乔布斯最后的日子 与家人相伴
  11. 易语言锐浪报表连接mysql_学习锐浪报表之MySQL连接字符串的实际操作步骤汇总...
  12. IOCCC(The International Obfuscated C Code Contest)
  13. 阿里架构师墙裂推荐Java岗实战文档:Spring全家桶+Docker+Redis
  14. Unity基础(三)--动画系统
  15. 我国iPS细胞事业支援促进委员会成立
  16. 银行数据仓库体系实践(15)--数据应用之巴塞尔新资本协议
  17. Redis面试宝典12道法
  18. 【Qt】Qt运行时Cannot retrieve debugging output错误
  19. iwanna用哪个计算机语言,IwannabetheCreator电脑版
  20. 《黑马程序员》C++基础入门(一)

热门文章

  1. STL中map与hash_map容器的选择
  2. wordpress让百度分享支持https
  3. 给wordpress添加留言者操作系统、浏览器和运营商信息
  4. linux中文件大小的分配,Linux创造固定的文件大小-预分配磁盘空间
  5. word中填充效果锁定纵横比_操作基础知识Word文字编辑
  6. 内存分配-堆-栈-静态区
  7. 【hdu3501】求[1,n-1]与n不互质的所有数之和(单个欧拉函数求法+[1,n]和n互质的数之和公式----模版题)
  8. linux 围棋界面,围棋GUI界面Sabaki怎么用?
  9. 写的函数符号表里没有_DATEDIF函数,看看你的Excel里有没有?
  10. lisp用entmake生产圆柱体_液态基酒生产