• 假设数据集上需要预测的样本为Y ,特征为X, 潜在模型为Y=f(X)+εY=f(X)+ \varepsilonY=f(X)+ε,其中ε∼N(0,σε)\varepsilon \sim N(0,\sigma_\varepsilon)ε∼N(0,σε​)是噪声,估计的模型为f^(x)\hat{f}(x)f^​(x)。
  • 推导过程
    1. Err(X)=E[(Y−f^(X))2]Err(X)=E[(Y-\hat{f}(X))^{2}]Err(X)=E[(Y−f^​(X))2]
    2. Err(X)=E[(f(X)+ε−f^(X))2]Err(X)=E[(f(X)+\varepsilon-\hat{f}(X))^{2}]Err(X)=E[(f(X)+ε−f^​(X))2]
    3. Err(X)=E[(f(X)−f^(X))2+2ε(f(X)−f^(X))+ε2]Err(X)=E[(f(X)-\hat{f}(X))^{2}+2\varepsilon (f(X)-\hat{f}(X))+\varepsilon^{2}]Err(X)=E[(f(X)−f^​(X))2+2ε(f(X)−f^​(X))+ε2]
      由于ε\varepsilonε服从均值为0的分布,故对2ε(f(X)−f^(X))2\varepsilon (f(X)-\hat{f}(X))2ε(f(X)−f^​(X))求期望得0,ε2\varepsilon^{2}ε2的期望等于其方差。
    4. Err(X)=E[(E(f^(X))−f(X)+f^(X)−E(f^(X)))2]+σε2Err(X)=E[(E(\hat{f}(X) )-f(X) +\hat{f}(X) -E(\hat{f}(X) ) )^{2}]+\sigma _{\varepsilon }^{2}Err(X)=E[(E(f^​(X))−f(X)+f^​(X)−E(f^​(X)))2]+σε2​
    5. Err(X)=E[(E(f^(X))−f(X))2]+E[(f^(X)−E(f^(X)))2]+2E[(E(f^(X))−f(X))(f^(X)−E(f^(X)))]+σε2Err(X)=E[(E(\hat{f}(X) )-f(X) )^{2}]+E[(\hat{f}(X) -E(\hat{f}(X) ) )^{2}] +2E[ (E(\hat{f}(X) )-f(X) )(\hat{f}(X) -E(\hat{f}(X) )) ]+\sigma _{\varepsilon }^{2}Err(X)=E[(E(f^​(X))−f(X))2]+E[(f^​(X)−E(f^​(X)))2]+2E[(E(f^​(X))−f(X))(f^​(X)−E(f^​(X)))]+σε2​
    6. 对 E[(E(f^(X))−f(X))(f^(X)−E(f^(X)))]E[ (E(\hat{f}(X) )-f(X) )(\hat{f}(X) -E(\hat{f}(X) )) ]E[(E(f^​(X))−f(X))(f^​(X)−E(f^​(X)))]进一步展开可得:
      E[E(f^(X))f^(X)−E(f^(X))2−f(X)f^(X)+f(X)E(f^(X))]E[ E(\hat{f}(X) ) \hat{f}(X) - E(\hat{f}(X) )^{2} - f(X)\hat{f}(X) + f(X)E(\hat{f}(X) ) ]E[E(f^​(X))f^​(X)−E(f^​(X))2−f(X)f^​(X)+f(X)E(f^​(X))]
      其中前两项和为0,得E[f(X)E(f^(X))−f(X)f^(X)]E[ f(X)E(\hat{f}(X) ) - f(X)\hat{f}(X) ]E[f(X)E(f^​(X))−f(X)f^​(X)]
    7. E(f^(X))E(\hat{f}(X) )E(f^​(X))是一个值所以可以从式中提出来,同时f(X)f(X)f(X),f^(X)\hat{f}(X)f^​(X)相互独立。故
      E[f(X)E(f^(X))−f(X)f^(X)]=E(f^(X))E(f(X))−E(f(X))E(f^(X))=0E[ f(X)E(\hat{f}(X) ) - f(X)\hat{f}(X) ] = E(\hat{f}(X) )E(f(X) ) - E(f(X) )E(\hat{f}(X) ) = 0E[f(X)E(f^​(X))−f(X)f^​(X)]=E(f^​(X))E(f(X))−E(f(X))E(f^​(X))=0
    8. Err(X)=E[(E(f^(X))−f(X))2]+E[(f^(X)−E(f^(X)))2]+σε2Err(X)=E[(E(\hat{f}(X) )-f(X) )^{2}]+E[(\hat{f}(X) -E(\hat{f}(X) ) )^{2}] +\sigma _{\varepsilon }^{2}Err(X)=E[(E(f^​(X))−f(X))2]+E[(f^​(X)−E(f^​(X)))2]+σε2​
    9. Err(X)=Bias2+Var(X)+σε2Err(X)=Bias^{2}+Var(X)+\sigma_{\varepsilon}^{2}Err(X)=Bias2+Var(X)+σε2​
  • 泛化误差可以分解为:偏差+方差
  • 偏差:反映了模型在样本上的期望输出与真是标记之间的差距,即模型本身的精准度,反映的是模型本身的拟合能力。
  • 方差:反映了模型在不同训练数据集下学得的函数的输出与期望输出之间的误差,即模型的稳定性,反应的是模型的波动情况。
  • 泛化误差分析:欠拟合,高偏差低方差;过拟合,低偏差高方差。

偏差-方差分解简要推导相关推荐

  1. 机器学习之过拟合与欠拟合以及偏差-方差分解

    1.过拟合 所谓过拟合就是:把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致训练出的模型其泛化能力降低,这就是过拟合. 如何解决? 1)Early stopping Earl ...

  2. 【机器学习-西瓜书】二、偏差-方差分解;泛化误差

    2.5偏差与方差 关键词:偏差-方差分解:泛化误差 . 偏差-方差分解是解释算法泛化性能的一种重要工具.偏差-方差分解试图对学习算法的期望泛化错误率进行拆解. 泛化误差可分解为:偏差,方差与噪声之和. ...

  3. 偏差-方差分解,学习和验证曲线评估模型

    偏差-方差分解 参考链接:https://www.zhihu.com/question/20448464 https://blog.csdn.net/simple_the_best/article/d ...

  4. 偏差-方差分解 Bias-Variance Decomposition(转载)

    转载自http://www.cnblogs.com/jmp0xf/archive/2013/05/14/Bias-Variance_Decomposition.html 完全退化了,不会分解,看到别人 ...

  5. 方差与偏差的意义与推导过程

    文章目录 基本概念 偏差与方差的公式推导 符号假设 泛化误差.偏差和方差之间的关系 偏差.方差窘境 偏差.方差与过拟合.欠拟合的关系? 偏差.方差与bagging.boosting的关系? 如何解决偏 ...

  6. python 方差分解_干货 :教你用Python来计算偏差-方差权衡

    原标题:干货 :教你用Python来计算偏差-方差权衡 作者:Jason Brownlee 翻译:吴振东 本文约3800字,建议阅读8分钟. 本文为你讲解模型偏差.方差和偏差-方差权衡的定义及联系,并 ...

  7. 独家 | 教你用Python来计算偏差-方差权衡

    作者:Jason Brownlee 翻译:吴振东 校对:车前子 本文约3800字,建议阅读8分钟. 本文为你讲解模型偏差.方差和偏差-方差权衡的定义及联系,并教你用Python来计算. 衡量一个机器学 ...

  8. 机器学习偏差方差_机器学习101 —偏差方差难题

    机器学习偏差方差 Determining the performance of our model is one of the most crucial steps in the machine le ...

  9. 你真的理解机器学习中偏差 - 方差之间的权衡吗?

    作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai 简书地址:http://www.jianshu.com/p/f143... 我认为对偏差 - 方差之间的 ...

  10. 偏差-方差均衡(Bias-Variance Tradeoff)

    众所周知,对于线性回归,我们把目标方程式写成:. (其中,f(x)是自变量x和因变量y之间的关系方程式,表示由噪音造成的误差项,这个误差是无法消除的) 对y的估计写成:. 就是对自变量和因变量之间的关 ...

最新文章

  1. uv_timer_t的释放问题
  2. 如何设计一颗40PFLOPS量级的AI芯片?
  3. 函数不可访问_C++之访问控制与继承
  4. 上级对下级用通知合适吗_用报纸练书法,真的合适吗吗?
  5. 微型计算机内存为8m,通常说一台微机的内存容量为8M,指的是_______。
  6. 安装Ubuntu 18.04后的一些操作
  7. python做作业没头绪_使用Python做作业
  8. javascript中构造函数的说明
  9. 服务容错保护断路器Hystrix之七:做到自动降级
  10. 用Grafana为Elasticsearch做日志分析
  11. Java案例:利用JDBC访问SQL Server数据库
  12. putty使用私钥登录
  13. Wifi网络共享----Connectify 使用
  14. python数据分析实战之超市零售分析
  15. MySQL8 一文读懂存储过程
  16. 使用滴滴mpx 开发一个小程序组件
  17. 运行多个mysql service_同时运行多个MySQL服务器的方法
  18. 【最新可用】Omnigraffle软件的安装使用
  19. 翰林学院python_为什么入门大数据选择Python而不是Java?
  20. 两个PDF比较标出差异_泰比 OCR 和 PDF 编辑工具 ABBYY FineReader Enterprise 中文版

热门文章

  1. mysql 交换 表分区_Mysql交换分区
  2. mysql如何进行数据透视_简单谈谈MySQL数据透视表
  3. 愚人节就是要搞怪!微信公众号图文应该这样排版!
  4. html5头部区域标签,HTML5语义标签(header、section、footer)
  5. DNS 协议是什么?
  6. “Microsoft C++ 异常: cv::Exception,位于内存位置 0x0000005C8ECFFA80 处。”
  7. 自动化测试——selenium(完结篇)
  8. 爬虫基本操作+获取豆瓣250top电影信息
  9. 基于区块链技术的航运贸易流程研究
  10. xml读取前面多一个?