分类目录:《深入理解机器学习》总目录


偏差(Bias)与方差(Variance)是解释学习算法泛化性能的一种重要工具。偏差方差分解试图对学习算法的期望泛化错误率进行拆解,我们知道,算法在不同训练集上学得的结果很可能不同,即便这些训练集是来自同一个分布,对测试样本 x x x,令 y D y_D yD​为在数据集中的标记, y y y为 x x x的真实标记 f ( x ; D ) f(x;D) f(x;D)为训练集 D D D上学得模型 f f f在上的预测输出。以回归任务为例,学习算法的期望预测为:
f ( x ) = E D [ f ( x ; D ) ] f(x)=E_D[f(x;D)] f(x)=ED​[f(x;D)]
使用样本数相同的不同训练集产生的方差为:
Var ( x ) = E D [ f ( x ; D ) − f ( x ) ] \text{Var}(x)=E_D[f(x;D)-f(x)] Var(x)=ED​[f(x;D)−f(x)]
噪声为:
ϵ 2 = E D [ ( y D − y ) 2 ] \epsilon^2=E_D[(y_D-y)^2] ϵ2=ED​[(yD​−y)2]
期望输出与真实标记的差别称为偏差(Bias),即:
bias 2 ( x ) = ( f ( x ) − y ) 2 \text{bias}^2(x)=(f(x) - y)^2 bias2(x)=(f(x)−y)2
为便于讨论,假定噪声期望为零,即 E D [ ( y D − y ) ] = 0 E_D[(y_D-y)]=0 ED​[(yD​−y)]=0。通过简单的多项式展开合并,可对算法的期望泛化误差进行分解:
E D [ ( f ( x ; D ) − y D ) 2 ] = E D [ ( f ( x ; D ) − f ˉ ( x ) + f ˉ ( x ) − y D ) 2 ] = E D [ ( f ( x ; D ) − f ˉ ( x ) ] + ( f ˉ ( x ) − y ) 2 + E D [ ( y D − y ) 2 ] = bias 2 ( x ) + Var ( x ) + ϵ 2 \begin{align*} E_D[(f(x; D) - y_D)^2] &= E_D[(f(x; D) - \bar{f}(x) + \bar{f}(x) - y_D)^2]\\ &= E_D[(f(x; D) - \bar{f}(x)] + (\bar{f}(x) - y)^2 + E_D[(y_D - y)^2]\\ &= \text{bias}^2(x) + \text{Var}(x) + \epsilon^2 \end{align*} ED​[(f(x;D)−yD​)2]​=ED​[(f(x;D)−fˉ​(x)+fˉ​(x)−yD​)2]=ED​[(f(x;D)−fˉ​(x)]+(fˉ​(x)−y)2+ED​[(yD​−y)2]=bias2(x)+Var(x)+ϵ2​
也就是说,泛化误差可分解为偏差、方差与噪声之和。回顾偏差、方差、噪声的含义:偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力;方差度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响;噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。偏差方差分解说明,泛化性能是由学习算法的能力、数据的充分性以及学习任务本身的难度所共同决定的。给定学习任务,为了取得好的泛化性能,则需使偏差较小,即能够充分拟合数据,并且使方差较小,即使得数据扰动产生的影响小一般来说,偏差与方差是有冲突的,这称为偏差方差窘境(Bias-Variance Dilemma)。下图给出了一个示意图。给定学习任务,假定我们能控制学习算法的训练程度,则在训练不足时,学习器的拟合能力不够强,训练数据的扰动不足以使学习器产生显著变化,此时偏差主导了泛化错误率;随着训练程度的加深,学习器的拟合能力逐渐增强,训练数据发生的扰动渐渐能被学习器学到,方差逐渐主导了泛化错误率:在训练程度充足后,学习器的拟合能力已非常强,训练数据发生的轻微扰动都会导致学习器发生显著变化,若训练数据自身的、非全局的特性被学习器学到了,则将发生过拟合,

参考文献:
[1] 周志华. 机器学习[M]. 清华大学出版社, 2016.

深入理解机器学习——偏差(Bias)与方差(Variance)相关推荐

  1. 吴恩达神经网络和深度学习-学习笔记-6-训练集、验证集和测试集 + 偏差bias和方差variance

    寻找最优超参数是一个迭代过程 在今天,应用深度学习是一个典型的迭代过程. 创建高质量的训练数据集.验证集和测试集,有助于提高循环效率. 训练集.验证集和测试集 数据Data分为三部分: 训练集trai ...

  2. 偏差bias与方差variance

    目录 1 含义 1.1 偏差 1.2 偏差和方差 2 期望泛化误差公式推导 3 权衡偏差与方差: 4 解决高偏差与高方差 参考 学习算法的预测误差, 或者说泛化误差(generalization er ...

  3. 偏差(bias)、方差(variance)和噪音(noise)

    对于一个预测问题,若真实模型为f(x)f(\boldsymbol{x})f(x). 通常我们通过对特定的数据集D=(x1,y1),(x2,y2),-,(xn,yn)D = {(\boldsymbol{ ...

  4. 偏差(Bias)与方差(Variance)详解

    偏差与方差详解 1 问题背景 2 一点点数学 3 偏差与期望 4 偏差方差窘境 5 Bagging与Boosting 1 问题背景  NFL(No Free Lunch Theorem)告诉我们选择算 ...

  5. 误差error,偏置bias,方差variance的见解

    更新日志:2020-3-10 谢谢@ProQianXiao的指正.偏差-方差的确是在测试集中进行的. 之前的误解是,偏差和方差的计算是同一个模型对不同样本的预测结果的偏差和方差:而实际上是不同模型对同 ...

  6. 机器学习偏差、方差、泛化误差的完整总结

    综述 机器学习算法的最终目标是最小化期望损失风险(即机器学习模型在任意未知测试样本上的表现),但由于数据的真实分布我们通常是不知道的,我们可用的信息来自于训练数据,因此,机器学习的学习目标往往会转化为 ...

  7. 转载:理解机器学习中的偏差与方差

    学习算法的预测误差, 或者说泛化误差(generalization error)可以分解为三个部分: 偏差(bias), 方差(variance) 和噪声(noise). 在估计学习算法性能的过程中, ...

  8. 理解机器学习中的偏差与方差

    学习算法的预测误差, 或者说泛化误差(generalization error)可以分解为三个部分: 偏差(bias), 方差(variance) 和噪声(noise). 在估计学习算法性能的过程中, ...

  9. 你真的理解机器学习中偏差 - 方差之间的权衡吗?

    作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai 简书地址:http://www.jianshu.com/p/f143... 我认为对偏差 - 方差之间的 ...

最新文章

  1. PAT(甲级)2019年春季考试 7-2 Anniversary
  2. 如何求解问题--数据结构与算法入门
  3. CentOS6.4 Install FTP
  4. Linux 的 diff 命令
  5. Github git clone国内mirror加速
  6. 目前8岁女儿上的课程
  7. Golang中WaitGroup使用的一点坑
  8. [Python] L1-045 宇宙无敌大招呼-PAT团体程序设计天梯赛GPLT
  9. weblogic 10 及以后版本需要单独生成Weblogic10.3客户端jar文件
  10. Java中this关键字的详解
  11. 飞桨模型保存_飞桨对话模型工具箱(二):对话自动评估模块ADE
  12. linux 学习笔记 -vim 操作
  13. Advanced Object Creation(JS,翻译MSDN文章)
  14. html怎么让鼠标自动移动位置,手把手教你编作弊软件之 鼠标自动移动/点击
  15. 一,FPGA配置及文件生成烧写
  16. 有助于理解分辨率、帧率、压缩率、码率和视频大小的关系式
  17. mysql数据库基础评分标准_《MYSQL高级查询与编程》综合机试试卷 - 云南农职美和易思...
  18. webpack 打包报错:Can't resolve '.\dist\bundle.js' in 'E:\vivian....'
  19. Java课设设计-家庭财务管理系统
  20. 现代C语言程序设计之C语言概述

热门文章

  1. 读书笔记-深度学习推荐系统4-推荐与embedding
  2. ALNS求MDHVRPTW问题 python实现
  3. 即时通讯云服务免费 破解APP社交化困局
  4. wps流程图导出不清楚_一份清晰的“流程图”,无需专业软件,一个简单Word轻松搞定...
  5. 智慧城市视频监控平台组成
  6. 光流.flo文件处理
  7. mysql建学生-课程数据库_有一个“学生-课程”数据库,数据库中包括三个表:...
  8. 复旦计算机考研英语,我收集的近几年复旦计算机复试笔试题
  9. hg和git命令对照表
  10. 学生交作业,现在都流行用二维码了