1. 概述

一个集成模型(f)在未知数据集(D)上的泛化误差E(f;D),由方差(var),偏差(bais)和噪声(ε)共同决定。

接下来,我们一个简单的线性回归来理解偏差方差概念。

在下面图像中,

  • 每个红色点是基于我们的集成算法(或机器学习模型)产生的预测值;
  • 红色虚线代表着这些预测值的均值;
  • 蓝色的线代表着数据本来的面貌。

那么:

  • 偏差:模型的预测值与真实值之间的差异,即每一个红点到蓝线的距离。在集成算法中,每个基评估器都会有自己的偏差,集成评估器的偏差是所有基评估器偏差的均值。模型越精确,偏差越低。
  • 方差:反映的是模型每一次输出结果与模型预测值的平均水平之间的误差,即每一个红点到红色虚线的距离,衡量模型的稳定性。模型越稳定,方差越低。


注解

  • 偏差衡量模型是否预测得准确,偏差越小,模型越“准”;
  • 方差衡量模型每次预测的结果是否接近,即是说方差越小,模型越“稳”;
  • 噪声是机器学习无法干涉的部分。

一个好的模型,要对大多数未知数据都预测得又”准“又”稳“。即是说,当偏差和方差都很低的时候,模型的泛化误差就小,在未知数据上的准确率就高。

2.方差和偏差的权衡

偏差大 偏差小
方差大 寻找新的模型:模型不适合 过拟合:模型复杂度高,对于训练集预测准确度高,但在测试集中准确度差
方差小 欠拟合:模型相对简单,模型复杂度低,但在测试集中预测准确度低 模型合适,泛化误差小

方差和偏差有一个很大,泛化误差都会很大。然而,方差和偏差是此消彼长的,不可能同时达到最小值。
请见图:

3. 一个很好的应用:随机森林

调参的目标是,达到方差和偏差的完美平衡。虽然方差和偏差不能同时达到最小值,但组成的泛化误差却可以有一个最低点,就是要寻找这个最低点。对复杂度大的模型,要降低方差,对相对简单的模型,要降低偏差。随机森林的基评估器都拥有较低的偏差和较高的方差,因为决策树本身是预测比较”准“,比较容易过拟合的模型,装袋法本身也要求基分类器的准确率必须要有50%以上。所以以随机森林为代表的装袋法的训练过程旨在降低方差,即降低模型复杂度,所以随机森林参数的默认设定都是假设模型本身在泛化误差最低点的右边。
所以,我们在降低复杂度的时候,本质其实是在降低随机森林的方差,随机森林所有的参数,也都是朝着降低方差的目标去。有了这一层理解,对复杂度和泛化误差的理解就更上一层楼了,对于调参,也有了更大的帮助。

通俗理解 机器学习中的偏差和方差相关推荐

  1. 转载:理解机器学习中的偏差与方差

    学习算法的预测误差, 或者说泛化误差(generalization error)可以分解为三个部分: 偏差(bias), 方差(variance) 和噪声(noise). 在估计学习算法性能的过程中, ...

  2. 理解机器学习中的偏差与方差

    学习算法的预测误差, 或者说泛化误差(generalization error)可以分解为三个部分: 偏差(bias), 方差(variance) 和噪声(noise). 在估计学习算法性能的过程中, ...

  3. 机器学习中的偏差和方差是什么?

    机器学习中的偏差和方差是什么? 机器学习全部是关于给定输入数据(X)和给定输出数据(Y),然后去寻找一个最佳映射函数(F),这个映射函数通常也被叫做目标函数. 任何机器学习算法的预测误差可以分解为三部 ...

  4. 三个变量中怎么找出中间值_一文理解神经网络中的偏差和方差

    在深度学习中,数据过拟合,欠拟合的问题很常见,先总结一下:过拟合称为高方差,欠拟合称为高偏差. 可能只看偏差,方差不是很理解,下面先来个百度百科看一下. 偏差(统计学概念) 偏差又称为表观误差,是指个 ...

  5. 机器学习中关于偏差、方差和误差的理解

    在模型预测中,模型可能出现的误差来自两个主要来源:   1.因模型无法表示基本数据的复杂度而造成的偏差(bias);   2.因模型对训练它所用的有限数据过度敏感而造成的方差(variance).   ...

  6. 机器学习中的偏差和方差

    1.误差的两大来源 机器学习中有两个主要的误差来源:偏差和方差.理解它们将协助合理安排时间去执行策略来提升性能. 首先了解一下数据集的分类: 训练集(training set) 用于运行你的学习算法. ...

  7. 机器学习中的偏差、方差以及泛化误差

    在机器学习中学习器的实际预测结果与样本的真实输出往往存在误差(error) 学习器在训练集上的误差称为"训练误差"(training error)or "经验误差&quo ...

  8. 你真的理解机器学习中偏差 - 方差之间的权衡吗?

    作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai 简书地址:http://www.jianshu.com/p/f143... 我认为对偏差 - 方差之间的 ...

  9. 机器学习模型中,偏差与方差的权衡及计算

    衡量一个机器学习模型的性能,可以用偏差和方差作为依据. 一个高偏差的模型,总是会对数据分布做出强假设,比如线性回归.而一个高方差的模型,总是会过度依赖于它的训练集,例如未修剪的决策树.我们希望一个模型 ...

  10. 吴恩达机器学习课后作业——偏差和方差

    1.写在前面 吴恩达机器学习的课后作业及数据可以在coursera平台上进行下载,只要注册一下就可以添加课程了.所以这里就不写题目和数据了,有需要的小伙伴自行去下载就可以了. 作业及数据下载网址:吴恩 ...

最新文章

  1. HDOJ2270(How Many Friends Will Be Together With You)
  2. python定义一个空数组_python如何创建空数组?
  3. ▲教你如何轻易的做linux计划任务▲——小菜一碟
  4. 前端新手程序员不知道的 20个小技巧
  5. linux多线程求和_linux 多线程信号处理总结
  6. eclipse mat 打开dump文件,明明大小1G,打开后却只有不到100M.其他的去哪了
  7. webpack4学习之问题一
  8. python写我爱你_12个精选Python教程我的初恋故事。
  9. oracle 字符格式化,Oracle 字段格式化[日期,金额]
  10. Flutter进阶第9篇:检测网络连接,监听网络变化
  11. marquee标签制作轮播图
  12. 7系列高速收发器简介 GTP IP核
  13. 手机连接USB通过宽带免费上网
  14. C语言输出菱形(C笔记)
  15. 账号升级攻略:每天自动升级b站和网易云音乐,自动签到天翼云盘和百度贴吧...
  16. weblogic与oracle断开,菜鸟经验:oracle与weblogic自动启动与停止
  17. 计算机常用删除文件的5种方法,电脑清理C盘垃圾文件的几种方法
  18. ECSHOP去版权教程
  19. html阅读器 怎样卸载,怎样彻底卸载掉金山pdf阅读器?
  20. Facebook广告投放:WC广告的优点和缺点

热门文章

  1. 【和小冉一起学习c++】踏入c++的大门~第一个c++程序
  2. java中的 jsp是啥
  3. switch-case案例*
  4. 一文揭开您对手机所有的疑惑
  5. 创业公司有哪些把服务器放在阿里云?有什么缺点?
  6. pvbox3直播频道服务器维护,新一轮大服务器实装公告:3月12日凌晨维护
  7. STM32对于1997与2007电表数据规约的解析
  8. 树链剖分 --算法竞赛专题解析(30)
  9. 【第一周:数据分析思维】7周成为数据分析师
  10. IC Insights:2021年汽车和物联网芯片销售额将达到429亿美元