正文共2826个字,预计阅读时间8分钟。

在机器学习的面试中,能不能讲清楚偏差方差,经常被用来考察面试者的理论基础。偏差方差看似很简单,但真要彻底地说明白,却有一定难度。比如,为什么KNN算法在增大k时,偏差会变大,但RF增大树的数目时偏差却保持不变,GBDT在增大树的数目时偏差却又能变小。本文的目的就是希望能对偏差方差有一个科学的解读,欢迎大家多多交流。

01

引子

假设我们有一个回归问题,我们搞到一批训练数据D,然后选择了一个模型M,并用数据D将M训练出来,记作Mt,这里我们故意把模型M与训练出的模型Mt区分开,是为了后面叙述时概念上的清晰。现在,我们怎么评价这个模型的好坏呢?

你可能会不屑地说,这么简单的问题还用问吗,当然是用test集来测试啊。

哈哈!你上当了!

因为我并没有说明是评价模型M的好坏还是模型Mt的好坏!这二者有什么区别呢?

我们都知道,模型M代表的是一个函数空间,比如模型y=wx+b,若x,y都是实数,w,b为实数参数,则该模型就代表了平面上所有的直线,这所有的直线就是一个函数空间。

同理,y=ax^2+bx+c代表的就是平面上所有的二次曲线,所有的二次曲线组成一个函数空间。当然,所有的直线此时也是二次曲线的特例。

回到上面的问题,Mt实际上是用数据D找到的M代表的函数空间中的一个具体的函数。这话有点绕,不过还是不难理解的。

Mt的表现好坏不能完整地代表M的好坏。

上面这句话有很多内涵,我们一点一点来说明。

02

什么是M的好坏

以上面的一次函数和二次函数为例,当我们说二次函数比一次函数更好时,我们潜在的含义是说,对于某个我们正要解决的机器学习问题来说,二次函数总体上比一次函数表现更好,我们是在函数空间的层次上来比较的。

而且,还是针对一个具体的机器学习问题来比较的,因为对于不同的机器学习问题,二者哪个更好是不一定的。

Note:在下文中,可以把机器学习问题默想成回归问题,这样便于理解。

这里再次强调,当我们说模型好坏时,隐含有两个含义:

1)比较的是整个函数空间

2)针对某个具体机器学习问题比较

03

怎么比较M的好坏?

我们可以这样做:

1)找一条不变的万能测试样本

在这个具体的机器学习问题中找一条样本x,它的标签为y。在后续的所有训练中都用这条样本做测试集,永远不用作训练集。

2)在测试样本上观察Mt的表现,假设Mt在样本x上的预测值为yt,则y-yt可用来评价Mt的表现好坏。

3)找另外一个训练集D1,训练出Mt1,在测试样本上测试得到yt1,进而得到误差y-yt1,

4)重复第3步多次,直到得到N个具体的模型,和N个yt,N个y-yt。

5)当N足够大时,我们可以这样来评测M的好坏,首先看N个yt的均值ytmean是否等于y,其次,看N个yt相对均值ytmean的方差有多大。

显然,若ytmean=y,说明M学习能力是够的,也就是说,当N趋向无穷大时,N个Mt对x预测的均值能无限接近y。

很多人会有种错觉,感觉任何M都能达到上面的效果,实际上,不是每一个M都有这样的能力的,举个极端的例子,我们假设M1的函数空间中只有一个函数,且对于任何样本的预测值都恒等于y+1,则无论N多大,ytmean都会比y大1的。我们称M1由于学习能力不够所造成的对x的预测误差叫做偏差。

其次,N个yt相对均值ytmean的方差有多大也能从另一个方面揭示M的好坏,举个例子,假设我们有M1,M2两个模型,当N无穷大时,都能使得ytmean等于y。但是M1的预测值是这样分布的(下面圆点代表一个个的预测值)

.....ytmean.....

M2的预测值是这样分布的

.  .   .  .ytmean.  .   .  .

显然,我们会觉得M1比M2更好。你可能会想,N足够大时,二者都能准确地均值到y,这就够了,没必要再比较它们的预测值相对均值的方差。

这样的观点错误的地方是:实践中,我们并不能抽样出D1,D2,D3.......DN个训练集,往往只有一份训练集D,这种情况下,显然,用M1比用M2更有把握得到更小的误差。

04

举例子来说明偏差方差

假设模型是一个射击学习者,D1,D2直到DN就是N个独立的训练计划。

如果一个学习者是正常人,一个眼睛斜视,则可以想见,斜视者无论参加多少训练计划,都不会打中靶心,问题不在训练计划够不够好,而在他的先天缺陷。这就是模型偏差产生的原因,学习能力不够。正常人参加N个训练计划后,虽然也不能保证打中靶心,但随着N的增大,会越来越接近靶心。

假设还有一个超级学习者,他的学习能力特别强,参加训练计划D1时,他不仅学会了瞄准靶心,还敏感地捕捉到了训练时的风速,光线,并据此调整了瞄准的方向,此时,他的训练成绩会很好。

但是,当参加测试时的光线,风速肯定与他训练时是不一样的,他仍然按照训练时学来的瞄准方法去打靶,肯定是打不好。这样产生的误差就是方差。这叫做聪明反被聪明误。

总结一下:学习能力不行造成的误差是偏差,学习能力太强造成的误差是方差。

05

权衡偏差方差

当我们只有一份训练数据D时,我们选的M若太强,好比射手考虑太多风速,光线等因素,学出来的模型Mt在测试样本上表现肯定不好,若选择的M太挫,比如是斜视,也无论如何在测试的样本上表现也不会好。所以,最好的M就是学习能力刚刚好的射手,它能够刚刚好学习到瞄准的基本办法,又不会画蛇添足地学习太多细枝末节的东西。

06

回答本文最初的问题

对于KNN算法,k值越大,表示模型的学习能力越弱,因为k越大,它越倾向于从“面”上考虑做出判断,而不是具体地考虑一个样本 近身的情况来做出判断,所以,它的偏差会越来越大。

对于RF,我们实际上是部分实现了多次训练取均值的效果,每次训练得到的树都是一个很强的学习者,每一个的方差都比较大,但综合起来就会比较小。好比一个很强的学习者学习时,刮着西风,它会据此调整自己的瞄准方法,另一个很强的学习者学习时刮着东风,(西风、东风可以理解为不同训练集中的噪声)它也会据此调整自己的瞄准方法,在测试样本时,一个误差向西,一个误差向东,刚好起到互相抵消的作用,所以方差会比较小。但是由于每棵树的偏差都差不多,所以,我们取平均时,偏差不会怎么变化。

为什么说是部分实现了多次训练取均值的效果而不是全部呢?因为我们在训练各棵树时,是通过抽样样本集来实现多次训练的,不同的训练集中不可避免地会有重合的情况,此时,就不能认为是独立的多次训练了,各个训练得到的树之间的方差会产生一定的相关性,训练集中重合的样本越多,则两棵树之间的方差的相关性越强,就越难达成方差互相抵消的效果。

对于GBDT,N棵树之间根本就不是一种多次训练取均值的关系,而是N棵树组成了相关关联,层层递进的超级学习者,可想而知,它的方差一定是比较大的。但由于它的学习能力比较强,所以,它的偏差是很小的,而且树的棵树越多,学习能力就越强,偏差就越小。也就是说,只要学习次数够多,预测的均值会无限接近于目标。简单讲就是GBDT的N棵树实际上是一个有机关联的模型,不能认为是N个模型。

原文链接:https://www.jianshu.com/p/23550b50b6c1

查阅更为简洁方便的分类文章以及最新的课程、产品信息,请移步至全新呈现的“LeadAI学院官网”:

www.leadai.org

请关注人工智能LeadAI公众号,查看更多专业文章

大家都在看


LSTM模型在问答系统中的应用

基于TensorFlow的神经网络解决用户流失概览问题

最全常见算法工程师面试题目整理(一)

最全常见算法工程师面试题目整理(二)

TensorFlow从1到2 | 第三章 深度学习革命的开端:卷积神经网络

装饰器 | Python高级编程

今天不如来复习下Python基础

机器学习面试之偏差方差相关推荐

  1. 机器学习数学基础(偏差方差、最大似然估计、贝叶斯统计、MAP)

    目录 偏差方差 一致性 最大似然估计 贝叶斯统计 最大后验概率 如果这篇文章对你有一点小小的帮助,请给个关注喔~我会非常开心的~ 偏差方差 偏差的定义如下: 如果  ,那么估计量被称为无偏估计. 如果 ...

  2. 你真的理解机器学习中偏差 - 方差之间的权衡吗?

    作者:chen_h 微信号 & QQ:862251340 微信公众号:coderpai 简书地址:http://www.jianshu.com/p/f143... 我认为对偏差 - 方差之间的 ...

  3. 独家 | 教你用Python来计算偏差-方差权衡

    作者:Jason Brownlee 翻译:吴振东 校对:车前子 本文约3800字,建议阅读8分钟. 本文为你讲解模型偏差.方差和偏差-方差权衡的定义及联系,并教你用Python来计算. 衡量一个机器学 ...

  4. python 方差分解_干货 :教你用Python来计算偏差-方差权衡

    原标题:干货 :教你用Python来计算偏差-方差权衡 作者:Jason Brownlee 翻译:吴振东 本文约3800字,建议阅读8分钟. 本文为你讲解模型偏差.方差和偏差-方差权衡的定义及联系,并 ...

  5. 机器学习中的偏差和方差是什么?

    机器学习中的偏差和方差是什么? 机器学习全部是关于给定输入数据(X)和给定输出数据(Y),然后去寻找一个最佳映射函数(F),这个映射函数通常也被叫做目标函数. 任何机器学习算法的预测误差可以分解为三部 ...

  6. 转载:理解机器学习中的偏差与方差

    学习算法的预测误差, 或者说泛化误差(generalization error)可以分解为三个部分: 偏差(bias), 方差(variance) 和噪声(noise). 在估计学习算法性能的过程中, ...

  7. 机器学习偏差方差_机器学习101 —偏差方差难题

    机器学习偏差方差 Determining the performance of our model is one of the most crucial steps in the machine le ...

  8. 吴恩达机器学习作业5.偏差和方差

    机器学习作业 5 - 偏差和方差 import numpy as np import scipy.io as sio import scipy.optimize as opt import panda ...

  9. 西瓜书+实战+吴恩达机器学习(二)机器学习基础(偏差、方差、调试模型技巧)

    文章目录 0. 前言 1. 偏差方差的解决方法 2. 高偏差高方差的学习曲线 3. 调试模型技巧 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 泛化误差可分解为 ...

最新文章

  1. 如果使用StateServer或SQLServer,会遇到的问题。。。。
  2. mysql 聚簇索引 和聚簇索引 (二级索引)的 那些事
  3. Java 环形缓冲器(Ring Buffer)
  4. 基础表比商户对账和汇总多了一笔退款数据
  5. 关于“EXP-00056: ORACLE error 12154 encountered”的解决方法
  6. PHP —— 识别运算符实现逻辑比较
  7. sqlite 交叉编译-转
  8. MySQL安装目录分类_分类 安装 下的文章
  9. Web.config常用节点解析:
  10. Linux关闭密码登录
  11. python动态演示数据gdp_荐爬取世界各国历年的GDP数据
  12. JDK 动态代理和CGLIB 动态代理
  13. Stanford University courses of computer science department(斯坦福计算机系课程设置)
  14. (每日一练c++)组合总和
  15. inventor2五子棋游戏apk_五子棋大师2中文版游戏
  16. 零信任实践之单包认证(SPA)
  17. 浅谈 RISC-V 软件开发生态之 IDE
  18. CUMT学习日记——软件工程考前速成记录
  19. Leon‘s Life
  20. watch、computed、methods的区别

热门文章

  1. python中try语句_[转]python 里面 try语句
  2. 两个mapreduce 做topn_hadoop分布式计算MapReduce详细总结
  3. 程序员离职代码交接_程序员离职大半个月,被老板命令回单位讲代码,员工:一次1万...
  4. 公平锁非公平锁的实际使用_理解ReentrantLock的公平锁和非公平锁
  5. oracle运维平台开发,Oracle数据库运维
  6. mac 安装laravel Valet环境
  7. 面试题——栈的压入、弹出顺序
  8. es6=unicode码详解
  9. ASP.NET MVC5+EF6+EasyUI 后台管理系统(2)-easyui构建前端页面框架[附源码]
  10. [转载]网络编辑必知常识:什么是PV、UV和PR值 zz