通过一个例子来引入过拟合与欠拟合的概念(Stanford)

Who will Repay their Loans?

- A leader hires you to investigate who will repay their loans

  • You are given complete files on 100 applicants

  • 5 defaulted within 3 years
    - A Surprising Finding?

  • All 5 people who defaulted wore blue shirts during interviews

  • Your model leverages this strong signal as well

解释一下
斯坦福大学给出了一个例子:谁能够偿还贷款?
一共有100个申请人,其中五个人三年内不能还清
但巧合的是,这五个人在申请贷款的时候全部穿着蓝色衬衫
因此,机器学习的模型捕捉到了这个明显的特征。

因此,以后只要穿着蓝色衬衫的来贷款,统统拒绝!!

这显然不合理,穿个蓝色衣服招谁惹谁了hhh~~
其实这就是过拟合,机器不应当捕捉这个特征。

概念1. Training and Generalization Errors

  1. Training Errors:model error on the training data----训练错误
  2. Generalization error:model error on new data—泛化错误(就是测试样本的出错)

有个很生动形象的例子解释这二者的关系:一个平时学习很好的同学考试不一定考的很好(训练错误很低,但泛化错误很高),反之则训练错误高,但泛化错误第,但这不太可能hhh。


如上图所示(按行分析):

  • 训练错误低,泛化错误也低-----说明模型很好
  • 训练错误高,泛化错误低----很奇怪,是不是有bug?
  • 训练错误低,泛化错误高----过拟合
  • 训练错误高,泛化错误高----欠拟合

概念2. Data Complexity

  • Multiple factors matters
  • time/space structure
  • diversity
  • E.g a char vs a pixel(Hard to compare among very different data)

Model Complexity

  • The ability to fit variety of functions
  • Low complexity models struggles to fit training set
  • High complexity models can memorize the training set

通俗来讲,对于数据的复杂性有很多定义,总的来说就是结构复杂,或者样式复杂,比如数据包括:文件数据,文本数据,图片数据,视频数据等。
而且数据之间比较是很困难的,尤其是在两个毫无关系的数据之间比较,比如图片和文本,一个是由像素(pixel)构成,另一个由字符(character)构成。
对于模型复杂度来说,
低复杂度的模型很难去拟合训练集,高复杂度的模型可以更完美的拟合训练集。


如上图所示(按行分析):

  1. 若数据复杂度较低,同时模型也不复杂,能够适应这样的数据,那么机器学习的效果就比较好。
  2. 若数据复杂度高,但模型简单,那么模型肯定无法适应这种数据,因此会发生欠拟合。
  3. 若数据复杂度低,但模型十分复杂,那么则有可能发生过拟合。
  4. 若数据复杂度高,同时模型的复杂度也能适应数据的高复杂度,那么机器学习的效果就比较好。


模型复杂度对于过拟合和欠拟合的影响,上图可以很形象的解释。
横轴表示模型复杂度,纵轴表示训练错误与泛化错误。
从图中不难看出:

  1. 在模型复杂度很低的情况下,训练错误和泛化错误都很高,同时处于欠拟合状态,这很好理解,原因就是模型太过于简单。
  2. 随着模型复杂度不断升高,模型逐渐趋于完善,那么训练错误会不断降低,但泛化错误不一定,就像本文开篇的例子,模型将贷款用户的衣服颜色作为特征尽心学习,那么结果会适得其反。
  3. 因此会有一个拐点,在这个拐点上的模型是最佳的,但注意:及时在最优条件下,过拟合现象也不能消除,因为模型还是会出现错误。


Model Complexity vs Data complexity

当选取一个较为简单的模型(Simple mode—blue line),那么随着数据复杂度提升,泛化错误会逐渐降低,但是收到模型的限制,及时数据越来越具体,复杂度越来越高,那么错误也不会再降低。

因此,就需要引入更为复杂的模型(complex model—green line)
从此图分析也可以得出一些比较有意思的结论:

  1. 在数据复杂度较低的情况下,复杂的模型,泛化错误不一定低。
  2. 但随着数据复杂度不断提高,越复杂的模型一定能够越适应复杂的数据。
  3. 在数据复杂度达到某个量级,复杂的模型就可以超过简单的模型。

机器学习-过拟合与欠拟合(overfitting and underfitting)相关推荐

  1. 机器学习中过拟合、欠拟合与方差、偏差的关系是什么?

    机器学习中过拟合.欠拟合与方差.偏差的关系是什么? 过拟合(overfitting)与欠拟合(underfitting)是统计学中的一组现象.过拟合是在统计模型中,由于使用的参数过多而导致模型对观测数 ...

  2. 机器学习算法中的过拟合与欠拟合(转载)

    在机器学习表现不佳的原因要么是过度拟合或欠拟合数据. 1.机器学习中的逼近目标函数过程 监督式机器学习通常理解为逼近一个目标函数(f)(f),此函数映射输入变量(X)到输出变量(Y). Y=f(X)Y ...

  3. 机器学习之过拟合和欠拟合

    文章目录 前言 什麽是过拟合和欠拟合? 过拟合和欠拟合产生的原因: 欠拟合(underfitting): 过拟合(overfitting): 解决欠拟合(高偏差)的方法 1.模型复杂化 2.增加更多的 ...

  4. 机器学习:过拟合与欠拟合问题

    本文首发于 AI柠檬博客,原文链接:机器学习:过拟合与欠拟合问题 | AI柠檬 过拟合(overfitting)与欠拟合(underfitting)是统计学中的一组现象.过拟合是在统计模型中,由于使用 ...

  5. 百面机器学习 #2 模型评估:07 过拟合和欠拟合及其常用解决方法

    如何有效地识别"过拟合"和"欠拟合"现象,并有针对性地进行模型调整,是不断改进机器学习模型的关键. 过拟合 模型对于训练数据拟合呈过当的情况 反映到评估指标上, ...

  6. 机器学习笔记(通俗易懂)---监督学习介绍:分类与回归,泛化~过拟合与欠拟合(2)

    机器学习笔记-监督学习介绍:分类与回归,泛化~过拟合与欠拟合(2) 明天开始就打数模美赛了,今天简单地介绍一下监督学习 以下都是本人在学习机器学习过程中的一些心得和笔记,仅供参考 文章目录 机器学习笔 ...

  7. 机器学习中的过拟合与欠拟合

    目录 一.什么是过拟合与欠拟合 二.原因及解决方法 三.正则化类别 四.拓展-原理 问题:训练数据训练的很好啊,误差也不大,为什么在测试集上面有 问题呢? 当算法在某个数据集当中出现这种情况,可能就出 ...

  8. 【机器学习】过拟合与欠拟合

    我们在训练机器学习模型或者深度学习神经网络中经常会遇到过拟合与欠拟合的问题,接下来就对这两个问题进行简单介绍,并举出几种相应的解决办法. 1.过拟合与欠拟合 过拟合是指训练数据上能够获得比其他假设更好 ...

  9. 机器学习基础概念——过拟合和欠拟合

    欢迎关注,敬请点赞! 机器学习基础概念--过拟合和欠拟合 1. 基本概念 1.1 偏差和方差 2. 欠拟合和过拟合 2.1 学习曲线 2.2 复杂程度曲线 2.3 支持向量机的过拟合和欠拟合 2.4 ...

最新文章

  1. PyTorch之前向传播函数自动调用forward
  2. 一文解析支持向量机(附公式)
  3. @Conditional派生注解
  4. Vivado中Debug的用法总结
  5. 自考c语言程序设计,自考“C语言程序设计”模拟试题八
  6. HDU - 1757 A Simple Math Problem(矩阵快速幂,水题)
  7. 编程之美3——N!末尾有多少个0
  8. python-opencv 最快的遍历颜色空间_居住空间设计的七种设计风格
  9. ubuntu 14.04 下hadoop2.9.1 64位编译
  10. GreenDao清空数据库的方法
  11. 文本分类数据和评价指标
  12. [IOI2009]Regions
  13. 王者荣耀战力在线查询小程序源码
  14. JavaScript_第一天
  15. 如何用python爬取数据_入门用Python进行Web爬取数据:为数据科学项目提取数据的有效方法...
  16. 理解 LVM (Logical Volume Manager)
  17. 工程项目提成标准方案_工程项目提成方案汇总
  18. Eclipse导入jar包并查看源代码
  19. 论文翻译:Text-based Image Editing for Food Images with CLIP
  20. 基金投资建议及推荐原因

热门文章

  1. Nexus 5刷机(Android 6.0.1,M4B30Z 固件)和ROOT教程
  2. Nexus 5手机使用Nexmon工具获取CSI信息
  3. 这很战斗民族!俄机器人主播连胡子都不刮?
  4. 转载:从MPLS到SR,再到SRv6,到底发生了什么?
  5. 6.Linux运维常用命令
  6. IntelliJ IDEA 复杂的重构技巧
  7. 黑夜的奇思妙想 idea java 文件分隔符\
  8. 计算机ip地址与物理地址绑定,查看机物理地址和IP地址,以及物理地址和IP地址的绑定...
  9. Crackme 29
  10. P1247ybtoj【数学基础】5章1题【取火柴游戏】