模型过拟合原因及解决办法

  • 过拟合现象
  • 导致过拟合原因
  • 解决办法

过拟合现象

对于样本量有限、但需要使用强大模型的复杂任务,模型很容易出现过拟合的表现,即在训练集上的损失小,在验证集或测试集上的损失较大

反之,如果模型在训练集和测试集上均损失较大,则称为欠拟合。过拟合表示模型过于敏感,学习到了训练数据中的一些误差,而这些误差并不是真实的泛化规律(可推广到测试集上的规律)。欠拟合表示模型还不够强大,还没有很好的拟合已知的训练样本,更别提测试样本了。因为欠拟合情况容易观察和解决,只要训练loss不够好,就不断使用更强大的模型即可,因此实际中我们更需要处理好过拟合的问题。

导致过拟合原因

  1. 情况1:训练数据存在噪音,导致模型学到了噪音,而不是真实规律。
  2. 情况2:使用强大模型(表示空间大)的同时训练数据太少,导致在训练数据上表现良好的候选假设太多,锁定了一个“虚假正确”的假设。

回归模型的过拟合,理想和欠拟合状态的表现

理想的回归模型是一条坡度较缓的抛物线,欠拟合的模型只拟合出一条直线,显然没有捕捉到真实的规律,但过拟合的模型拟合出存在很多拐点的抛物线,显然是过于敏感,也没有正确表达真实规律。

分类模型的欠拟合,理想和过拟合状态的表现

理想的分类模型是一条半圆形的曲线,欠拟合用直线作为分类边界,显然没有捕捉到真实的边界,但过拟合的模型拟合出很扭曲的分类边界,虽然对所有的训练数据正确分类,但对一些较为个例的样本所做出的妥协,高概率不是真实的规律。

解决办法

对于情况1,我们使用数据清洗和修正来解决。 对于情况2,我们或者限制模型表示能力,或者收集更多的训练数据。
而清洗训练数据中的错误,或收集更多的训练数据往往是一句“正确的废话”,在任何时候我们都想获得更多更高质量的数据。在实际项目中,更快、更低成本可控制过拟合的方法,只有限制模型的表示能力。为了防止模型过拟合,在没有扩充样本量的可能下,只能降低模型的复杂度,可以通过限制参数的数量或可能取值(参数值尽量小)实现。

模型过拟合原因及解决办法相关推荐

  1. 过拟合原因及解决办法

    过拟合原因及解决办法 知乎 过拟合出现的原因以及解决方案 过拟合 欠拟合过拟合出现的原因及解决办法

  2. 常见过拟合、欠拟合原因及解决办法

    引言 在机器学习中,我们将模型在训练集上的误差称之为训练误差,又称之为经验误差,在新的数据集(比如测试集)上的误差称之为泛化误差,泛化误差也可以说是模型在总体样本上的误差.对于一个好的模型应该是经验误 ...

  3. 【深度学习】模型过拟合的原因以及解决办法

    [深度学习]模型过拟合的原因以及解决办法 1.背景 2.模型拟合 3.简述原因 4.欠拟合解决办法 5.过拟合解决办法 1.背景 所谓模型过拟合现象: 在训练网络模型的时候,会发现模型在训练集上表现很 ...

  4. 欠拟合的原因以及解决办法(深度学习)

    之前这篇文章,我分析了一下深度学习中,模型过拟合的主要原因以及解决办法: 过拟合的原因以及解决办法(深度学习)_大黄的博客-CSDN博客 这篇文章中写一下深度学习中,模型欠拟合的原因以及一些常见的解决 ...

  5. 过拟合、欠拟合的原因和解决办法

    目录 偏差和方差 过拟合 原因 解决办法 欠拟合 原因 解决办法 偏差和方差 偏差用来描述模型输出结果的期望和样本真实结果的差距. 方差用来描述模型对于给定值的输出稳定性. 具体的可以看下图: 过拟合 ...

  6. 线下auc涨,线上ctr/cpm跌的原因和解决办法

    " 这两年深度模型大火之后,各个团队都卯足了劲把网络规模做大做深,花了很大力气好不容易离线auc涨了不少,上线一看效果ctr和cpm反而下降.本文例举几种可能的原因和解决办法." ...

  7. c语言野指针导致问题,C语言进阶之路(三)----野指针的产生原因及解决办法

    1.会产生野指针的做法 #include //这就是一种错误的写法 int main(){ int *p = NULL; p = (int *)malloc(); //释放P所指向的内存空间,但指针变 ...

  8. IE6IE7Firefox浏览器不兼容原因及解决办法

    IE6IE7Firefox浏览器不兼容原因及解决办法 一.IE6IE7Firefox浏览器不兼容原因及解决办法 1.文字 本身的大小不兼容.同样是font-size:14px的宋体文字,在不同浏览器下 ...

  9. Non-numeric box dimensions - simulation unstable 错误原因及解决办法

    大家好,我是小马老师. 本文继续介绍lammps常见的错误及解决办法:Non-numeric box dimensions - simulation unstable 最近几天,好几个培训班学员遇到这 ...

最新文章

  1. 更简单的非递归遍历二叉树的方法
  2. 考研英语一2011年真题模考总结
  3. Tomcat的SessionID引起的Session Fixation和Session Hijacking问题
  4. dell r740如何做raid_戴尔入门级4K、IPS广色域显示器:S2721QS表现如何?
  5. numpy数组基础语法
  6. rest framework 序列化
  7. Linux多线程开发-线程同步-条件变量pthread_cond_t
  8. 飞鸽传书2009绿色版 官方网站下载地址
  9. jsp include参数传送接收与应用
  10. 使用T4模板动态生成邮件内容并储存到任意位置
  11. shell脚本if语句的多种条件参数
  12. BZOJ 1066 蜥蜴 最大流
  13. 【二分答案】【中位数】codeforces 394 bun
  14. 计算机作业个人简历word,计算机毕业生个人简历模板word模板
  15. 用于计算成像的超材料
  16. 【f1c200s/f1c100s】不带中断引脚采用扫描的方式实现通用gpio-keys
  17. Steam DS4手柄
  18. Nginx代理高德API(无法地图选点)
  19. java web 徐林林_零点起飞学Java Web开发 (徐林林) 高清PDF
  20. 数组扁平化 对象扁平化

热门文章

  1. 爸爸不在家,你要保护妈妈
  2. [leetcode] Generate Parenthese
  3. 国家一级建造师—工程经济—第一章—第三节
  4. 2020届电子信息类专业保研经历分享
  5. ios 表情符号 键盘_iOS 表情键盘+gif聊天图文混排,看我的就够了
  6. 阿诺德基础材质节点的连接
  7. python写双色球的开发语言_Python实现的双色球生成功能示例
  8. springBoot上传文件大小设置
  9. 激光测距传感器有哪些优势
  10. Golang,一道春天的闪电