1 过拟合介绍

如果模型设计的太复杂,可能会过拟合

下图的1~5分别代表最高项为1~5次幂的线性回归问题:

当模型太复杂的时候,虽然训练集上我们得到较小的误差,但是在测试集上,误差就奇大无比

复杂模型的model space涵盖了简单模型的model space,因此复杂模型在training data上的错误率更小,但并不意味着在testing data 上错误率更小。模型太复杂会出现overfitting。

1.1 高维小样本问题

2 处理过拟合的方法

机器学习笔记:误差的来源(bias & variance)_UQI-LIUWJ的博客-CSDN博客

处理过拟合主要有几种方法:

  • 增加数据量(数据量大了之后,根据某种规则去掉一些特征,来实现降维)
  • 特征提取(eg,主成分分析PCA,作用也是实现降维)
  • 正则化(通过给损失函数增加惩罚项来避免过拟合)
  • 减低模型的复杂度

2.1 正则化

这是一种解决过拟合的办法——>使曲线平滑一点(这样如果测试集的输入有一点噪声的话,扰动也不会太大)

注:正则项里面不包括偏差表示,只包括影响梯度的那些函数

  • λ越大,表示越平滑,训练集上的error越大(因为我们越倾向于考虑w的数值大小,而不是我们预测值和实际值之间的error)
  • 【λ太小可能过拟合,λ太大可能欠拟合】

2.1.1 L1正则化(Lasso)

 L1正则化每次更新的数值是恒定的(等值更新)

2.1.2 L2正则化(ridge)

机器学习笔记:岭回归(L2正则化)_UQI-LIUWJ的博客-CSDN博客

L2正则化每次w更新的比例是恒定的(等比例更新)

L2正则化在w值很大的情况下,下降速度很快;在w很小的情况下,下降速度很慢

3 欠拟合和过拟合

欠拟合:

1)模型不足以表达数据所有的特点

2)没有充分学习观测数据的特点

过拟合:

1)模型不仅表达了数据所有的特点,还把数据特定的噪声也表达了出来

2)在训练集和验证集/测试集 上的表现差异巨大

3.1 处理欠拟合的方法

继续训练模型,如果效果提升不显著的话,修改模型,让模型更复杂一些

机器学习笔记:过拟合和欠拟合相关推荐

  1. 机器学习笔记(通俗易懂)---监督学习介绍:分类与回归,泛化~过拟合与欠拟合(2)

    机器学习笔记-监督学习介绍:分类与回归,泛化~过拟合与欠拟合(2) 明天开始就打数模美赛了,今天简单地介绍一下监督学习 以下都是本人在学习机器学习过程中的一些心得和笔记,仅供参考 文章目录 机器学习笔 ...

  2. 机器学习/算法面试笔记1——损失函数、梯度下降、优化算法、过拟合和欠拟合、正则化与稀疏性、归一化、激活函数

    正值秋招,参考网络资源整理了一些面试笔记,第一篇包括以下7部分. 1.损失函数 2.梯度下降 3.优化算法 4.过拟合和欠拟合 5.正则化与稀疏性 6.归一化 7.激活函数 损失函数 损失函数分为经验 ...

  3. 过拟合解决方法python_《python深度学习》笔记---4.4、过拟合与欠拟合(解决过拟合常见方法)...

    <python深度学习>笔记---4.4.过拟合与欠拟合(解决过拟合常见方法) 一.总结 一句话总结: 减小网络大小 添加权重正则化 添加 dropout 正则化 1.机器学习的根本问题? ...

  4. 机器学习中过拟合、欠拟合与方差、偏差的关系是什么?

    机器学习中过拟合.欠拟合与方差.偏差的关系是什么? 过拟合(overfitting)与欠拟合(underfitting)是统计学中的一组现象.过拟合是在统计模型中,由于使用的参数过多而导致模型对观测数 ...

  5. 机器学习回归算法—性能评估欠拟合与过拟合

    机器学习中的泛化,泛化即是,模型学习到的概念在它处于学习的过程中时模型没有遇见过的样本时候的表现.在机器学习领域中,当我们讨论一个机器学习模型学习和泛化的好坏时,我们通常使用术语:过拟合和欠拟合.我们 ...

  6. 百面机器学习 #2 模型评估:07 过拟合和欠拟合及其常用解决方法

    如何有效地识别"过拟合"和"欠拟合"现象,并有针对性地进行模型调整,是不断改进机器学习模型的关键. 过拟合 模型对于训练数据拟合呈过当的情况 反映到评估指标上, ...

  7. 机器学习算法中的过拟合与欠拟合(转载)

    在机器学习表现不佳的原因要么是过度拟合或欠拟合数据. 1.机器学习中的逼近目标函数过程 监督式机器学习通常理解为逼近一个目标函数(f)(f),此函数映射输入变量(X)到输出变量(Y). Y=f(X)Y ...

  8. 机器学习中的过拟合与欠拟合

    目录 一.什么是过拟合与欠拟合 二.原因及解决方法 三.正则化类别 四.拓展-原理 问题:训练数据训练的很好啊,误差也不大,为什么在测试集上面有 问题呢? 当算法在某个数据集当中出现这种情况,可能就出 ...

  9. 【机器学习】过拟合与欠拟合

    我们在训练机器学习模型或者深度学习神经网络中经常会遇到过拟合与欠拟合的问题,接下来就对这两个问题进行简单介绍,并举出几种相应的解决办法. 1.过拟合与欠拟合 过拟合是指训练数据上能够获得比其他假设更好 ...

  10. Pytorch深度学习笔记(02)--损失函数、交叉熵、过拟合与欠拟合

    目录 一.损失函数 二.交叉熵损失函数详解 1.交叉熵 2.信息量 3.信息熵 4.相对熵(KL散度) 5.交叉熵 6.交叉熵在单分类问题中的应用 7.总结: 三.过拟合和欠拟合通俗解释 1.过拟合 ...

最新文章

  1. 最常见NLP任务练手项目汇总
  2. 机器学习分类指标:精确率、准确率、召回率详解
  3. 【Redfin SDE intern】跪经
  4. 中国芯片研究再获国际顶会最佳论文提名!清华魏少军、刘雷波团队出品
  5. 阿里云NAS备份服务
  6. 俞敏洪辟谣“周末暑假不能上课”:人生已经不易 为何还要捅刀
  7. 在ASP.NET Web API中返回错误的最佳实践
  8. CentOS 7 上安装 Redis3.2.3 并开启外网访问
  9. PE启动盘安装操作系统
  10. sigmoid/逻辑回归/多元逻辑回归/softmax 区别
  11. matlab积分求解(定积分/不定积分)总结
  12. C语言编译过程流程图
  13. ng-init、ng-bind、ng-model和ng-value区别
  14. 随笔之javamail邮件发送(阿里云企业邮箱)
  15. git 强行拉取覆盖本地
  16. java解压报错java.io.IOException: failed to skip current tar entry
  17. 构建更好Web客户端,Taylor Hughes讲述Skit框架背后的故事
  18. 开启ylmf desktop ubuntu的pae支持
  19. 超级基础的恶作剧小游戏
  20. 深度相机(一)--TOF总结

热门文章

  1. 【转载】设计模式_六大原则(学习)
  2. 痛苦的老师开心的我们
  3. WINDOWS SERVER 2003从入门到精通之活动目录数据库的维护
  4. 推荐:Visual Basic.NET Windows Forms 编程
  5. 继承属性public private
  6. 《剑指offer》第1~11题:刷题week1[C++题解]
  7. 复变函数与积分变换-手写笔记
  8. leetcode 151. 翻转字符串里的单词 c代码 三种方案
  9. Linux信号 三 信号发送接口集合
  10. ubuntu12.04 更新内核