欢迎关注,敬请点赞!

机器学习基础概念——过拟合和欠拟合

  • 1. 基本概念
    • 1.1 偏差和方差
  • 2. 欠拟合和过拟合
    • 2.1 学习曲线
    • 2.2 复杂程度曲线
    • 2.3 支持向量机的过拟合和欠拟合
    • 2.4 KNN回归的过拟合和欠拟合
  • 3. 如何解决欠拟合和过拟合
    • 3.1 解决欠拟合
    • 3.2 解决过拟合

文章转载自:欠拟合、过拟合、偏差、方差

1. 基本概念

  1. 偏差:偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了算法本身的拟合能力。hθ(xi)−yih_\theta (x_i) - y_ihθ​(xi​)−yi​
  2. 方差:方差度量了训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。1m∑i=1m(hθ(xi)−yi)2\displaystyle \frac {1}{m} \sum^m_{i = 1} (h_\theta (x_i) - y_i)^2m1​i=1∑m​(hθ​(xi​)−yi​)2
  3. 欠拟合:模型太简单,经验误差大,在训练的过程中基本没学到有价值的内容。
  4. 过拟合:模型学习了太多的训练样本的“个性”,经验误差小,但是对于未知的样本泛化能力差(泛化误差大)。
  5. 经验误差:模型关于训练样本集的平均误差(也称经验风险)。
  6. 结构风险:结构风险在经验风险的基础上加上表示模型复杂度的正则化项。
  7. 泛化误差:模型在新样本集(测试集)上的平均误差。
    泛化误差 = 偏差 + 方差 + 噪声
  8. 噪声:描述了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度。

1.1 偏差和方差

返回顶部
如果模型是低偏差和低方差,那肯定是最好的一个选择。
但是偏差和方差在一定程度上是矛盾的:
如果偏差降低,那方差可能会相应的升高;
如果方差降低,那偏差可能相应升高。
所以我们是尽量的寻求偏差和方差的一个平衡点。

下图比较形象的表达偏差和方差的含义:

偏差太大,说明模型欠拟合;
方差太大,说明模型过拟合。

2. 欠拟合和过拟合

返回顶部

2.1 学习曲线

通过学习曲线来识别模型是否发生了欠拟合、过拟合:

模型过拟合【中图】的情形,随着样本的增大,可能变成模型正常【右图】。
横轴为训练样本数量,纵轴为误差

2.2 复杂程度曲线


横轴为模型复杂程度,纵轴为误差
上图中:模型在点A处,在训练集以及测试集上同时具有较高的误差,此时模型的偏差较大,模型欠拟合
模型在点C处,在训练集上具有较低的误差,在测试集上具有较高的误差,此时模型的方差较大,模型过拟合
模型复杂程度控制在点B处为最优。

2.3 支持向量机的过拟合和欠拟合

返回顶部

支持向量机采用的正则化系数C=1λC = \frac{1}{\lambda}C=λ1​是常规正则化系数的导数,C越大,过拟合;C越小,欠拟合,更容易记忆。

2.4 KNN回归的过拟合和欠拟合

返回顶部


邻居数(n-neighbors)越大,欠拟合(bias);越小,过拟合(vias)

3. 如何解决欠拟合和过拟合

返回顶部

3.1 解决欠拟合

  1. 增加特征项;
  2. 添加多项式特征项;
  3. 减小正则化系数;
  4. 增加模型复杂度。

3.2 解决过拟合

过拟合问题是机器学习和深度学习里面主要需解决的一个问题。解决过拟合的办法主要有:

  1. 重新做特征工程;
  2. 增加训练样本数量;
  3. 降低模型复杂程度;
  4. 增大正则项系数;
  5. 采用dropout方法【用于神经网络】;
  6. early stoping,早停法【当模型在验证集上的误差比上一次训练结果差的时候停止训练】;
  7. 减少迭代次数;
  8. 增大学习率;
  9. 添加噪声数据;
  10. 树结构中,可以对树进行剪枝。
    以上只是举一些例子,不同的问题还是需要根据不同的情况分析

欢迎关注,敬请点赞!
返回顶部

机器学习基础概念——过拟合和欠拟合相关推荐

  1. 机器学习考点---过拟合与欠拟合、CNN原理......

    2 . 与数据相关的内容:数据的标注来源.规范化.增广.噪声处理怎么处理?数据有噪声好不好? 测试集.验证集.训练集各自的作用: 训练集:参数调优. 验证集:超参.模型的选择,模型评估,正则化 . 为 ...

  2. 31,32,33_过拟合、欠拟合的概念、L2正则化,Pytorch过拟合欠拟合,交叉验证-Train-Val-Test划分,划分训练集和测试集,K-fold,Regularization

    1.26.过拟合.欠拟合及其解决方案 1.26.1.过拟合.欠拟合的概念 1.26.1.1.训练误差和泛化误差 1.26.1.2.验证数据集与K-fold验证 1.26.1.3.过拟合和欠拟合 1.2 ...

  3. 吴恩达机器学习:偏差与方差、欠拟合与过拟合

    在吴恩达机器学习课程的第86课时中,讲解了偏差和方差与欠拟合和过拟合的关系. 1.偏差与方差的概念 先看下网上关于偏差与方差的例子. 该例子可以理解为射击打靶. 偏差指的是多次射击的平均环数与环心的偏 ...

  4. 机器学习算法中的过拟合与欠拟合(转载)

    在机器学习表现不佳的原因要么是过度拟合或欠拟合数据. 1.机器学习中的逼近目标函数过程 监督式机器学习通常理解为逼近一个目标函数(f)(f),此函数映射输入变量(X)到输出变量(Y). Y=f(X)Y ...

  5. 机器学习之过拟合和欠拟合

    文章目录 前言 什麽是过拟合和欠拟合? 过拟合和欠拟合产生的原因: 欠拟合(underfitting): 过拟合(overfitting): 解决欠拟合(高偏差)的方法 1.模型复杂化 2.增加更多的 ...

  6. 机器学习/算法面试笔记1——损失函数、梯度下降、优化算法、过拟合和欠拟合、正则化与稀疏性、归一化、激活函数

    正值秋招,参考网络资源整理了一些面试笔记,第一篇包括以下7部分. 1.损失函数 2.梯度下降 3.优化算法 4.过拟合和欠拟合 5.正则化与稀疏性 6.归一化 7.激活函数 损失函数 损失函数分为经验 ...

  7. 机器学习1:泛化(过拟合、欠拟合)

    机器学习1:泛化(过拟合.欠拟合) 泛化 理解 判断 过拟合 欠拟合 机器学习中的逼近目标函数过程 统计拟合 机器学习中的过拟合 机器学习中的欠拟合 机器学习中好的拟合 个人理解泛化就是让机器具有举一 ...

  8. 一文解决机器学习中的过拟合与欠拟合问题(正则化,数据增强,Dropout)

    一文解决机器学习中的过拟合与欠拟合问题(正则化,数据增强,Dropout,提前终止) 生活中的过拟合与欠拟合现象 过拟合与欠拟合的概念 解决过拟合与欠拟合问题的四大金刚 正则化 数据增强 Dropou ...

  9. 机器学习-过拟合与欠拟合(overfitting and underfitting)

    通过一个例子来引入过拟合与欠拟合的概念(Stanford) Who will Repay their Loans? - A leader hires you to investigate who wi ...

最新文章

  1. 山西大学计算机科学与技术全国排名,山西这所大学曾是国内排名前五,如今排名下滑,有点走下坡路了...
  2. c语言程序竞赛,2015年江西理工大学C语言程序设计竞赛(初级组)
  3. VSFTP用户目录指定
  4. javascript日期时间操作总结
  5. Linux系统用户和用户组介绍
  6. [翻译]API Guides - Bound Services
  7. DBUtils结果集处理
  8. 常用设计模式——创建型
  9. 【C++】字符串替换问题
  10. adb for linux 工具包,Linux(Ubuntu)下配置安装adb工具
  11. natapp在linux服务器上的使用
  12. 干货 | 扫了那么多二维码,15款工具打造你的专属二维码
  13. Python中的三目表达式
  14. 演进:如何用练习快速提升技术
  15. 发动机压缩比怎么计算公式_加几号油它说的算 解析发动机压缩比奥秘
  16. 年产4000吨果味奶糖生产车间工艺设计
  17. 在EXCEL中插入超级链接
  18. 微信域名检测接口文档
  19. 配置Tomcat性能优化
  20. 关于type_info与typeid

热门文章

  1. Qt下载网络图片到桌面
  2. PostgreSQL日期加减
  3. 分享一个免费好用的pdf转word工具
  4. 【scratch】class_1_界面介绍
  5. H5公众号-canvas海报分享图+生成二维码
  6. 混合波束成形| 通过天线空间方向图理解波束成形的物理意义
  7. 九龙证券|300亿空袭,港股吓懵了!
  8. mxd2 计算机内存不足,错误:无法将图元文件映射到内存中。 内存不足
  9. 浅谈互联网行业发展趋势及现状
  10. Web GIS多种方式发布动态地图服务及显示(2)