1 过拟合介绍

如果模型设计的太复杂，可能会过拟合

下图的1~5分别代表最高项为1~5次幂的线性回归问题：

当模型太复杂的时候，虽然训练集上我们得到较小的误差，但是在测试集上，误差就奇大无比

复杂模型的model space涵盖了简单模型的model space，因此复杂模型在training data上的错误率更小，但并不意味着在testing data 上错误率更小。模型太复杂会出现overfitting。

1.1 高维小样本问题

2 处理过拟合的方法

机器学习笔记：误差的来源（bias & variance）_UQI-LIUWJ的博客-CSDN博客

处理过拟合主要有几种方法：

增加数据量（数据量大了之后，根据某种规则去掉一些特征，来实现降维）
特征提取（eg，主成分分析PCA，作用也是实现降维）
正则化（通过给损失函数增加惩罚项来避免过拟合）
减低模型的复杂度

2.1 正则化

这是一种解决过拟合的办法——>使曲线平滑一点（这样如果测试集的输入有一点噪声的话，扰动也不会太大）

注：正则项里面不包括偏差表示，只包括影响梯度的那些函数

λ越大，表示越平滑，训练集上的error越大（因为我们越倾向于考虑w的数值大小，而不是我们预测值和实际值之间的error）
【λ太小可能过拟合，λ太大可能欠拟合】

2.1.1 L1正则化（Lasso）

L1正则化每次更新的数值是恒定的（等值更新）

2.1.2 L2正则化（ridge）

机器学习笔记：岭回归（L2正则化）_UQI-LIUWJ的博客-CSDN博客

L2正则化每次w更新的比例是恒定的（等比例更新）

L2正则化在w值很大的情况下，下降速度很快；在w很小的情况下，下降速度很慢

3 欠拟合和过拟合

欠拟合：

1）模型不足以表达数据所有的特点

2）没有充分学习观测数据的特点

过拟合：

1）模型不仅表达了数据所有的特点，还把数据特定的噪声也表达了出来

2）在训练集和验证集/测试集上的表现差异巨大

3.1 处理欠拟合的方法

继续训练模型，如果效果提升不显著的话，修改模型，让模型更复杂一些

机器学习笔记：过拟合和欠拟合相关推荐

机器学习笔记（通俗易懂）---监督学习介绍：分类与回归，泛化~过拟合与欠拟合(2)
机器学习笔记-监督学习介绍:分类与回归,泛化~过拟合与欠拟合(2) 明天开始就打数模美赛了,今天简单地介绍一下监督学习以下都是本人在学习机器学习过程中的一些心得和笔记,仅供参考文章目录机器学习笔 ...
机器学习/算法面试笔记1——损失函数、梯度下降、优化算法、过拟合和欠拟合、正则化与稀疏性、归一化、激活函数
正值秋招,参考网络资源整理了一些面试笔记,第一篇包括以下7部分. 1.损失函数 2.梯度下降 3.优化算法 4.过拟合和欠拟合 5.正则化与稀疏性 6.归一化 7.激活函数损失函数损失函数分为经验 ...
过拟合解决方法python_《python深度学习》笔记---4.4、过拟合与欠拟合（解决过拟合常见方法）...
<python深度学习>笔记---4.4.过拟合与欠拟合(解决过拟合常见方法) 一.总结一句话总结: 减小网络大小添加权重正则化添加 dropout 正则化 1.机器学习的根本问题? ...
机器学习中过拟合、欠拟合与方差、偏差的关系是什么？
机器学习中过拟合.欠拟合与方差.偏差的关系是什么? 过拟合(overfitting)与欠拟合(underfitting)是统计学中的一组现象.过拟合是在统计模型中,由于使用的参数过多而导致模型对观测数 ...
机器学习回归算法—性能评估欠拟合与过拟合
机器学习中的泛化,泛化即是,模型学习到的概念在它处于学习的过程中时模型没有遇见过的样本时候的表现.在机器学习领域中,当我们讨论一个机器学习模型学习和泛化的好坏时,我们通常使用术语:过拟合和欠拟合.我们 ...
百面机器学习 #2 模型评估：07 过拟合和欠拟合及其常用解决方法
如何有效地识别"过拟合"和"欠拟合"现象,并有针对性地进行模型调整,是不断改进机器学习模型的关键. 过拟合模型对于训练数据拟合呈过当的情况反映到评估指标上, ...
机器学习算法中的过拟合与欠拟合（转载）
在机器学习表现不佳的原因要么是过度拟合或欠拟合数据. 1.机器学习中的逼近目标函数过程监督式机器学习通常理解为逼近一个目标函数(f)(f),此函数映射输入变量(X)到输出变量(Y). Y=f(X)Y ...
机器学习中的过拟合与欠拟合
目录一.什么是过拟合与欠拟合二.原因及解决方法三.正则化类别四.拓展-原理问题:训练数据训练的很好啊,误差也不大,为什么在测试集上面有问题呢? 当算法在某个数据集当中出现这种情况,可能就出 ...
【机器学习】过拟合与欠拟合
我们在训练机器学习模型或者深度学习神经网络中经常会遇到过拟合与欠拟合的问题,接下来就对这两个问题进行简单介绍,并举出几种相应的解决办法. 1.过拟合与欠拟合过拟合是指训练数据上能够获得比其他假设更好 ...
Pytorch深度学习笔记（02）--损失函数、交叉熵、过拟合与欠拟合
目录一.损失函数二.交叉熵损失函数详解 1.交叉熵 2.信息量 3.信息熵 4.相对熵(KL散度) 5.交叉熵 6.交叉熵在单分类问题中的应用 7.总结: 三.过拟合和欠拟合通俗解释 1.过拟合 ...

机器学习笔记：过拟合和欠拟合