深度学习相关概念:过拟合与欠拟合

  • 1.过拟合与欠拟合
  • 2.应对过拟合
    • 2.1最优方案
    • 2.1次优方案
      • 2.1.1L2正则化
      • 2.1.2Dropout 随机失活
  • 3.应对欠拟合
    • 3.1解决方案:

  在神经网络中,我们常常听到过拟合与欠拟合这2个名词,他们到底是什么意思呢?

1.过拟合与欠拟合

  过拟合
  是指学习时选择的模型所包含的参数过多,以至于出现这一模型对已知数据预测的很好,但对未知数据预测得很差的现象。这种情况下模型可能只是记住了训练集数据,而不是学习到了数据特征。
  欠拟合
  模型描述能力太弱,以至于不能很好地学习到数据中的规律。产生欠拟合的原因通常是模型过于简单。

  我们要知道机器学习的根本问题是解决优化和泛化的问题。
  优化:
  是指调节模型以在训练数据上得到最佳性能
  泛化:
  是指训练好的模型在前所未见的数据(测试集)上的性能好坏

2.应对过拟合

2.1最优方案

  获取更多的训练数据。只要给足够多的数据,让模型学习尽可能多的情况,它就会不断修正自己,从而得到更好的结果。就类似于当初参加高考的你,训练数据就类比是你在刷题,当你刷了非常非常多的题,并学会他们的特征,那么你应对高考则是游刃有余了。

  如何获取更多数据,可以有以下几个方法:

   1. 从数据源头获取更多数据
   2. 根据当前数据集估计数据分布参数使用该分布产生更多数据:这个一般不用,因为估计分布参数的过程也会代入抽样误差。
   3. 数据增强(Data Augmentation):通过一定规则扩充数据。如在物体分类问题里,物体在图像中的位置、姿态、尺度,整体图片明暗度等都不会影响分类结果。我们就可以通过图像平移、翻转、缩放、切割等手段将数据库成倍扩充。

  但是获取到有效的数据往往是非常困难的,代价很大(所以在多数情况下不使用此方案)。那么有没有代价适中,又可以解决过拟合的方案呢?

2.1次优方案

  调节模型允许存储的信息量或者对模型允许存储的信息加以约束,该类方法也称为正则化。即:

   1. 调节模型大小
   2. 约束模型权重,即权重正则化(在机器学习中一般使用 L2正则化)
   3. 随机失活(Dropout)

2.1.1L2正则化

  总损失:
L(W)=1N∑iLi(f(xi,W),yi)⏟+λR(W)⏟L(W)=\underbrace{\frac{1}{N} \sum_{i} L_{i}\left(f\left(x_{i}, W\right), y_{i}\right)}+\underbrace{\lambda R(W)}L(W)=N1​i∑​Li​(f(xi​,W),yi​)​+λR(W)​
                数据损失       权重正则损失
  L2正则损失 :
R(W)=∑k∑lWk,l2R(W)=\sum_{k} \sum_{l} W_{k, l}^{2} R(W)=k∑​l∑​Wk,l2​
  L2正则损失对于大数值的权值向量进行严厉惩罚,鼓励更加分散的权重向量,使模型倾向于使用所有输入特征做决策,此时的模型泛化性能好!

2.1.2Dropout 随机失活

  随机失活:让隐层的神经元以一定的概率不被激活。
  实现方式:训练过程中,对某一层使用Dropout,就是随机将该层的一些输出舍弃(输出值设置为0),这些被舍弃的神经元就好像被网络删除了一样。
  随机失活比率( Dropout ratio):是被设为 0 的特征所占的比例,通常在 0.2~0.5范
围内。

  例:

假设某一层对给定输入样本的返回值应该是向量:[0.2, 0.5, 1.3, 0.8, 1.1]。
使用Dropout后,这个向量会有几个随机的元素变成:[0, 0.5, 1.3, 0, 1.1]

  Dropout是通过遍历神经网络每一层的节点,然后通过对该层的神经网络设置一个 Dropout ratio(随机失活比率),即该层的节点有Dropout ratio的概率失活。以这种方式“dropped out”的神经元既不参与前向传播,也不参与反向传播。

  随机失活为什么能够防止过拟合呢?
  解释1:
  随机失活使得每次更新梯度时参与计算的网络参数减少了,降低了模型容量,所以能防止过拟合。
  解释2:
  随机失活鼓励权重分散,从这个角度来看随机失活也能起到正则化的作用,进而防止过拟合。
总的来说通过Dropout每次输入一个样本,就相当于该神经网络就尝试了一个新的结构,但是所有这些结构之间共享权重。因为神经元不能依赖于其他特定神经元而存在,所以这种技术降低了神经元复杂的互适应关系。正因如此,网络需要被迫学习更为鲁棒的特征(泛化性更强)
  

  训练时使用随机失活,测试时怎么办?
  测试时不使用随机失活,而是计算所有权重,如下图所示

p=0.5 #p是神经元保持激话概率
def train(X):H1 = np.maximum(0,np.dot(W1,X) + b1)U1 = np.random.rand(*H1.shape) < p #第一层的mask H1 *= U1 #第一层dropout操作H2 = np.maximun(0,np.dot(W2,H1) + b2)U2 = np.random.rand(*H2.shape) < p #第二层的maskH2 *= U2#第二层dropout操作out = np.dot(W3,H2) + b3
def predict(X):H1 = np.maximum(0,np.dot(W1,X) + b1) * pH2 = np.maximun(0,np.dot(W2,H1) + b2) * pout = np.dot(W3,H2) + b3

3.应对欠拟合

3.1解决方案:

  欠拟合的情况比较容易克服,解决方法有:

   1. 增加新特征,可以考虑加入进特征组合、高次特征,来增大假设空间。
  2. 添加多项式特征,这个在机器学习算法里面用的很普遍,例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。
   3. 减少正则化参数,正则化的目的是用来防止过拟合的,但是模型出现了欠拟合,则需要减少正则化参数。
   4. 使用非线性模型,比如核SVM 、决策树、深度学习等模型 。
   5. 调整模型的容量(capacity),通俗地,模型的容量是指其拟合各种函数的能力。
   6. 容量低的模型可能很难拟合训练集;使用集成学习方法,如Bagging ,将多个弱学习器Bagging。

深度学习相关概念:过拟合与欠拟合相关推荐

  1. 过拟合解决方法python_《python深度学习》笔记---4.4、过拟合与欠拟合(解决过拟合常见方法)...

    <python深度学习>笔记---4.4.过拟合与欠拟合(解决过拟合常见方法) 一.总结 一句话总结: 减小网络大小 添加权重正则化 添加 dropout 正则化 1.机器学习的根本问题? ...

  2. 动手学深度学习(PyTorch实现)(三)--过拟合与欠拟合

    过拟合与欠拟合 1. 过拟合与欠拟合 1.1 训练误差和泛化误差 1.2 模型选择 1.2.1 验证数据集 1.2.2 K折交叉验证 1.3 过拟合与欠拟合 1.3.1 模型复杂度 1.3.2 训练数 ...

  3. 过拟合和欠拟合_现代深度学习解决方案中的两大挑战:拟合和欠拟合

    全文共2306字,预计学习时长5分钟 对机器学习模型而言,最糟糕的两种情况无非是构建无用的知识体系,或是从训练数据集中一无所获.在机器学习理论中,这两种现象分别被称为过拟合和欠拟合,是现代深度学习解决 ...

  4. 深度学习的过拟合与欠拟合问题的介绍与解决方案

    文章目录 过拟合与欠拟合 一.神经网络模型的表现能力 二.欠拟合 三,过拟合 四,过拟合的解决方法 针对数据集的处理: 针对降低模型的复杂度的处理: 另一种常见的方法--Dropout 针对动量的处理 ...

  5. 动手学深度学习-过拟合、欠拟合及其解决方案;梯度消失、梯度爆炸;循环神经网络进阶

    一.过拟合.欠拟合及其解决方案 前序知识点 模型选择 正则化:添加参数的惩罚项,防止过拟合.有L2正则化与L1正则化. 奥卡姆剃刀原则:有多个假设模型时,应该选择假设条件最少的. 模型的泛化能力:指模 ...

  6. 什么是欠拟合现象_深度学习中过拟合、欠拟合问题及解决方案

    在进行数据挖掘或者机器学习模型建立的时候,因为在统计学习中,假设数据满足独立同分布(i.i.d,independently and identically distributed),即当前已产生的数据 ...

  7. 深度学习之过拟合和欠拟合

    1.过拟合和欠拟合的相关概念:在训练模型时可能会出现两个问题:信号不足或噪声过多. 过拟合(Overfitting)是指由于模型学习了太多噪声造成损失没有达到应有的水平. 欠拟合(Underfitti ...

  8. 动手学深度学习V2.0(Pytorch)——11.模型选择+过拟合和欠拟合

    文章目录 1. 模型选择 2. 过拟合和欠拟合 3. 代码 4. Q&A 4.1 SVM和神经网络相比,缺点在哪里 4.2 训练集验证集测试集比例 4.3 时序预测问题中的测试集训练集 4.4 ...

  9. Pytorch深度学习笔记(02)--损失函数、交叉熵、过拟合与欠拟合

    目录 一.损失函数 二.交叉熵损失函数详解 1.交叉熵 2.信息量 3.信息熵 4.相对熵(KL散度) 5.交叉熵 6.交叉熵在单分类问题中的应用 7.总结: 三.过拟合和欠拟合通俗解释 1.过拟合 ...

最新文章

  1. adb devices只显示List of devices attached
  2. python3 日志检索异常抛出异常 raise KeyError(key),KeyError: ‘formatters‘
  3. jfinal linux 乱码,分享JFinal中renderFile方法中文文件名乱码问题的解决办法
  4. cocos2dx基础篇(29)——屏幕适配
  5. ASP.NET知识集
  6. linux redis-4.0,Linux Redis 4.0.2 安装部署
  7. 史上最全基于vue的图片裁剪vue-cropper使用
  8. 统计剩余字数(jq版)
  9. C# for循环①护栏长度 ②广场砖面积 ③判断闰年平年
  10. paip.c++ qt 共享库dll的建立
  11. 互联网电商都是怎么用工厂模式的?
  12. 我的Qt作品(16)基于机器视觉+运动控制的大视野激光切割机软件
  13. 机器学习根据文字生成图片教程(附python代码)
  14. php 快递鸟 批量打印,电子面单批量打印接口简易手册(快递鸟)
  15. Windows 10环境下TensorFlow(gpu版本)配置教程——[图解] [详细版][零基础]
  16. 商城后台学习/笔记/思考
  17. LeetCode-1646-获取生成数组中的最大值
  18. 基于python管理系统论文_基于Python语言的实验室管理系统的设计与实现
  19. Python Eric7+PyQt6环境配置,GUI程序开发
  20. 快衰落、慢衰落,平坦衰落、频率选择性衰落

热门文章

  1. 第十一篇:欧赔与亚盘在运用中各自的优劣
  2. u大师u盘装系统win7_win7系统电脑如何用U盘装,教程在这里
  3. 路由器中心服务器连接异常怎么回事,玩英雄联盟提示服务器连接异常即将退出解决方法(图)...
  4. 色深 抖动 色域 色准
  5. 总结淘宝开放平台接口对接(获取sdk,appkey)
  6. JS 实现跨域外链下载图片(不支持IE)
  7. 从华为任正非罕见接受外媒采访透漏出来的强大的华为基因
  8. 关于酒的常识你知道多少
  9. Excel VLOOKUP函数多条件查找
  10. seo技术第一天:SEO是什么