如下图所示是深度神经网络的图例:

在训练神经网络 参数的情况下,有时候会出现靠近靠近输出层的参数变化较明显,靠近输入层的参数变化较不明显,造成这种显现的原因就是梯度消失。

梯度消失的原因

具体来说梯度消失的原因主要就是层度比较深,举例来说:
假设每一层神经元的表达式如下所示,激活函数为sigmoid函数


可以推导出:

是sigmoid函数的倒数图像为:

可以看到导函数的最大值为0.25,通常初始化的权值|w|<1,所以:

由于连乘,所以上式子

变得越小。所以梯度现象容易消失。所以越靠近输入层梯度连乘效应越大,所以靠近输入层参数变化越不明显。

梯度爆炸原因

有上面的推导知道了梯度消失的原因,那么梯度爆炸的原因也显而易见了,就是

在sigmoid函数中这种现象比较少见,因为激活函数的值也和w有关

总的来说
其实梯度爆炸和梯度消失问题都是因为网络太深,网络权值更新不稳定造成的,本质上是因为梯度反向传播中的连乘效应。

梯度消失与梯度爆炸原因剖析相关推荐

  1. [深度学习-优化]梯度消失与梯度爆炸的原因以及解决方案

    首先让我们先来了解一个概念:什么是梯度不稳定呢? 概念:在深度神经网络中的梯度是不稳定的,在靠近输入层的隐藏层中或会消失,或会爆炸.这种不稳定性才是深度神经网络中基于梯度学习的根本问题. 产生梯度不稳 ...

  2. 出现梯度消失与梯度爆炸的原因以及解决方案

    出现梯度消失与梯度爆炸的原因以及解决方案 参考文章: (1)出现梯度消失与梯度爆炸的原因以及解决方案 (2)https://www.cnblogs.com/XDU-Lakers/p/10553239. ...

  3. 梯度消失和梯度爆炸_梯度消失、爆炸的原因及解决办法

    一.引入:梯度更新规则 目前优化神经网络的方法都是基于反向传播的思想,即根据损失函数计算的误差通过梯度反向传播的方式,更新优化深度网络的权值.这样做是有一定原因的,首先,深层网络由许多非线性层堆叠而来 ...

  4. 梯度消失和梯度爆炸_出现梯度消失与梯度爆炸的原因以及解决方案

    在学习李宏毅老师机器学习的相关视频时,课下做了一个有关神经网络的小Demo,但是运行效果总是不尽人意,上网查询资料,才发现是梯度爆炸和梯度消失惹的祸.今天就让我们一起来学习一下梯度消失与梯度爆炸的概念 ...

  5. 梯度消失与梯度爆炸产生原因及解决方法

    1 .什么是梯度消失和梯度爆炸 在反向传播过程中需要对激活函数进行求导,如果导数大于1,那么随着网络层数的增加梯度更新将会朝着指数爆炸的方式增加这就是梯度爆炸.同样如果导数小于1,那么随着网络层数的增 ...

  6. 【机器学习】梯度消失和梯度爆炸的原因分析、表现及解决方案

    目录 1 基本概念 2 原因分析 2.1 直接原因 2.2 根本原因 3 表现 4 解决方案 1 基本概念 (1)梯度不稳定 在深度神经网络中的梯度是不稳定的,在靠近输入层的隐藏层中或会消失,或会爆炸 ...

  7. 【深度学习】梯度消失和梯度爆炸问题的最完整解析

    作者丨奥雷利安 · 杰龙 来源丨机械工业出版社<机器学习实战:基于Scikit-Learn.Keras和TensorFlow> 编辑丨极市平台 1 梯度消失与梯度爆炸 正如我们在第10章中 ...

  8. sigmoid函数解决溢出_梯度消失和梯度爆炸及解决方法

    一.为什么会产生梯度消失和梯度爆炸? 目前优化神经网络的方法都是基于BP,即根据损失函数计算的误差通过梯度反向传播的方式,指导深度网络权值的更新优化.其中将误差从末层往前传递的过程需要链式法则(Cha ...

  9. 动手学深度学习(PyTorch实现)(四)--梯度消失与梯度爆炸

    梯度消失与梯度爆炸 1. 梯度消失与梯度爆炸 2. 模型参数的初始化 2.1 PyTorch的默认随机初始化 2.2 Xavier随机初始化 3. 环境因素 3.1 协变量偏移 3.2 标签偏移 3. ...

  10. 梯度消失和梯度爆炸_梯度消失梯度爆炸-Gradient Clip

    梯度爆炸与梯度消失 实际现象: 当我们使用sigmoid function作为激活函数时,随着神经网络的隐藏层数增加,训练误差反而增大,造成了深度网络的不稳定. 梯度弥散: 靠近输出层的hidden ...

最新文章

  1. MyBatis查询两个字段,返回Map,一个字段作为key,一个字段作为value的实现
  2. (七)boost库之单例类
  3. 通过JDBK操作数据库
  4. Kyligence李扬:数据智能推荐成为技术发展新方向
  5. linux未设置为接受端口,Simple gawk server
  6. 当开发帆软插件得时候如果安装插件遇到 ***插件版本过低 请安装高版本插件
  7. 春晚亲民,快手上行:探秘春晚红包的另一种打开方式
  8. echarts柱状图的宽度
  9. 数据库实验2:简易登录页面设计(c#)
  10. 1599 元至 1999 元 ,Redmi Note 9 Pro 正式发布:骁龙 750G + 1 亿像素相机
  11. 结果页要求用户复制链接进行分享 而不是直接调用浏览器分享API的原因
  12. android开发中论坛帖子图片的排版
  13. win10 设置为静态ip地址
  14. FreeRTOS笔记篇:第五章 --软件定时
  15. jupyter内核无法连接,出现error,代码无法运行解决办法
  16. java计算机毕业设计web高校车辆调度系统设计与实现(附源码、数据库)
  17. 百度员工一年挣多少钱?聊聊百度的薪资职级体系
  18. css宋体代码_css字体样式
  19. 萌新安装mongodb
  20. CSS的简单学习(6)

热门文章

  1. .NET数据访问是否采用ORM(自译)
  2. python_生成器
  3. OpenJ_Bailian - 1088 滑雪(记忆化搜索)
  4. [Objective-C]用Block实现链式编程
  5. 懒人小技巧, Toad 常用偷懒方法
  6. Hibernate 一对多连接表单向关联
  7. Codeforces 758F Geometrical Progression
  8. python的条件判断
  9. 个人项目需求与分析——点菜系统App
  10. eclipse远程连接hive