一、梯度消失

1.1 定义

神经⽹络靠输⼊端的⽹络层的系数逐渐不再随着训练⽽变化，或者
变化⾮常缓慢。随着⽹络层数增加，这个现象越发明显

1.2 梯度消亡(Gradient Vanishing)前提

使⽤基于梯度的训练⽅法（例如梯度下降法）
使⽤的激活函数具有输出值范围⼤⼤⼩于输⼊值的范围，例如
logistic（逻辑斯函数）， tanh（双曲正切）

1.3 产生的原因

梯度下降法依靠理解系数的微⼩变化对输出的影响来学习⽹络的系数的值。如果⼀个系数的微⼩变化对⽹络的输出没有影响或者影响极⼩，那么就⽆法知晓如何优化这个系数，或者优化特别慢。造成训练的困难。

使用梯度下降法训练神经网络，如果激活函数具备将输出值的范围相对于输入的值大幅度压缩，那么就会出现梯度消亡。
例如，双曲正切函数(tanh) 将-∞到∞的输入压缩到-1到+1之间。除开在输入为-6,+6之间的值，其它输入值对应的梯度都非常小，接近0.

1.4 解决方案

激活函数ReLu: f(x) = max(0, x)
输入大于0,梯度为1，否则0.
激活函数LeakyReLu: f(x) = max(ax,x)
输入大于等于0，梯度为1，否则为a
采⽤不使⽤梯度的⽹络训练⽅法： https://link.springer.com/article/10.1007/s10898-012-9951-y(Derivativefree optimization: a review of algorithms and comparison of software implementations)
3.1.基于遗传、进化算法
https://www.ijcai.org/Proceedings/89-1/Papers/122.pdf
https://blog.coast.ai/lets-evolve-a-neural-network-with-a-genetic-algorithm-code-included-8809bece164
3.2. 粒⼦群优化（Particle Swarm Optimization, PSO）
https://visualstudiomagazine.com/articles/2013/12/01/neural-network-training-using-particle-swarm
optimization.aspx
https://ieeexplore.ieee.org/document/1202255/?reload=true

二、梯度爆炸

当gradient<1时产生梯度消失，gradient>1产生梯度爆炸，定义、产生原因都类似。

2.1 解决方法

梯度剪切（Gradient Clipping）：其思想是设置一个梯度剪切阈值，然后更新梯度的时候，如果梯度超过这个阈值，那么就将其强制限制在这个范围之内。

其他解决方法：https://blog.csdn.net/qq_25737169/article/details/78847691

梯度消亡(Gradient Vanishing)和梯度爆炸(Gradient Exploding)相关推荐

理解RNN、LSTM、GRU和Gradient Vanishing
最近在学习cs224n: Natural Language Processing with Deep Learning课程时,对RNN.LSTM和GRU的原理有了更深一层的理解,对LSTM和GRU如何 ...
梯度消亡--学习笔记
梯度消亡一. 梯度消亡神经网络靠输入端的网络层的系数逐渐不再随着训练而变化,或者变化非常缓慢随着网络层数增加,这个现象越发明显梯度消亡的前提: 使用基于梯度的训练方法(如梯度下降法) 使用的激 ...
机器学习总结（九）：梯度消失（vanishing gradient）与梯度爆炸（exploding gradient）问题
(1)梯度不稳定问题: 什么是梯度不稳定问题:深度神经网络中的梯度不稳定性,前面层中的梯度或会消失,或会爆炸. 原因:前面层上的梯度是来自于后面层上梯度的乘乘积.当存在过多的层次时,就出现了内在本质上 ...
梯度消失和梯度爆炸_梯度消失梯度爆炸-Gradient Clip
梯度爆炸与梯度消失实际现象: 当我们使用sigmoid function作为激活函数时,随着神经网络的隐藏层数增加,训练误差反而增大,造成了深度网络的不稳定. 梯度弥散: 靠近输出层的hidden ...
梯度爆炸gradient explode和梯度消失gradient vanish
梯度消失:什么是梯度消失?下图是Bengio等人2012年论文On the difficulty of training recurrent neural networks中提到的说法,当梯度快速的变 ...
机器学习中的梯度消失问题vanishing gradient
翻译自Nikhil Garg的Quora回答. 梯度消失是使用梯度下降方法的神经网络中出现的问题,其表现是,在反向回馈(backpropagation)中使整个网络难以调节前面几层的参数(Parame ...
梯度下降（BGD）、随机梯度下降（SGD）、Mini-batch Gradient Descent、带Mini-batch的SGD
原文:http://blog.csdn.net/llx1990rl/article/details/44001921 梯度下降(BGD).随机梯度下降(SGD).Mini-batch Gradient ...
Lesson 4.34.4 梯度下降(Gradient Descent)基本原理与手动实现随机梯度下降与小批量梯度下降
Lesson 4.3 梯度下降(Gradient Descent)基本原理与手动实现在上一小节中,我们已经成功的构建了逻辑回归的损失函数,但由于逻辑回归模型本身的特殊性,我们在构造损失函数时无法采用 ...
[机器学习] ML重要概念：梯度（Gradient）与梯度下降法（Gradient Descent）
本文转自:https://blog.csdn.net/walilk/article/details/50978864 引言机器学习栏目记录我在学习Machine Learning过程的一些心得笔记, ...

梯度消亡(Gradient Vanishing)和梯度爆炸(Gradient Exploding)

文章目录