深度学习：梯度消失和梯度爆炸

http://blog.csdn.net/pipisorry/article/details/71877840

梯度消失

主要是因为网络层数太多，太深，导致梯度无法传播。本质应该是激活函数的饱和性。

梯度爆炸

DNN结果出现nan值？梯度爆炸，导致结果不收敛。都是梯度太大惹的祸，所以可以通过减小学习率（梯度变化直接变小）、减小batch size（累积梯度更小）、 features规格化（避免突然来一个大的输入）。

如在tf中运行到self.train_op = layers.optimize_loss(self.loss, tf.train.get_global_step(), optimizer=self.optimizer, learning_rate=self.learning_rate, clip_gradients=self.clip_norm)时出错：Found Inf or NaN global norm. : Tensor had NaN values

出错可能：

1 输入数据存在nan，需要run部分数据，或者通过tf.Print输出进入模型的features看看。

2 可能就是batch_size/学习率过大

[深度学习：学习率及如何调整]

[神经网络中的激活函数 ]

前馈神经网络的梯度消失和爆炸

前馈神经网络（包括全连接层、卷积层等）可以表示为，那么网络输出对 W1 求偏导，这里是相互独立的，一般不会有数值问题，主要问题在于激活函数的导数 f'在饱和区接近于零，导致梯度消失。

RNN网络中的梯度消失和爆炸

循环神经网络的状态循环部分可以表示为，这里的问题不仅在于激活函数的导数，还有 W 在不同时刻是共享的，网络输出对 W 的偏导包含 W 的连乘项，稍有不慎（ W值偏小或偏大）就会出现梯度消失或爆炸。

...

为什么RNN会产生梯度爆炸和消失问题呢？我们接下来将详细分析一下原因。我们根据式3可得：

上式的定义为矩阵的模的上界。因为上式是一个指数函数，如果t-k很大的话（也就是向前看`很远的时候），会导致对应的误差项的值增长或缩小的非常快，这样就会导致相应的梯度爆炸和梯度消失问题（取决于大于1还是小于1）。

RNN用tanhtanh而不是relurelu的主要目的就是缓解梯度爆炸风险。当然，这个缓解是相对的，用了tanhtanh依然有爆炸的可能性。

Lstm的梯度消失和爆炸

如果我们的任务比较依赖于历史信息，那么“遗忘门”ft就会接近于1，这时候历史的梯度信息也正好不容易消失；如果ft很接近于0，那么就说明我们的任务不依赖于历史信息，这时候就算梯度消失也无妨了。

Gru的梯度消失和爆炸

ref 推导和理论[也来谈谈RNN的梯度消失/爆炸问题]

梯度爆炸和消失问题解决

不幸的是，实践中前面介绍的几种RNNs并不能很好的处理较长的序列。一个主要的原因是，RNN在训练中很容易发生梯度爆炸和梯度消失，这导致训练时梯度不能在较长序列中一直传递下去，从而使RNN无法捕捉到长距离的影响。

解决方案

共同方案：bn [Batch-normalized 应该放在非线性激活层的前面还是后面？]。

梯度爆炸：

梯度爆炸的时候，我们的程序会收到NaN错误。我们也可以设置一个梯度阈值，当梯度超过这个阈值的时候可以直接截取。

梯度消失：

更难检测，而且也更难处理一些。总的来说，我们有三种方法应对梯度消失问题：

合理的初始化权重值。初始化权重，使每个神经元尽可能不要取极大或极小值，以躲开梯度消失的区域。
使用relu代替sigmoid和tanh作为激活函数。[Batch-normalized 应该放在非线性激活层的前面还是后面？]
使用其他结构的RNNs，比如长短时记忆网络（LTSM）和Gated Recurrent Unit（GRU），这是最流行的做法。

[零基础入门深度学习(5) - 循环神经网络]

from: http://blog.csdn.net/pipisorry/article/details/71877840

ref: