深度学习TF—9.循环神经网络RNN及其变体GRU、LSTM

文章目录

引言
一、RNN神经元结构（1）
二、RNN神经元结构（2）
三、循环神经网络的类型
四、单向循环神经网络的局限
五、长短时记忆网络LSTM
六、Gated Recurrent Unit—GRU

引言

虽然全连接神经网络理论上只要训练数据足够，给定特定的x，就能得到希望的y，但是全连接神经网络只能处理独立的输入，前一个输入和后一个输入是完全没有关系的。针对某些任务需要能够更好的处理序列的信息，即前面的输入和后面的输入是有关系的情况，此时，就需要用到循环神经网络RNN，该神经网络能够很好的处理序列信息。

标准的全连接神经网络（fully connected neural network）处理序列数据会有两个问题：
1）全连接神经网络输入层和输出层长度固定，而不同序列的输入、输出可能有不同的长度，选择最大长度并对短序列进行填充（pad）不是一种很好的方式；
2）全连接神经网络同一层的节点之间是无连接的，当需要用到序列之前时刻的信息时，全连接神经网络无法做到，一个序列的不同位置之间无法共享特征。

一、RNN神经元结构（1）

参考于一文搞懂RNN（循环神经网络）基础篇
一个简单的循环神经网络，它由输入层、隐藏层（单个）、输出层构成。

x是输入层的值
U是输入层到隐藏层的权重矩阵
s是隐藏层的值
权重矩阵 W就是上一个时刻隐藏层的值作为这一时刻的输入的权重。循环神经网络的隐藏层的值s不仅仅取决于当前时刻的输入x，还取决于前一时刻隐藏层的值s。
V是隐藏层到输出层的权重矩阵

下图展示了上一时刻的隐藏层是如何影响当前时刻的隐藏层的。

循环神经网络时间线展开图为：

这个网络在t时刻接收到输入x_t 之后，隐藏层的值是s_t ，输出值是 o_t 。s_t的值不仅仅取决于 x_t，还取决于 s_t-1。
循环神经网络计算方法用公式表示为：

二、RNN神经元结构（2）

对于 RNN，一个非常重要的概念就是时刻。RNN 会对每一个时刻的输入结合当前模型的状态给出一个输出。t 时刻 RNN 的主体结构 A 的输入除了来自输入层 X_t，还有一个循环的边来提供从 t−1 时刻传递来的隐藏状态。
将RNN 的主体结构 A 按时间复制可得：

如何设计循环体 A 的网络结构是 RNN 解决实际问题的关键。和卷积神经网络（CNN）过滤器中参数共享类似，在 RNN 中，循环体 A 中的参数在不同时刻也是共享的。
循环体A的结构为：

下图展示了一个最简单的使用单个全连接层作为循环体 A 的 RNN。图中黄色的 tanh 小方框表示一个使用 tanh 作为激活函数的全连接层。

t 时刻循环体 A 的输入包括 X_t和从 t−1 时刻传递来的隐藏状态 h_t-1。循环体 A 的两部分输入如何处理呢？将 X_t和 h_t-1直接拼接起来，成为一个更大的矩阵/向量 [X_t,h_t-1]。假设 X_t 和 h_t-1 的形状分别为 [1, 3] 和 [1, 4]，则最后循环体 A 中全连接层输入向量的形状为 [1, 7]。拼接完后按照全连接层的方式进行处理即可。
RNN前向传播如图所示：

三、循环神经网络的类型

one to one：其实和全连接神经网络并没有什么区别，这一类别算不得是 RNN。

one to many：输入不是序列，输出是序列。

many to one：输入是序列，输出不是序列。

many to many：输入和输出都是序列，但两者长度可以不一样。

many to many：输出和输出都是序列，两者长度一样。

四、单向循环神经网络的局限

单向 RNN 的缺点是在 t 时刻，无法使用 t+1 及之后时刻的序列信息，所以就有了双向循环神经网络。理论上循环神经网络可以支持任意长度的序列，然而在实际中，如果序列过长会导致优化时出现梯度消散的问题（the vanishing gradient problem），所以实际中一般会规定一个最大长度，当序列长度超过规定长度之后会对序列进行截断。RNN 面临的一个技术挑战是长期依赖（long-term dependencies）问题，即当前时刻无法从序列中间隔较大的那个时刻获得需要的信息。在理论上，RNN 完全可以处理长期依赖问题，但实际处理过程中，RNN 表现得并不好。但是 GRU 和 LSTM 可以处理梯度消散问题和长期依赖问题。
针对于RNN的梯度爆炸问题，

可抽象为W_R的k次方，当W_R较小时，梯度弥散。当W_R较大时，梯度爆炸。针对梯度爆炸问题，解决方案是引入Gradient Clipping(梯度裁剪)。通过Gradient Clipping，将梯度约束在一个范围内，这样不会使得梯度过大。
在tensorflow 文档中，可以看到Gradient Clipping板块有五个函数。这里，我们仅仅介绍其中两个：

tf.clip_by_norm(t,clip_norm,name=None)
tf.clip_by_global_norm(t_list,clip_norm,use_norm=None,name=None)tf.clip_by_norm(t,clip_norm,name=None)
参数说明： t: a tensor ; clip_norm: 阈值，即maximum L2-norm。
如果 tensor的L2-norm大于clip_norm，则 t = t * clip_norm / l2norm(t)
否则t = ttf.clip_by_global_norm(t_list,clip_norm,use_norm=None,name=None)
参数说明： t_list: multiple tensors; clip_norm: a clipping ratio; use_norm: 如果你
已经计算出global_norm，你可以在use_norm进行指定。tf.clip_by_global_norm(t_list,clip_norm,use_norm=None,name=None)更慢一些，因为它需要
等所有的梯度都求出来才可以进行梯度截断。

算法步骤如下:

首先设置一个梯度阈值：clip_gradient
在后向传播中求出各参数的梯度，这里我们不直接使用梯度进去参数更新，我们求这些梯度的l2范数
然后比较梯度的l2范数||g||与clip_gradient的大小
如果前者大，求缩放因子clip_gradient/||g||,　由缩放因子可以看出梯度越大，则缩放因子越小，这样便很好地控制了梯度的范围
最后将梯度乘上缩放因子便得到最后所需的梯度

lr = 0.01
max_grad_norm = 5tvars = tf.trainable_variables()
grads, _ = tf.clip_by_global_norm(tf.gradients(loss, tvars), max_grad_norm)
opt = tf.train.GradientDescentOptimizer(lr)
# opt = tf.train.AdamOptimizer(lr)
optimizer = opt.apply_gradients(zip(grads, tvars))

五、长短时记忆网络LSTM

在实际建模中，RNN 经常出现梯度爆炸或梯度消失等问题，因此我们一般使用长短期记忆单元或门控循环单元代替基本的 RNN 循环体。它们引入了门控机制以遗忘或保留特定的信息而加强模型对长期依赖关系的捕捉，它们同时也大大缓解了梯度爆炸或梯度消失的问题。循环网络的每一个隐藏层都有多个循环单元，隐藏层 h_t-1 的向量储存了所有该层神经元在 t-1 步的激活值。一般标准的循环网络会将该向量通过一个仿射变换并添加到下一层的输入中，即 W* h_t-1+U* X_t。而这个简单的计算过程由于重复使用 W 和 U 而会造成梯度爆炸或梯度消失。因此我们可以使用门控机制控制前一时间步隐藏层保留的信息和当前时间步输入的信息，并选择性地输出一些值而作为该单元的激活值。之所以叫“门”结构，是因为使用 sigmoid 作为激活函数的全连接神经网络层会输出一个 0 到 1 之间的数值，描述当前输入有多少信息量可以通过这个结构。于是这个结构的功能就类似于一扇门，当门打开时（sigmoid 全连接层输出为 1 时），全部信息可以通过；当门关上时（sigmoid 神经网络层输出为 0 时），任何信息都无法通过。

LSTM 有三个门，分别是“遗忘门”（forget gate）、“输入门”（input gate）和“输出门”（output gate）。
“遗忘门”的作用是让循环神经网络“忘记”之前没有用的信息，控制以前记忆的信息到底需要保留多少

“输入门”决定哪些信息进入当前时刻的状态，分为以前保留的信息加上当前输入有意义的信息

通过“遗忘门”和“输入门”，LSTM 结构可以很有效地决定哪些信息应该被遗忘，哪些信息应该得到保留。且更新当前时刻状态C_t，输入与输入门对应元素相乘表示当前时刻需要添加到C_t的记忆，前一时间步的记忆 C_t-1 与遗忘门 f_t 对应元素相乘就表示了需要保留或遗忘的历史信息是多少，最后将这两部分的信息相加在一起就更新了记忆C_t的信息。

LSTM 在得到当前时刻状态 Ct 之后，需要产生当前时刻的输出，该过程通过“输出门”完成。
LSTM 的内部状态向量