RNN学习笔记3-LSTM

引入LSTM

尽管RNN被设计成可以利用历史的信息来辅助当前的决策，但是由于在上节提到的梯度消失或者梯度爆炸问题，RNN主要还是学习短期的依赖关系。所以RNN新的技术挑战就是-长期依赖。
长短时记忆网络(Long Short Term Memory Network, LSTM)，是一种改进之后的循环神经网络，可以解决RNN无法处理长距离的依赖的问题.
LSTM在一个整体的循环网络结构中除了外部的RNN大循环，还要考虑自身单元“细胞”的自循环。

传统RNN每个模块内只是一个简单的tanh层,LSTM每个循环的模块内又有4层结构:3个sigmoid层，1个tanh层
其中图标

粉色的圆圈表示一个二目运算。两个箭头汇合成一个箭头表示2个向量首尾相连拼接在一起。一个箭头分叉成2个箭头表示一个数据被复制成2份，分发到不同的地方去。

LSTM内部结构

LSTM的关键是细胞状态CCC，一条水平线贯穿于图形的上方，这条线上只有些少量的线性操作，信息在上面流传很容易保持。如下图

CCC控制参数，决定什么样的信息要保留，什么样的信息需要遗忘。–需要一直维护更新
怎么样进行决策呢，就需要用到门：Gate
门：Gate:是一个使用sigmoid激活函数对输入信息进行控制的结构。使用门可以对通过这个结构的输入信息进行控制，使用激活函数后，全连神经网络输出一个0-1之间的数值。当sigmoid激活函数输出为1时，门完全打开，全部信息可以通过；sigmoid激活函数输出为0时，门完全闭合，任何信息无法通过。
第一层：遗忘门
根据当前的输入、上一时刻的输出和门的偏置项共同决定哪一部分记忆需要被遗忘。

ft=σ(Wf⋅[ht−1,xt]+bf)f_t=\sigma(W_f\cdot[h_{t-1},x_t]+b_f)ft=σ(Wf⋅[ht−1,xt]+bf)
Ct−1⨀ftC_{t-1}\bigodot f_t \quad \quadCt−1⨀ft 决定需要遗忘哪些信息

第二层：记忆门
为了使循环神经网络更有效的保存长期记忆，除了遗忘门，输入门也发挥至关重要的作用。不仅需要忘记部分之前的记忆，还需要补充新的记忆，就需要输入门来控制。

一个tanh层用来产生更新值的候选项CtC_tCt，tanh的输出在[-1,1]上，说明细胞状态在某些维度上需要加强，在某些维度上需要减弱；还有一个sigmoid层（输入门层），它的输出值要乘到tanh层的输出上，起到一个缩放的作用，极端情况下sigmoid输出0说明相应维度上的细胞状态不需要更新。
it=σ(Wi⋅[ht−1,xt]+bi)i_t=\sigma(W_i\cdot[h_{t-1},x_t]+b_i)it=σ(Wi⋅[ht−1,xt]+bi)
Ct~=tanh(WC⋅[[ht−1,xt]+bC)\tilde{C_t}=tanh(W_C\cdot[[h_{t-1},x_t]+b_C)Ct~=tanh(WC⋅[[ht−1,xt]+bC)

生成新的细胞状态
让旧的细胞状态Ct−1与ftC_{t-1}与f_tCt−1与ft（f是forget忘记门的意思）相乘来丢弃一部分信息，然后再加个需要更新的部分it∗Ct~i_t * \tilde{C_t}it∗Ct~(i是input输入门的意思），这就生成了新的细胞状态CtC_tCt。

Ct=ft∗Ct−1+it∗Ct~C_t=f_t*C_{t-1}+i_t*\tilde{C_t}Ct=ft∗Ct−1+it∗Ct~

输出层
输出值跟细胞状态有关，把CtC_tCt输给一个tanh函数得到输出值的候选项。候选项中的哪些部分最终会被输出由一个sigmoid层来决定

ot=σ(Wo[ht−1,xt],+bo)o_t=\sigma(W_o[h_{t-1},x_t],+b_o)ot=σ(Wo[ht−1,xt],+bo)
ht=ot∗tanh(Ct)h_t=o_t*tanh(C_t)ht=ot∗tanh(Ct)

总结
\qquad\;\;输入门：it=σ(Wi⋅[ht−1,xt]+bi)i_t=\sigma(W_i\cdot[h_{t-1},x_t]+b_i)it=σ(Wi⋅[ht−1,xt]+bi)
\quad\quad\;\;遗忘门：ft=σ(Wf⋅[ht−1,xt]+bf)f_t=\sigma(W_f\cdot[h_{t-1},x_t]+b_f)ft=σ(Wf⋅[ht−1,xt]+bf)
\quad\quad\;\;输出门：ot=σ(Wo[ht−1,xt],+bo)o_t=\sigma(W_o[h_{t-1},x_t],+b_o)ot=σ(Wo[ht−1,xt],+bo)

\;\;\;新记忆参数：Ct~=tanh(WC⋅[[ht−1,xt]+bC)\tilde{C_t}=tanh(W_C\cdot[[h_{t-1},x_t]+b_C)Ct~=tanh(WC⋅[[ht−1,xt]+bC)

最后记忆参数：Ct=ft∗Ct−1+it∗Ct~C_t=f_t*C_{t-1}+i_t*\tilde{C_t}Ct=ft∗Ct−1+it∗Ct~

最终输出状态：ht=ot∗tanh(Ct)h_t=o_t*tanh(C_t)ht=ot∗tanh(Ct)

梯度消失问题

RNN 通过hth_tht来保存和传递信息，之前分析了如果时间间隔较大容易产生梯度消失的问题。
LSTM 则通过记忆单元CtC_tCt 来传递信息，通过iti_tit和ftf_tft 的调控，CtC_tCt 可以在 t 时刻捕捉到某个关键信息，并有能力将此关键信息保存一定的时间间隔。
如果没有遗忘门，Ct=Ct−1+it⨀Ct~C_t=C_{t-1}+i_t\bigodot\tilde{C_t}Ct=Ct−1+it⨀Ct~，这样的话∂Ct∂Ct−1\frac{\partial C_t}{\partial C_{t-1}}∂Ct−1∂Ct恒为1，这样CtC_tCt会不断增大，容易饱和，从而降低模型的性能。引入遗忘门后，∂Ct∂Ct−1=ft\frac{\partial C_t}{\partial C_{t-1}}=f_t∂Ct−1∂Ct=ft，当然如果多个ftf_tft连乘同样会导致梯度消失（ft∈[0,1]f_t\in[0,1]ft∈[0,1]）。但是LSTM的技巧就是将遗忘门的bias设置为正数，（例如 1 或者 5，如 tensorflow 中的默认值就是 1.0），这样一来模型刚开始训练时 forget gate 的值都接近 1，不会发生梯度消失 (反之若 forget gate 的初始值过小则意味着前一时刻的大部分信息都丢失了，这样很难捕捉到长距离依赖关系)。随着训练过程的进行，forget gate 就不再恒为 1 了。不过，一个训好的模型里各个 gate 值往往不是在 [0, 1] 这个区间里，而是要么 0 要么 1，很少有类似 0.5 这样的中间值，其实相当于一个二元的开关。

假如在某个序列里，forget gate 全是 1，那么梯度不会消失；某一个 forget gate 是 0，模型选择遗忘上一时刻的信息。

参考：
https://www.cnblogs.com/zhangchaoyang/articles/6684906.html
https://zhuanlan.zhihu.com/p/60915302