循环神经网络，注意力机制小结

写在前面，RNN是经典的用来处理序列数据的神经网络，这里花了点时间学习了一下，顺便非常粗糙地了解了一下NLP的内容，因此在这里整理了一下笔记。

1、知识图谱

针对客观存在的信息，抽取置信度较高的加入到实体库，然后用（实体1，关系，实体2）、（实体、属性，属性值）这样的三元组来实体库间的关系，每一个三元组就是一个“知识”，知识图谱就是若干知识的连接网络。

2、NLP与RNN

● 序列数据
比如说“我手机坏了，我想买个新苹果！”，这句话中的“苹果”指的是手机而不是真正的苹果，那我们之所以会认为是手机，是因为我们结合了前半句“我手机坏了”，才推段出来的。把这个例子抽象出来，所谓的序列数据，就是需要考虑到输入数据的顺序的数据，像本题的句子就是一个典型的时序数据（本例子的后半句中的苹果就是需要考虑前半句的手机），同样的还有股票预测，气温预测等时序数据。

● NLP是做什么的？
NLP是和CV并属深度学习两大领域。NLP针对的问题主要是语言模型、语音识别、机器翻译、自动问答/对话、情绪分析/文本分类/自然语言推理、信息检索、信息抽取、生成类任务、句法规则相关。reference

● RNN为什么更适合序列数据？
RNN是神经网路的一种，跟CNN、DNN（深度神经网络）、GNN、GAN并列的。RNN能够保留上下文信息进行信息传播，因此非常适合进行序列数据的学习，同时参数空间也更小。比如说下图中就是RNN在处理这个序列数据的时候，都是同一个参数矩阵，因此参数空间不会爆。如果用去取代的话，如果也想处理这个序列数据的话，就得完成下面的步骤：

找到特征的最大长度，然后把短的补到这个特征长度；
然后把合在一起形成（因为其实就是一个整体的输入数据，比如说是一句话的三个单词），然后输入到一个中；
这样处理之后，的参数规模就是采用RNN的参数的三倍了，随着序列数据的长度越长，这个倍数还会一直增加。

3、RNN

Video_Reference

3.1 RNN的应用举例

像下图所示，输入一个单词，计算得到这个词属于不同的slot的概率（slot就是类别，比如说有目的地、出发点等类别）。

针对同样的一个单词“Taipei”，如果前面一个单词是“arrive”，那“Taipei”被分类成目的地的可能性就更大，如果是“leave”，被分类成出发点的可能性就越大。

3.2 RNN结构图

RNN本身就只有下图左边那个一个模型，但是因为是要进行time steps个循环，所以把每个循环展开就成了右图这种非常容易理解的形式。

3.3 RNN中的time step理解

以输入数据为一个句子为例，如下图所示，每个单词的输入就是一个time step，比如说当“Taipei”为输入数据时，在进行前向传播的时候就会考虑到上一个time step输入的"arrive"的信息。

3.4 前向传播的formulation

其实前向传播就是计算两个值。
s t = ϕ ( U x t + W s t − 1 ) o t = f ( V s t ) \begin{aligned} s_{t} &=\phi\left(U x_{t}+W s_{t-1}\right) \\ o_{t} &=f\left(V s_{t}\right) \end{aligned} stot=ϕ(Uxt+Wst−1)=f(Vst)

3. 5 RNN的变体

● Elman Network & Jordan Network
区别就在与存的是输出还是隐藏层的状态。

● Deep RNN
下图就是深层的RNN，其实就是堆叠多几层。

● Bi-RNN
双向RNN，这样不仅能学到时刻的信息，还能学到的信息了。

● Naive RNN（最基本的RNN）
不管是下面的LSTM还是GRU都是针对下图的左边的那个图中的进行改进了而已。所以以后只要提到RNN，都可以先出画出个框架即可。

● LSTM
其实就是对naive rnn里边的按照下面的方式替换掉就行了。就加了三个门，门的作用跟门的名字是绑定在一起的。

● GRU
跟LSTM的类比

GRU里边的 h t − 1 h^{t-1} ht−1相当于LSTM里边的 c t − 1 c^{t-1} ct−1，都代表之前的记忆
GRU的update门相当于LSTM中的forget门
因为GRU里边针对隐藏层（历史信息）的输出的式子如下：
h t = z ⊙ h t − 1 + ( 1 − z ) ⊙ h ′ h^{t}=z \odot h^{t-1}+(1-z) \odot h^{\prime} ht=z⊙ht−1+(1−z)⊙h′

LSTM针对隐藏层（历史信息）的输出的式子如下：
c t = z f ⊙ c t − 1 + z i ⊙ z c^{t}=z^{f} \odot c^{t-1}+z^{i} \odot z ct=zf⊙ct−1+zi⊙z

明显对称，同时针对GRU为什么能使用（1-z）来代表类似输入门的效果，可以理解成，忘记越多的历史信息，就要输入越多改成的信息，因此用（1-z）去取代输入门逻辑上是近似相等的。

● GRU里边的reset门主要用于构建下式的 h ′ h' h′，类似与LSTM中的z
h t = z ⊙ h t − 1 + ( 1 − z ) ⊙ h ′ h^{t}=z \odot h^{t-1}+(1-z) \odot h^{\prime} ht=z⊙ht−1+(1−z)⊙h′

reset门参与运算的式子如下
h ′ = h t − 1 ⊙ r + x t × w h^{\prime}=h^{t-1} \odot r+x^{t} \times w h′=ht−1⊙r+xt×w

3.6 Sequence Generation

怎么利用RNN产生一个sequence？
● 产生一个句子
训练完一个RNN模型之后，给模型喂一个开始信号，然后句子就会逐渐产生一句话，直到产生一个句子，识别到EOS信号就停止产生。

● 训练RNN模型的具体流程
输入BOS之后得到第一个预测的word set里边的probility，然后标签是“春”，然后就是经典的交叉熵求这个loss，然后把正确答案“春”作为下个block的输入，然后把预测出来的word set的probility，同理继续求cross entropy，然后把“眠”作为第三个block的输入，继续下去。（至于为什么要用reference作为下一个block的输入而不用当前block的prediction作为输入，下面3.9会解释）

● Image -> Sequence
这里需要注意，像素间的sequence关系更多是4邻接或8邻接，而不是单纯的展开成一维的从头到尾的连接。

3.7 Condition Generation

像上述3.6中的产生句子的例子中，针对每一个block产生的预测结果是我们如果采用的是sample的方法的，这样产生的就是一个随机的句子，而我们更想得到的效果就是machine能够根据提供的一个condition产生一个sequence。

● Image Condition
根据输入的图片，产生一段描述图片的句子。把输入的图片采用CNN转成一个vector，然后把这个vector作为每个RNN block的输入之一，另外一个输入就是上一个block的预测结果。

● Sequence -to- sequence
以翻译一个句子为例，condition就是一个待翻译的句子。这种seq2seq模型最经典就是两个结构，encoder和decoder，两者都是RNN结构，encoder最后一个block的输出其实已经包含了整个句子的信息，然后作为decoder的输入vector给到每一个block。

3.8 Attention-based model （Dynamic Conditional Generation）

在3.7中我们都是把encoder部分的最后一个输出作为一个总的condition输入到decoder部分，这样做会loss掉很多局部信息，因此就有了升级版的能够把encoder局部信息作为decoder输入的动态调整的conditional generation方法。就像下图这个例子，把“机”和“器”合在一起作为decoder第一个block的输入，把“学”和“习”作为第二个block的输入，这样比将“机器学习”整一个句子作为每一个block的输入会取得更好的效果。所以这个方法又叫Attention-based model，通过引入注意力机制，从而做到“每次应该把那些字作为一个整体输入到decoder中”。

● attention的设计方式

1、首先我们给定一个初始的，然后通过一个match方法，把在encoder里边的每个block的输出，即下图中的每个做一次处理计算得到和的相似程度（比如说代表的是和的相似性），至于这个match方法应该是什么，slide也给出三个方法（下图右边）。
2、算出对每个的相似程度之后得到列表，然后把经过一个softmax之后得到，然后通过下面这个公式计算出，其实就是代表着decoder的上一个状态的历史信息，这个代表的意思就是我根据上一个状态的历史信息，然后根据和全局信息的相似度（就是注意力机制）找到的要重点学习的部分信息，从而作为decoder里边该层block里边输入的信息。
c 0 = α ^ 0 1 h 1 + α ^ 0 2 h 2 + α ^ 0 3 h 3 + α ^ 0 4 h 4 c^{0}=\widehat{\alpha}_{0}^{1} h^{1}+\widehat{\alpha}_{0}^{2} h^{2}+\widehat{\alpha}_{0}^{3} h^{3}+\widehat{\alpha}_{0}^{4} h^{4} c0=α 01h1+α 02h2+α 03h3+α 04h4

● Image Caption Generation
把这种注意力机制应用到图像上。首先就是把图片分割成几块，然后同样在decoder部分先算出每一块和历史信息的相似度，然后算出学习的部分。

3.9 Tips for Generation

● Mismatch between Train and Test

问题描述
在Trainning的时候，我们使用reference作为输入，而在testing的时候，我们是用上一个time stage的预测该block的输入。这样，在训练的是后，就算有一个block预测错了，那也不会影响下一个block的输入，但是testing的时候就会出现一步错，步步错的情况了。更形象一点就是下图的左边两幅树图，上面是trainning，下面是testing，在训练的时候，我们只走了一个分支，但是在testing中是很容易走入没训练过的分支的，那为什么trainning的时候不像testing那样直接用上一个blcok的预测作为输入呢？
trainning 保持用reference作为输入的原因
因为如果在trainning的时候用的是上一个block的预测作为输入的话，会很难train起来。以下图为例，如果一开始第一个block预测的是B（答案是A），第二个block以第一个block的预测（B）作为输入，然后输出A（答案是B）,这样再使用cross-entropy之后，训练了一阵子之后，第一个block的输出已经能输出正确答案A了，但是第二个block之前的训练过程都是基于上一个block传入的是B进行训练的，所以这段训练过程就作废了，现在得重新以上一个block传入的是A来开始训练，所以就会很难训练。那还不如就让每一个block的输入就是以答案为标准，这样起码不会浪费时间。
Scheduled Sampling
如果训练采用的是完全用reference作为blcok的input，这样testing就容易出现一步错步步错的情况，如果采用prediction作为blcok的input的话，就会浪费大量的时间，因此有个折中办法，就是在训练前期先用reference作为input，待训练较稳定之后，就用predicetion作为input。