【机器学习】Attention机制的一些整理与理解

写在前面

由于最近需要用到Attention机制，看了一些相关的论文以及介绍等，所以打算将其整理一下。关于Attention机制的一些背景知识就不做过多介绍了，做NLP研究的同学一般对其不会陌生。不熟悉的可以看Google的文章 Attention is all you need。Attention机制目前已经成为各种任务，如序列建模或者转换模型的重要组成部分，它可以允许建立依赖关系而不需考虑输入或者输出序列中的距离。

Sequence2Sequence的实例

下面的图和视频来自：https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/真的是一个很生动形象的讲解blog。
在一个常见的sequence2sequence模型中，其模型部分常由一个encoder和一个decoder组成。encoder用于处理输入序列，并将其转换为向量，这个向量称为context。之后context被输入decoder，decoder逐项生成输出序列。在NLP中，为了捕获序列中的信息，encoder和decoder都常用RNN来进行实现。

在RNN中，每个time step都需要有两个输入，一个是输入序列中的一个word，另一个是hidden state。在每次输入新的word时，它都需要被表示为一个向量。将word转换为向量通常会用到一系列的word embedding（词嵌入）算法，这类算法可以将words转换到向量空间中，以便于计算，同时也可以捕获每个word的含义信息。一般来说，在用到word embedding时，要么需要用到相关领域别人训练好的word embeddings，要么需要自己用本地的数据来训练。下图展示了一个word embedding的实例。

还是结合RNN的例子，下一个time step，RNN输入第二个输入向量和hidden state来创建当前时刻的输出，以此往后推。由于encoder和decoder都是由RNN实现，所以它们是进行同样的处理过程。需要注意的是，encoder最后一次的hidden state实际上就是传入decoder的context。整个过程可以看一下下面的gif，原视频可以在上面的blog链接中找到：

引入Attention机制

这种从输入序列的相关部分放大信号的能力使得注意力模型比没有注意力的模型产生更好的结果。
当面临长序列时，处理一些context中的依赖关系就会陷入瓶颈。一种解决方法就是通过引入Attention机制，其中，Attention机制可以允许模型聚焦关注输入序列中所需要的部分。 引入了Attention机制后的模型，它可以将输入序列中相关部分的作用进行放大，以实现比没有Attention的模型更好的效果。

与前面的例子进行对比，引入了Attention机制之后，主要有两点不同：
一是encoder传入了所有的hidden state给decoder，而不是只有之前的最后时刻的hidden state。如下面的gif所示。
二是引入Attention机制之后，为了聚焦输入序列中的关联部分，decoder在产生输出之前，做了一些额外的工作：
1、接收所有通过encoder得到的hidden states。
2、给每个来自encoder的hidden state一个score，并将每个hidden state的score进行softmax操作。
3、每个hidden state乘以它对应的softmaxed score，以此来放大高score的hidden state，缩小低score的hidden state，最后将加权的hidden state相加作为decoder的输入context向量，整个过程如下图所示：

从上面的过程中可以看到，最为关键的步骤就是对hidden states进行score，下面来介绍score的步骤：
1、引入了Attention机制的decoder先接收结束符，以及一个初始化的hidden state。然后decoder会产生一个新的hidden state以及一个output（被丢弃）。
2、Attention Step：通过encoder得到的hidden states和decoder产生的hidden state计算一个context向量。
3、通过decoder得到的hidden state和context被concatenate 为一个向量。
4、将concatenate后的向量通过一个前馈神经网络（同模型一起训练得到），前馈神经网络的输出作为这个time step输出的word。
5、对下一time step重复这个过程。

过程如下图所示：

REF

https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/