Transformer介绍

原论文链接：https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf

首先介绍一下Encoder-Decoder

所谓encoder-decoder模型，又叫做编码-解码模型。这是一种应用于seq2seq问题的模型。

那么seq2seq又是什么呢？简单的说，就是根据一个输入序列x，来生成另一个输出序列y。seq2seq有很多的应用，例如翻译，文档摘取，问答系统等等。在翻译中，输入序列是待翻译的文本，输出序列是翻译后的文本；在问答系统中，输入序列是提出的问题，而输出序列是答案。

为了解决seq2seq问题，有人提出了encoder-decoder模型，也就是编码-解码模型。所谓编码，就是将输入序列转化成一个固定长度的向量；解码，就是将之前生成的固定向量再转化成输出序列。

当然了，这个只是大概的思想，具体实现的时候，编码器和解码器都不是固定的,可选的有CNN/RNN/BiRNN/GRU/LSTM等等，你可以自由组合。比如说，你在编码时使用BiRNN,解码时使用RNN，或者在编码时使用RNN,解码时使用LSTM等等。

这边为了方便阐述，选取了编码和解码都是RNN的组合。在RNN中，当前时刻隐藏层状态 hth_{t}ht 是由上一时刻的隐藏层状态 ht−1h_{t-1}ht−1 和当前时刻的输入 xtx_{t}xt 决定的, 如下公式所示。

ht=f(ht−1,xt)h_{t}=f\left(h_{t-1}, x_{t}\right)ht=f(ht−1,xt)

在编码阶段，获得了各个时刻的隐藏层状态后，我们把这些隐藏层的状态进行汇总，生成最后的语义编码向量C，如下公式所示, 其中q表示某种非线性神经网络，在这里表示多层RNN。

C=q(h1,h2,h3,…,hTx)C=q\left(h_{1}, h_{2}, h_{3}, \ldots, h_{T_{x}}\right)C=q(h1,h2,h3,…,hTx)

一种简单的方法是将最后的隐藏层状态作为语义编码向量C, 即公式所示。

C=q(h1,h2,h3,…,hTx)=hTxC=q\left(h_{1}, h_{2}, h_{3}, \ldots, h_{T_{x}}\right)=h_{T_{x}}C=q(h1,h2,h3,…,hTx)=hTx

在解码阶段, 我们要根据给定的语义向量C和之前已经生成的输出序列 y1,y2,y3,…,yt−1y_{1}, y_{2}, y_{3}, \ldots, y_{t-1}y1,y2,y3,…,yt−1 来预测下一个输出的单词 yty_{t}yt,即公式所示。

yt=argmax⁡P(yt)=∏t=1Tp(yt∣y1,y2,…,yt−1,C)y_{t}=\operatorname{argmax} P\left(y_{t}\right)=\prod_{t=1}^{T} p\left(y_{t} \mid y_{1}, y_{2}, \ldots, y_{t-1}, C\right)yt=argmaxP(yt)=∏t=1Tp(yt∣y1,y2,…,yt−1,C)（1）

公式 (1) 可以简写成公式（2）。

yt=g(y1,y2,…,yt−1,C)(2)y_{t}=g\left(y_{1}, y_{2}, \ldots, y_{t-1}, C\right)(2) yt=g(y1,y2,…,yt−1,C)(2)

而在RNN中，公式 (2) 可以表示为公式 (3) 。

yt=g(yt−1,st−1,C)(3)y_{t}=g\left(y_{t-1}, s_{t-1}, C\right)(3)yt=g(yt−1,st−1,C)(3)

公式 (3) 中, st−1\quad s_{t-1}st−1 表示Decoder中RNN神经元的隐藏层状态, yt−1\quad y_{t-1}yt−1 表示前一时刻的输出, C 代表的是语义向量。而g则是一个非线性的多层神经网络, 可以输出 yty_{t}yt 的概率。g一般情况下是多层RNN后接softmax层。

encoder-decoder模型虽然非常经典，但是局限性也非常大。最大的局限性就在于编码和解码之间的唯一联系就是一个固定长度的语义向量C。也就是说，编码器要将整个序列的信息压缩进一个固定长度的向量中去。但是这样做有两个弊端，一是语义向量无法完全表示整个序列的信息，还有就是先输入的内容携带的信息会被后输入的信息稀释掉，或者说，被覆盖了。输入序列越长，这个现象就越严重。这就使得在解码的时候一开始就没有获得输入序列足够的信息，那么解码的准确度自然也就要打个折扣了

剩下介绍直接看这篇博客就好，有些疑问在评论区将的很清楚

详解Transformer （Attention Is All You Need）
作者：大师兄