1.论文出处

Dzmitry Bahdanau, KyungHyun Cho, Yoshua Bengio, “neural machine translation by jointly learning to align and translate”, 3rd International Conference on Learning Representations, ICLR 2015

下面说下为什么看这个论文吧，其实这个是看LAS的论文，感觉理解没那么透彻，所以才来看这个论文的，理论是一样的，但是这里写得比较通俗易懂。下面直接进入技术的介绍啦。

2.本文所提方法的背景

在语音识别 (speech recognition) 或基于神经网络的机器翻译 (neural machine translation) 领域，常用的是encoder-decoder系列方法，编码器encoder将源句子编码成一个固定长度的向量，解码器decoder用于将固定长度的向量翻译成所需向量。但是，模型在处理长句子时，性能不佳。所以，本文提出一种新的模型，这种模型可以搜索句子中与输出有关的部分，是encoder-decoder模型的一种扩展，能学习对齐和翻译 (learn to align and translate jointly)。

3.Encoder-Decoder基础知识介绍

在encoder-decoder框架中，将输入序列的特征 $x=(x_1,...,x_{T_x})$ 输入encoder模块，然后经过encoder模块的处理，输出上下文向量 $c$ 。最常用的方法是使用RNN网络，如下所示：
$ht=f(xt,ht−1)(1)h_t=f(x_t,h_{t-1}) \tag{1}$
$c=q(\{h_1,...,h_{T_x}\})$
其中， $ht∈Rnh_t \in R^n$ 是时间 $t$ 的隐藏状态 (hidden state)， $c$ 可由隐藏状态序列计算得到。这里， $f$ 和 $q$ 都是某些非线性函数。在很多文献中， $f$ 和 $q(\{h_1,...,h_T\})$ 都是用LSTM网络。
解码器decoder，主要是在已知上下文向量 $c$ 和前面预测的文字序列 ${y_1,...,y_{t'-1} \}$ 。也就是说，解码器的翻译功能就是定义了一个概率的计算方法，这个方法是将联合概率分解为条件概率，如下所示：
$p(y)=∏t=1Tp(yt∣{y1,...,yt−1,c)(2)p(y)=\prod_{t=1}^Tp(y_t|\{y_1,...,y_{t-1},c)\tag{2}$
在RNN网络中，每个条件概率可以表示为：
$p(yt∣{y1,...,yt−1},c)=g(yt−1,st,c)(3)p(y_t|\{y_1,...,y_{t-1}\},c)=g(y_{t-1},s_t,c)\tag{3}$
其中， $g$ 是非线性功能的函数，函数的输出是 $y_t$ ， $s_t$ 是RNN网络的隐藏状态。
对上述的结构作一个总结，就是将数据输入到编码器，编码器会输出上下文向量

4.本文所提方法

4.1 decoder: general description

在本文提出的模型中，(2)式的条件概率可以写成：
$p(yi∣y1,...,yi−1,x)=g(yi−1,si,ci)(4)p(y_i|y_1,...,y_{i-1},\bold x)=g(y_{i-1},s_i,c_i)\tag{4}$
$s_i$ 是时间 $i$ 里RNN的隐藏状态，可以有下式计算得到：
$s_i=f(s_{i-1},y_{i-1},c_i)$
在本式中，每个目标字符 $y_i$ ，其概率都是用上下文向量 $c_i$ 计算。
上下文向量 $c_i$ 根据编码器输出的标记 $h_1,...,h_{T_x})$ 来计算。每个 $h_i$ 表示整个句子中，第 $i$ 个单词中的重要程度。上下文向量 $c_i$ 可以看成是 $h_i$ 的权重之和，计算方法如下：
$ci=∑j=1Tx=αijhj(5)c_i=\sum ^{T_x}_{j=1}=\alpha_{ij}h_j \tag{5}$
$h_i$ 的权重参数 $αij\alpha_{ij}$ 计算方法如下：
$αij=exp(eij)∑k=1Txexp(eik)(6)\alpha_{ij}=\frac{{\rm{exp}}(e_{ij})}{\sum_{k=1}^{T_x}{\rm{exp}}(e_{ik})}\tag{6}$
其中 $e_{ij}=a(s_{i-1},h_j)$ 是对齐模型，其数值大小表示输入位置 $j$ 与输出位置 $i$ 之间的匹配程度。这个值的大小与RNN的隐藏状态 $s_{i-1}$ 和 $h_j$ 有关。
对齐模型 (alignment model) $a$ 可以看成是一个前向的神经网络，与系统的其他模块一起训练，但是我们没有认为对齐是隐藏变量 (latent variable)。对齐模型可以直接计算soft alignment，也就是说loss函数的梯度值可以后向传播，用于训练模型。
计算编码器的标记 $h$ 的权重和，当做是期望的标记 (虽然可能超过想要的对齐)。假设 $αij\alpha_{ij}$ 是输出目标字 $y_i$ 与输入字 $x_j$ 对齐的概率。然后，上下文向量 $c_i$ 表示其是期望标记 (expected annotation) 的概率是 $αij\alpha_{ij}$ 。
概率 $αij\alpha_{ij}$ 或能量 $e_{ij}$ 表示用 $s_{i-1}$ 计算 $s_i$ 和 $y_i$ 时， $h_j$ 的重要程序。直观理解，就是解码器的注意力机制。解码器觉得句子哪个部分要注意。因为解码器有注意力机制，所以编码器就不需要将整个句子编码成固定长度的向量。

4.2 Encoder: Bidirectional RNN for Annotation Aequences

如公式(1)中使用的RNN，将输入句子x按顺序读取，从 $x_1$ 到 $x_{x_T}$ 。但是，本文使用双向的RNN (BiRNN)。其主要包括前向和后向的RNN，前向RNN $f→\overrightarrow f$

按照从

x_1

到

x_{T_x}

的顺序读取输入序列，并计算隐藏状态(

h1→,...,htx→\overrightarrow {h_1},...,\overrightarrow{h_{t_x}}

)。反向RNN

f←\overleftarrow f

以相反的顺序读取输入序列，即从

x_{T_x}

到

x_1

，计算出反向隐藏状态序列(

h1←,...,hTx←\overleftarrow {h_1},...,\overleftarrow{h_{T_x}}

)。

每个字 $x_j$ 的标注可以通过连接前向隐藏状态 $hj→\overrightarrow{h_j}$

和反向隐藏状态

hj←\overleftarrow{h_j}

得到，可表示如下：

hj=[h→jT;h←jT]Th_j={[\overrightarrow h_j^T;\overleftarrow h_j^T]}^T

从上式可以看出，

h_j

包含前向和后向的字符，并且更关注字符

x_j

附近的字符。
下图是本文所提方法的框图。

5 模型的具体方法

5.1 架构选择

第4部分介绍的模型的架构，读者可以用符合条件的模型实现都可获得文中所述的结果。以下将具体介绍本文使用的具体模型，主要包括RNN和对齐模型 $a$ 。

5.1.1 RNN

RNN的激活函数为gated hidden unit，与LSTM类似。这使得它在展开RNN上获取计算路径。其导数的乘积接近1，所以易于反向传播。（当然，这里使用LSTM也有类似的结果）
RNN的 $s_i$ 可以用 $n$ 个gated hidden units来计算，具体如下：
$si=f(si−1,yi−1,ci)=(1−zi)∘si−1+zi∘s~is_i=f(s_{i-1},y_{i-1},c_i)=(1-z_i)\circ s_{i-1}+z_i\circ \widetilde s_i$

i
其中，

∘\circ

表示逐点相乘，

z_i

表示更新门update gates的输出。更新状态

s~i\widetilde s_i

的计算方法如下：

s~i=tanh(We(yi−1+U[ri∘si−1]+Cci))\widetilde s_i={\rm tanh}(W e(y_{i-1}+ U[r_i\circ s_{i-1}]+Cc_i))

其中，

e(yi−1)∈Rme(y_{i-1})\in \mathbb R^m

是字

y_{i-1}

的

m

维嵌入特征，

r_i

是重置门reset gates的输出。当

y_i

是

K

个向量中的一个，

e(y_i)

是嵌入矩阵

E∈Rm∗kE\in\mathbb R^{m*k}

中的一列，本文不考虑偏移bias的影响。
更新门

z_i

允许每个隐藏状态保持其原来的状态，重置门reset gates

r_i

控制以前的状态有多少信息和哪些信息需要重置。具体计算方法如下：

zi=δ(Wze(yi−1)+Uzsi−1+Czci)z_i=\delta(W_ze(y_{i-1})+U_zs_{i-1}+C_zc_i)

ri=δ(Wre(yi−1)+Ursi−1+Crci)r_i=\delta(W_re(y_{i-1})+U_rs_{i-1}+C_rc_i)

其中，

δ(.)\delta (.)

是逻辑sigmoid函数。

5.1.2 Alignment Model

alignment model设计时，需要考虑每对句子(长度为 $T_x$ 和 $T_y$ )，模型需要检测 $T_x*T_y$ 次。为了减少计算量，本文使用单层多层感知机，具体如下所示：
$a(si−1,hj)=vaTtanh(Wasi−1+Uahj)a(s_{i-1},h_j)=v_a^T{\rm tanh}(W_as_{i-1}+U_ah_j)$
其中， $Wa∈Rn∗n,Ua∈Rn∗2nW_a\in\mathbb R^{n*n},U_a\in\mathbb R^{n*2n}$ 为权重矩阵。因为 $U_ah_j$ 不依赖 $i$ ，所有本文提前计算好，这样可以减小计算量。

5.2 模型具体细节介绍

5.2.1 编码器

以下的讨论，不考虑偏置项的影响。模型的输入是K分之一的编码字向量，如下所示：
$x=x1,...,xTx,xi∈RKx{\rm x}=x_1,...,x_{T_x}, x_i\in\mathbb R^{K_x}$
输出是一个包含K分之一编码字向量的句子，如下所示：
$y=(y1,...,yTy),yi∈RKy{\rm y}=(y_1,...,y_{T_y}), y_i \in \mathbb R^{K_y}$
其中， $K_x$ 和 $K_y$ 分别是原序列和目标序列的大小。 $T_x$ 和 $T_y$ 表示原序列和目标序列的句子长度。
首先，前向BiLSTM的前向状态计算方法如下：
$h→i={(1−z→i)∘h→i−1+z→i∘hi,ifi>00,ifi=0\overrightarrow h_i =\left \{ \begin{aligned} (1-\overrightarrow z_i)\circ\overrightarrow h_{i-1}+\overrightarrow z_i \circ h_i, {\rm if} i>0 \\ 0, {\rm if} i=0 \end{aligned} \right.$

i=⎩⎨⎧(1−z

i)∘h

i−1+z

i∘hi,ifi>00,ifi=0
其中

h→i=tanh(W→E‾xi+U→[r→i∘h→i−1])\overrightarrow h_i={\rm tanh}(\overrightarrow W \overline E x_i+\overrightarrow U[\overrightarrow r_i \circ \overrightarrow h_{i-1}])

z→i=δ(W→zE‾xi+U→zh→i−1)\overrightarrow z_i=\delta(\overrightarrow W_z \overline E x_i+\overrightarrow U_z \overrightarrow h_{i-1})

r→i=δ(W→rE‾xi+U→rh→i−1)\overrightarrow r_i=\delta(\overrightarrow W_r \overline E x_i+\overrightarrow U_r \overrightarrow h_{i-1})

其中，

E‾∈Rm∗Kx\overline E\in\mathbb R^{m*K_x}

是字嵌入矩阵。

W→,W→z,W→r∈Rn∗m\overrightarrow W, \overrightarrow W_z,\overrightarrow W_r\in\mathbb R^{n*m}

和

U→,U→z,U→r∈Rn∗n\overrightarrow U,\overrightarrow U_z,\overrightarrow U_r\in\mathbb R^{n*n}

都是权重矩阵。

m

和

n

分别是字的嵌入维度和隐藏单元的数量。

δ(.)\delta(.)

是逻辑sigmoid函数。
后向状态

(h←1,...,h←Tx)(\overleftarrow h_1,...,\overleftarrow h_{T_x})

的计算方法类似。在前向RNN和后向RNN中，网络共享字嵌入矩阵word embedding matrix：

E‾\overline E

，但是权重矩阵不共享。
本文将前向和后行的标记连接起来，得到

h_1,h_2,..,h_{T_X})

，如下所示：

hi=[h→ih←i](7)h_i=\left[ \begin{aligned} \overrightarrow h_i \\ \overleftarrow h_i \end{aligned} \right] \tag{7}

5.2.2 解码器

已知编码器标记annotation，解码器的隐藏状态 $s_i$ 计算方法如下：
$si=(1−zi)∘si−1+zi∘s~is_i=(1-z_i)\circ s_{i-1}+z_i\circ \tilde s_i$
其中
$s~i=tanh(WEyi−1+U[ri∘si−1]+Cci)\tilde s_i={\rm tanh}(WEy_{i-1}+U[r_i\circ s_{i-1}]+Cc_i)$
$zi=δ(WzEyi−1+Uzsi−1+Czci)z_i=\delta(W_zEy_{i-1}+U_zs_{i-1}+C_zc_i)$
$ri=δ(WrEyi−1+Ursi−1+Crci)r_i=\delta(W_rEy_{i-1}+U_rs_{i-1}+C_rc_i)$
其中， $E$ 是目标语言的字嵌入矩阵， $W,Wz,Wr∈Rn∗mW,W_z,W_r\in\mathbb R^{n*m}$ ， $U,Uz,Ur∈Rn∗nU,U_z,U_r\in \mathbb R^{n*n}$ 和 $C,Cz,Cr∈Rn∗2nC,C_z,C_r\in\mathbb R^{n*2n}$ 都是权重。 $m$ 和 $n$ 分别是字嵌入的维度和隐藏层的数量。初始的隐藏状态 $s_0$ 计算方法如下：
$s0=tanh(Wsh←1),Ws∈Rn∗ns_0={\rm tanh}(W_s\overleftarrow h_1), W_s\in \mathbb R^{n*n}$

1),Ws∈Rn∗n
上下文向量

c_i

可以通过对齐模型来计算，具体方法如下所示：

ci=∑j=1Txαijhjc_i=\sum_{j=1}^{T_x}\alpha_{ij}h_j

其中

αij=exp(eij)∑k=1Txexp(eik)\alpha_{ij}=\frac{{\rm exp}(e_{ij})}{\sum_{k=1}^{T_x}{\rm exp}(e_{ik})}

eij=vaTtanh(Wasi−1+Uahj)e_{ij}=v^T_a{\rm tanh}(W_as_{i-1}+U_ah_j)

其中，

h_j

是原序列的第

j

个标记。

va∈Rn′,Wa∈Rn′∗nv_a\in\mathbb R^{n'},W_a\in\mathbb R^{n'*n}

和

Ua∈Rn′∗2nU_a\in\mathbb R^{n'*2n}

都是权重矩阵。如果将

c_i

固定到

h→Tx\overrightarrow h_{T_x}

时，模型则变成RNN Encoder-Decoder。
一直解码器状态

s_{i-1}

，上下文向量

c_i

和最后一个字

y_i

时，目标字的概率可以定义如下：

p(yi∣si,yi−1,ci)∝exp(yiTWoti)p(y_i|s_i,y_{i-1},c_i)\propto {\rm exp}(y^T_iW_ot_i)

其中

ti=[max{t~i,2j−1,t~i,2j}]j=1,...,lTt_i={[max\{\tilde t_{i,2j-1},\tilde t_{i,2j} \}]}^T_{j=1,...,l}

t~i,k\tilde t_{i,k}

是向量

t~i\tilde t_i

的第

k

个元素，计算方法如下：

t~i=U0si−1+VoEyi−1+Coci\tilde t_i=U_0s_{i-1}+V_oEy_{i-1}+C_oc_i

Wo∈RKy∗l,Uo∈R2l∗n,Vo∈R2l∗mW_o\in\mathbb R^{K_y*l},U_o\in\mathbb R^{2l*n},V_o\in\mathbb R^{2l*m}

和

Co∈R2l∗2nC_o\in\mathbb R^{2l*2n}