论文学习笔记

Learning phrase representations using rnn encoder-decoder for statistical machine translation

一.RNN Encoder-Decoder

1.优：

（1）能更好的捕捉短语的语义规律
（2）学习的是短语的连续空间表示，保留了短语的语义和句法结构。

2.RNN

h<t>=f(h<t−1>,xt)h_{<t>}=f(h_{<t-1>},x_t)h<t>=f(h<t−1>,xt)
用到前一神经元的信息。
fff：非线性激活函数
RNN特点：用到序列信息，在预测时，序列信息很重要

3.Decoder

h<t>=f(h<t−1>,y<t−1>,c)h_{<t>}=f(h_{<t-1>},y_{<t-1>},c)h<t>=f(h<t−1>,y<t−1>,c)
下一个symbol的概率：
P(yt∣yt−1,yt−2,...,y1,c)=g(h<t>,yt−1,c)P(y_t|y_{t-1},y_{t-2},...,y_1,c)=g(h_{<t>},y_{t-1},c)P(yt∣yt−1,yt−2,...,y1,c)=g(h<t>,yt−1,c)

4.模型可用于：

（1）给定源语言句子，生成目标语言句子。
（2）对输入输出序列对进行评分。

5.提出模型的原因（解决了哪些之前的模型存在的问题）

（1）FNN模型限定了输入和输出的长度。
（2）RecurNN模型限定在单语环境中。
（3）之前有提出的RNN模型中的解码器必须以源句或源上下文的表示为条件。

6.Hidden Unit

简化版本的LSTM单元，有更新门（update gate）和重置门（reset gate）。
更新门决定是否由新状态更新旧状态。
重置门决定是否忽略前一细胞状态信息（与未来无关的信息）。

7.Details

（1）语料库：Europarl、news commentary、UN和两个自己爬的语料库。
数据集：选取语料库中与给定任务最相关的子集。
（2）1000层隐藏层，激活函数选用双曲正切函数tanhtanhtanh。
（3）隐藏层中的计算采用深度神经网络实现。

拓展：激活函数

（1）若没有激活函数，则输出永远是输入的线性函数，网络的逼近能力有限。

（2）常用激活函数
sigmoidsigmoidsigmoid函数
f(z)=11+e−zf(z)=\frac{1}{1+e^{-z}}f(z)=1+e−z1
特性：能将连续的输入转换为0-1之间的值。
缺点：容易导致梯度消失；非0均值；有幂运算，耗时。

tanhtanhtanh函数
tanh(x)=ex−e−xex+e−xtanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}tanh(x)=ex+e−xex−e−x
是0均值。值域为【-1,1】。

ReluReluRelu函数
Relu=max(0,x)Relu=max(0,x)Relu=max(0,x)
即取最大值函数，没有梯度消失的问题。

LeaklyReluLeakly ReluLeaklyRelu函数
f(x)=max(αx,x)f(x)=max({\alpha}x,x)f(x)=max(αx,x)

EluEluElu
f(x)={α(ex−1)otherwisexifx>0f(x)=\{^{{x}{{\qquad}if x>0}}_{{\alpha}(e^x-1){\qquad}otherwise}f(x)={α(ex−1)otherwisexifx>0

MaxoutMaxoutMaxout函数（？）
是深度学习中的一层网络，激活函数层。

拓展：LSTM（Long Short-term Memory/长短期记忆）

原理：

门：输入门、遗忘门、输出门

δ\deltaδ：SigmoidSigmoidSigmoid函数，值域为【0,1】，用于决定遗忘多少信息，0：全部遗忘，1：全部记住。
hth_tht：细胞的输出
xtx_txt：当前输入
CtC_tCt：细胞状态
WWW：学习到的权值矩阵

第一步：决定从细胞状态忘记什么信息：
ft=δ(Wf[ht−1,xt]+bf)f_t=\delta(W_f[h_{t-1},x_t]+b_f)ft=δ(Wf[ht−1,xt]+bf)
第二步：决定让多少新的信息加入细胞状态中：
it=δ(Wi[ht−1,xt]+bi)i_t=\delta(W_i[h_{t-1},x_t]+b_i)it=δ(Wi[ht−1,xt]+bi)
tanhtanhtanh用来生成一个向量，即备选的用来更新的内容：
Ct~=tanh(Wc[ht−1,xt]+bC)\widetilde{C_t}=tanh(W_c[h_{t-1},x_t]+b_C)Ct=tanh(Wc[ht−1,xt]+bC)
第三步：更新细胞状态
Ct=ft∗Ct−1+it∗Ct~C_t=f_t*C_{t-1}+i_t*\widetilde{C_t}Ct=ft∗Ct−1+it∗Ct
第四步：确定输出（过滤后版本）
ot=δ(Wo[ht−1,xt]+bo)o_t=\delta(W_o[h_{t-1},x_t]+b_o)ot=δ(Wo[ht−1,xt]+bo)
ht=ot∗tanh(Ct)h_t=o_t*tanh(C_t)ht=ot∗tanh(Ct)

拓展：BLEU

BLEU：bilingual evaluation understudy，即：双语互译质量评估辅助工具。
思想：一句话的机器翻译与人工翻译越接近，则越好。通常将一个机器翻译结果与多个参考翻译结果比较，取综合分数。

拓展：词袋模型

将所有词语装进一个袋子里，不考虑其词法和语序的问题，即每个词语都是独立的。
一般装词的索引。