google 出品, 基于 encoder-decoder 架构的 seq2seq 自然语言翻译模型. paper 见参考[1].
创新之处是弃用 RNN,CNN 这样的结构, 采用 self-attention 与 positional-encoding 来简化结构, 加速训练, 并提升效果, 取得了 SOTA 成绩.

BLEU 评测指标

BLEU, BiLingual Evaluation Understudy , (译作双向语言评估替工) , 一种自动评测机器翻译的方法.
翻译讲究信达雅, 算是主观题. 之所以采用BLEU评估有两点考虑.

人力评估成本大.
便于多个翻译模型之间做对比.

$BLEU∈(0,1)BLEU\in (0,1)$ , 越大表示翻译越精准. 基本思想是预测结果的 n-gram 与测试数据的 n-gram 作对比, $n∈{1,2,3}n\in \{1,2,3\}$ . 看命中效果.

网络结构

self-attention

source 与 target 是两个sequence, self-attention 是指对同一sequence内, 各个token间的关联做计算.
论文中把提出的attention 叫 Scaled Dot-Product Attention.
引入三个共享参数矩阵, Query,Key,Value, 对 embedding 后的token做表达的学习.
所谓attention, 就是这么一个映射关系, $output=f(query, \{key\_value\} )$ .
$Attention(Q,K,V)=softmax(QKTdk)V(1)Attention(Q,K,V)=softmax(\frac{QK^T}{\sqrt{d_k}})V \tag 1$

QKT)V(1)

图2.

output=f(query, \{key\_value\} )

的直观图示

MultiHead(Q,K,V)=Concat(head_1,...,head_h)W^O

where

head_i=Attention(QW_i^Q,KW_i^K,VW_i^V)

WO∈Rhdv×dmodelW^O\in \mathbb R^{hd_v\times d_{model}}

vanilla attention

除了 source_seq 与 target_seq 各自的 self_attrntion 之外, 还有二者之间的 vanilla_attention. 对应图1 transformer 架构图中, decoder内的第二个 sub-layer. 此时有 vanilla_attention(decoder_Q,encoder_memory_K, encoder_memory_V).

Positional Encoding

将token所在seq的位置信息加以编码表示. 可以是 {sin/cos三角函数, embedding中学习} 两种方案, ablation study 显示差异不大.

mask

future mask
decoder中有个特别点就是masking, masking 的作用就是防止在训练的时候使用未来时刻才输出的单词。比如训练时，第一个单词是不能参考第二个单词的生成结果的(但可以参考自己)。Masking就会把这个信息变成0，用来保证预测位置 i 的信息只能基于比 i 小的输出。
下面章节的tf实现部分, 会有下三角矩阵的api说明.

feed-forward

是图片中 feed-forward 的超集, 也包含了 add&norm.
其中 add 残差的操作与时机可以参考

# feed-forward, add & normdef call(self, inputs, **kwargs):# Inner layer, ReLUoutputs = Dense(self.num_units[0], activation=tf.nn.leaky_relu)(inputs)# Outer layer, linearoutputs = Dense(self.num_units[1])(outputs)# Residual connectionoutputs += inputs# Normalizeoutputs = utils.modules.layer_norm(outputs)return outputs

train/predict 不同的 inference

train 阶段, 直接输出整体的 logits #shape=(N, T2, vocab_size) , 与y_ = label_smoothing(tf.one_hot(y, depth=self.hp.vocab_size)) # (N, T2, vocab_size) 计算交叉熵.

在预测阶段, predicts y_hat auto-regressively. 即根据句子Source的中间语义表示C和之前已经生成的历史信息.
$y_i=g(C,y_1,y2_,...,y_{i−1})$
where $C$ 为 source sentence 的语义编码.

tf 实现

官方基于tf, 又搞了 tensor2tensor 库, 内含transformer的实现. github 有人基于tf给出了实现, 见参考 [3].

数据集
Germany_2_English 翻译任务. 为了单机体验完整流程, 控制数据量. 训练集有 19万样本, 验证集有 993 条样本. 英德的word加起来构成了 size=8000 的 vocabulary.
超参
$vocab\_size$ =32000, $d\_model$ =512, $max\_len\_source=100$ , $max\_len\_target=100$ .

input/output

     xs: tuple ofx: int32 tensor. (N, T1) . T1为当前batch样本的最长原文长度.x_seqlens: int32 tensor. (N,)sents1: str tensor. (N,)ys: tuple ofdecoder_input: int32 tensor. (N, T2). T2为当前batch样本的最长译文长度.y: int32 tensor. (N, T2)y_seqlen: int32 tensor. (N, )sents2: str tensor. (N,)

主干逻辑

def train(self, xs, ys):'''Returnsloss: scalar.train_op: training operationglobal_step: scalar.summaries: training summary node'''# forwardmemory, sents1 = self.encode(xs)logits, preds, y, sents2 = self.decode(ys, memory)# train schemey_ = label_smoothing(tf.one_hot(y, depth=self.hp.vocab_size))ce = tf.nn.softmax_cross_entropy_with_logits_v2(logits=logits, labels=y_)nonpadding = tf.to_float(tf.not_equal(y, self.token2idx["<pad>"]))  # 0: <pad>loss = tf.reduce_sum(ce * nonpadding) / (tf.reduce_sum(nonpadding) + 1e-7)

future mask

diag_vals = tf.ones_like(inputs[0, :, :])  # (T_q, T_k)
# 详见, https://www.tensorflow.org/api_docs/python/tf/linalg/LinearOperatorLowerTriangular?version=stable, 对角线的元素被保留, 不置0.
# 但<=1.4 版本的tf, 是没有这个api的.  可以用 tf.matrix_band_part(input, -1, 0) 替代
tril = tf.linalg.LinearOperatorLowerTriangular(diag_vals).to_dense()  # (T_q, T_k)
masks = tf.tile(tf.expand_dims(tril, 0), [tf.shape(inputs)[0], 1, 1])  # (N, T_q, T_k)paddings = tf.ones_like(masks) * padding_num
outputs = tf.where(tf.equal(masks, 0), paddings, inputs)

bert

基于双向transformer的预训练语言表达模型.

参考

1.transformer paper, Attention Is All You Need
2. blog, 机器翻译评价指标之BLEU详细计算过程
3. github 非官方实现, transformer
4. blog, 从Encoder-Decoder(Seq2Seq)理解Attention的本质
5. github, bert-use-demo
6. blog, Seq2Seq中的Attention和self-attention
7. my blog, residual connection, 残差链接

transformer 翻译模型相关推荐

基于Pytorch的Transformer翻译模型前期数据处理方法
基于Pytorch的Transformer翻译模型前期数据处理方法 Google于2017年6月在arxiv上发布了一篇非常经典的文章:Attention is all you need,提出了解决s ...
Transformer翻译模型Decoder详解（Masking）
写这个博客的原因在于:大部分解释Transformer的文章都只注重讲解Encoder部分,在Encoder中又侧重讲解self-attention原理.为了读者更好地理解整个Transformer的 ...
基于Transformer的翻译模型（英-＞中）
基于Transformer的翻译模型(英->中) Transformer结构数据格式模型结构 Embedding 位置编码 1.固定编码. 2.动态训练. Position Encoding ...
对比学习还能这样用：字节推出真正的多到多翻译模型mRASP2
AI科技评论报道作者 | 潘小小编辑 | 陈大鑫大家都知道目前研究界主流的多语言翻译模型主要在英语相关的语对上进行训练.这样的系统通常在英语相关的语向(有监督语向)上表现不错,而在非英语方向(零 ...
对比学习还能这样用：字节推出真正的多到多翻译模型mRASP2
作者 | 潘小小编辑 | 陈大鑫大家都知道目前研究界主流的多语言翻译模型主要在英语相关的语对上进行训练.这样的系统通常在英语相关的语向(有监督语向)上表现不错,而在非英语方向(零资源方向)的翻译效 ...
Facebook开源了两个无监督翻译模型，只用单语就能训练双语
翻栗子发自凹非寺量子位出品 | 公众号 QbitAI 昨天,Yann LeCun大神发推宣布,Facebook的两个无监督翻译模型,开源了. 所谓无监督,便是不需要双语对照文本,只用单语 ...
Transformer T5 模型慢慢读
Transformer T5 模型慢慢读(我也省略了很多细节,只是大体的阐述,具体,大家可以参看论文.....) 代码地址:https://github.com/google-research/tex ...
抱抱脸（hugging face）教程-中文翻译-模型概要
模型概要这是一个总结的模型可在Transformers.假设您熟悉最初的Transformers模型.或者温柔的介绍,看看有注释的Transformers.在我们关注模特之间的高度差异之前.你可以在 ...
TransRepair：自动测试及修复神经网络翻译模型的不一致性问题
⬆⬆⬆ 点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入! 机器翻译是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值.同时,机器翻译又具有 ...
Transformer——注意力模型分析及应用
一.概要特点:Transformer注意力模型解决了RNN中的attention效率低.训练时变形的问题. 目的:机器翻译二.基本组成 encoder和decoder是可叠加的. 解码器拿到编码器 ...

transformer 翻译模型