Attention Focusing for Neural Machine Translation by Bridging Source and Target Embeddings 论文总结

该文是阅读Attention Focusing for Neural Machine Translation by Bridging Source and Target Embeddings 论文总结的笔记,用来记录自己的理解和思考,一来记录自己的学习历程,二来期待和大家讨论研究,共同进步。


文章目录

  • Attention Focusing for Neural Machine Translation by Bridging Source and Target Embeddings 论文总结
    • 1. 概述
    • 2. 模型结构
      • 2.1 来源侧桥模型
      • 2.2 目标侧桥模型
      • 2.3 直接桥模型
    • 3. 实验训练
    • 4. 总结

1. 概述

这篇论文想在程序上缩短源单词到目标单词的距离,从而加强他们的联系,方法就是在来源词嵌入和目标词向量之间建立桥梁。有三种策略:
1)来源一侧的桥模型,把来源词向量向输出序列靠近一步,每条来源词向量和各自的源隐藏状态在同一位置连接起来,这样注意力模型就可以从源词向量产生单词对齐这一方面得到提升;
2)目标一侧的桥模型,为目标序列的预测搜索更相关的来源词向量,为了把相关的源词向量和下一个目标隐藏状态连接的更紧密。特别的是,最合适的源单词是根据他们的注意力权重选择出来的,并且他们是用来与目标隐藏状态连接的更紧密的;
3)一个 直接的桥模型,直接连接来源和目的的词向量,从而最小化其他方面的翻译错误,训练对象是通过最小化目的单词向量和根据注意力模型选出的最相关的源词向量之间的距离来进行优化的。
实验分析证明该模型能够显著改善句子的翻译质量,对齐,尤其是带有目标单词的源单词效果更好。

2. 模型结构

如图1所示的seq2seq的NMT模型,可能存在很多方法来连接x和yt,这里介绍接下来的三种桥模型。

插入图1

2.1 来源侧桥模型

图3展示了来源测桥模型结构。编码器读入一个配置好词向量的单词序列在每个位置上生成了单词解释向量。然后简单地把词解释向量和它对应的词嵌入连接起来作为最终的解释向量。这样的话,词嵌入不止对注意力权重的计算有更强的贡献,还成为了解释向量的一部分,形成了加权的来源上下文向量,最终对目标单词的预测有了更强的影响。

2.2 目标侧桥模型

上述来源测桥模型为每个目标单词使用所有单词的嵌入,而在目标侧桥模型中只是搜索更相关的源词嵌入来建立连接。这是受到了SMT中的词对齐的部分启发,两端的单词因为他们互相是最可能的翻译对等体而结对,这些对是明确地记录下来,并且会进入系统内部的运作。尤其是,一个给定的目标单词,明确地决定最可能与之对齐的来源单词,并用这个源单词的词嵌入来支持将要形成的下一个目标单词的目标隐藏状态的预测。
图4展示了目标侧桥模型方法。

2.3 直接桥模型

比上述的两个桥模型更进一步,用来源的词嵌入来预测目标单词,这里用一个更直接的方法来连接两端的词嵌入。这是通过一个辅助的目标函数来缩小两端词嵌入的差别。
图4展示了带有辅助目标函数的直接桥模型。

更特殊的是,目的是为了让两端已经学习过的词嵌入变得可转化,比如,如果一个目标单词ei和一个来源单词fj对齐,就需要学习一个转换矩阵W,希望xi和yj在W中的差别趋向于0。因此,我们更新这个目标函数,用接下来延伸出的公式来训练出一个单句:

注意
1)直接桥模型是来源侧桥模型的拓展,源词嵌入是编码器的最终解释向量的一部分。这里也尝试了把辅助目标函数直接放在NMT的基本模型上。然而,经验研究表明结合的目标降低了翻译质量。可能的原因是在基本模型中学习好的两端的词嵌入太复杂,以至于无法约束。
2)上述公式中不使用具体的来源此前如xt,也可以使用来源词嵌入的加权求和。然而,初步实验显示这两种方法的效果差别非常小。因此,所有实验中这个公式都是使用xt。

3. 实验训练

这里实现了上述三个不同的方法来链接来源和目标词嵌入,这里使用中英翻译来进行实验,以获取桥方法的影响力。实验结果如下图:
![图片来自原论文]](https://img-blog.csdn.net/2018101308514015?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0Rvcm9uMTU=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)

4. 总结

这篇论文提出了三个模型来连接NMT的来源端和目标端的词嵌入。它们都是为了沿着编码解码神经网络的延伸的信息过程来缩小二者的距离。
在中英翻译的实验中展示了提出的模型可以明显提升翻译质量,进一步分析可得这些模型可以:
1)比NMT基本模型学习到更好的词对齐;
2)缓解NMT中臭名昭著的过翻译和欠翻译的问题;
3)学习到来源词和目标词直接的映射。
未来会探索更深入的策略来链接依赖seq2seq和tree-basedNMT的来源侧和目标侧。另外还会把这些方法应用到其他seq2seq任务,包括自然语言会话。

Attention Focusing for Neural Machine Translation by Bridging Source and Target Embeddings 论文总结相关推荐

  1. [文献阅读]—Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation

    前言 论文地址:https://arxiv.org/pdf/1611.04558v1.pdf 代码地址:无233 前人工作&存在问题 前人实现multilingual NMT的方法: 为每一个 ...

  2. [持续更新] 神经机器翻译论文汇总 Papers on Neural Machine Translation

    [持续更新] 神经机器翻译论文汇总 Papers on Neural Machine Translation 源文地址 :http://polarlion.github.io/nmt/2017/02/ ...

  3. Bridging the Gap between Training and Inference for Neural Machine Translation翻译

    Bridging the Gap between Training and Inference for Neural Machine Translation 翻译 原文链接:https://arxiv ...

  4. 基于PyTorch实现Seq2Seq + Attention的英汉Neural Machine Translation

    NMT(Neural Machine Translation)基于神经网络的机器翻译模型效果越来越好,还记得大学时代Google翻译效果还是差强人意,近些年来使用NMT后已基本能满足非特殊需求了.目前 ...

  5. 【Paper】Effective Approaches to Attention-based Neural Machine Translation

    论文原文:PDF 论文年份:2015 论文被引:4675(2020/11/08) 7232(2022/03/26) 论文作者:Minh-Thang Luong et.al. 文章目录 Abstract ...

  6. ACL 2016 | Modeling Coverage for Neural Machine Translation

    ACL 2016 | Modeling Coverage for Neural Machine Translation 原创2016-08-03小S程序媛的日常程序媛的日常 今天的 ACL 2016 ...

  7. 《Effective Approaches to Attention-based Neural Machine Translation》—— 基于注意力机制的有效神经机器翻译方法

    目录 <Effective Approaches to Attention-based Neural Machine Translation> 一.论文结构总览 二.论文背景知识 2.1 ...

  8. 复现有道NLPCC-2018 CGEC:A Neural Machine Translation Approach to Chinese Grammatical Error Correction

    有道NLPCC-2018 CGEC任务论文:A Neural Machine Translation Approach to Chinese Grammatical Error Correction ...

  9. 文献阅读(60)ACL2021-Attention Calibration for Transformer in Neural Machine Translation

    本文是对<Attention Calibration for Transformer in Neural Machine Translation>一文的浅显翻译与理解,如有侵权即刻删除. ...

最新文章

  1. 如何在数据库中高效实现订座功能?
  2. 编程之美 3.10 分层遍历二叉树
  3. 【Linux】4.Linux cat命令详解
  4. Get JSON with the jQuery getJSON Method
  5. 数据时代,信息的无处遁形
  6. 帕斯卡三角形杨辉三角
  7. 利用session防止表单重复提交
  8. centos7 菜鸟第一天--输入法在哪
  9. 【报告分享】2020中国短视频行业洞察报告.pdf(附下载链接)
  10. sql学习练习题_学习SQL:练习SQL查询
  11. 学习scrapy使用
  12. 菜鸟教程java在线编辑器_HTML 编辑器
  13. 微信小程序云开发表单使用 name的形式提交后如何清空输入内容
  14. Data Matrix二维码编码原理及其识别技术
  15. 京东把 Elasticsearch 到底用的有多牛?日均5亿订单查询完美解决!
  16. matlab冒号,括号的用法
  17. PostgreSQL SRF (set-returning functions) 函数where, index实现
  18. C++小游戏《末日之战1:新生》1.12.31823.132
  19. 遇到了 “遇到以零作除数错误” 的问题
  20. idea复制项目导致sources root复用了另一个项目

热门文章

  1. 绿色免安装电视直播软件viviplayer
  2. ipv4: inet初始化过程
  3. FOHEART H1数据手套驱动Optitrack光学动捕双手运动(Unity3D)
  4. 调试器扩展SOSEX
  5. speedoffice好用吗
  6. POX及组件启动分析
  7. C# 实现AES GCM加解密
  8. CiteSpace安装教程
  9. 企业CRM运营中的管控关键
  10. 远程抄表系统集中器,全国最小的抄表集中器行业技术领导者