2016年的文章,还是在attention机制上的改进。
核心思路“监督”:计算注意力和真实对齐情况的举例,并将其作为模型损失进行训练

简介 Introduce

Given the alignments of all the training sentence pairs, we add an alignment distance cost to the objective function.

经典注意力模型(四刷了,每次都不一样)

对齐模块

Given an alignment matrix A for a sentence pair (x, y) in Figure 2 (a), where we have an end-of-source-sentence token <\eos> = xL, and we align all the unaligned target words (y3∗ in this example) to <\eos> , also we force ym* (end-of-target-sentence) to be aligned to xL with probability one.

Then we conduct two transformations to get the probability distribution matrices ((b) and © in Figure 2).

(b) (c)分别对应归一化和数据平滑

数据平滑方法

Given the original alignment matrix A, we create a matrix A∗ with all points initialized with zero. Then, for each alignment point At,i = 1, we update A∗ by adding a Gaussian distribution, g(µ, σ), with a window size w (t-w, … t … t+w).
Take the A1,1 = 1 for example, we have A1,1 * += 1, A1,2 * += 0.61, and A1,3 * += 0.14, with w=2, g(µ, σ)=g(0, 1). Then we normalize each row and get ©.

优化方法


在原有损失函数上增加对齐损失函数,优化策略可以是联合训练,也可以分别训练(先训练对齐,再训练翻译)。

实验结果

掠过,这篇文章很短,就此结束了。
比较值得注意的是他加入了高斯平滑方法。

【论文笔记】Supervised Attentions for Neural Machine Translation相关推荐

  1. 【论文阅读003】:CURE: Code-Aware Neural Machine Translation for Automatic Program Repair

    论文基本情况: 论文名: CURE: Code-Aware Neural Machine Translation for Automatic Program Repair 作者:Nan Jiang(P ...

  2. 论文阅读笔记:Frequency-Aware Contrastive Learning for Neural Machine Translation

    论文链接:https://arxiv.org/abs/2112.14484 author={Zhang, Tong and Ye, Wei and Yang, Baosong and Zhang, L ...

  3. 《Reducing Word Omission Errors in Neural Machine Translation:A Contrastive Learning Approach》论文阅读笔记

    Reducing Word Omission Errors in Neural Machine Translation:A Contrastive Learning Approach 基本信息 研究目 ...

  4. 【论文笔记】Effective Approaches to Attention-based Neural Machine Translation

    这篇文章发布2015年,关于Attention的应用. 现在看来可能价值没那么大了,但是由于没读过还是要读一遍. 简介 Introduce In parallel, the concept of &q ...

  5. 【论文泛读】4. 机器翻译:Neural Machine Translation by Jointly Learning to Align and Translate

    更新进度:■■■■■■■■■■■■■■■■■■■■■■■|100% 理论上一周更一个经典论文 刚刚开始学习,写的不好,有错误麻烦大家留言给我啦 这位博主的笔记短小精炼,爱了爱了:点击跳转 目录 准备 ...

  6. 《Neural Machine Translation by Jointly Learning to Align and Translate》阅读笔记

    个人总结 本文最大贡献是提出了注意力机制,相比于之前 NMT(Neural Machine Translation) 把整个句子压缩成一个固定向量表示的方法,对不同位置的目标单词计算每个输入的不同权重 ...

  7. Attention Focusing for Neural Machine Translation by Bridging Source and Target Embeddings 论文总结

    Attention Focusing for Neural Machine Translation by Bridging Source and Target Embeddings 论文总结 该文是阅 ...

  8. 【机器翻译】《Gradient-guided Loss Masking for Neural Machine Translation》论文总结

    <Gradient-guided Loss Masking for Neural Machine Translation>https://arxiv.org/pdf/2102.13549. ...

  9. 【机器翻译】《Nearest Neighbor Knowledge Distillation for Neural Machine Translation》论文总结

    <Nearest Neighbor Knowledge Distillation for Neural Machine Translation>https://arxiv.org/pdf/ ...

最新文章

  1. 贪吃蛇游戏(java)
  2. 用Groovy思考 第一章 用Groovy简化Java代码
  3. mfc让图片与按钮一起_微信朋友圈发图片还能添加语音,简单两步就能搞定!今天学到了...
  4. 求两个数集的并集C++代码实现
  5. 有奶瓶的linux系统,用U盘启动BEINI(奶瓶)系统
  6. 认识Linux系统中的inode,硬链接和软链接
  7. neo4j查询节点的出度与入度的数量
  8. TP5报错variable type error: array
  9. python用cartopy包画地图_利用Cartopy绘制带有地图投影的图形
  10. x86汇编--0.资料汇总
  11. 网卡驱动离线安装经验,避坑指南
  12. EDM 文件编写规范及注意事项
  13. (第三天)磁盘分区----LVE逻辑卷
  14. python读csv文件中文乱码问题简单解决(附python遍历目录下csv文件并输出内容的代码)
  15. deepin恢复出厂_初始化 - deepin Wiki
  16. ESP32S3系列--代码执行速度优化(从PSRAM执行代码)
  17. 微信支付 自动退款 php,银联在线、微信、支付宝自动退款接口文档总结和API地址...
  18. MacBookPro M1芯片安装brew
  19. 博图中热电阻/热电偶(RTD/TC)模拟量信号的处理
  20. centos8使用podman搭建vulhub

热门文章

  1. 联通156号段正式放号 尾号六位相同号月最低消费两万元
  2. centOS 无线网卡驱动 安装 配置
  3. ocr简易文字识别v1.41绿色版
  4. Trunk与三层交换机技术
  5. 如何选择包装机?云易科告诉你!
  6. OCPP1.6协议的充电桩小程序
  7. Silicon Lab Ember zigbee学习杂谈---zcl frame解析
  8. 火山引擎 DataTester:一个 A/B 测试,将一款游戏的核心收益提升了 8%
  9. 解决引入spire.doc.free-3.9.0.jar导致spring boot项目无法使用maven的install问题
  10. vue制作点击切换图片效果