【论文笔记】Supervised Attentions for Neural Machine Translation
2016年的文章,还是在attention机制上的改进。
核心思路“监督”:计算注意力和真实对齐情况的举例,并将其作为模型损失进行训练
简介 Introduce
Given the alignments of all the training sentence pairs, we add an alignment distance cost to the objective function.
经典注意力模型(四刷了,每次都不一样)
对齐模块
Given an alignment matrix A for a sentence pair (x, y) in Figure 2 (a), where we have an end-of-source-sentence token <\eos> = xL, and we align all the unaligned target words (y3∗ in this example) to <\eos> , also we force ym* (end-of-target-sentence) to be aligned to xL with probability one.
Then we conduct two transformations to get the probability distribution matrices ((b) and © in Figure 2).
(b) (c)分别对应归一化和数据平滑
数据平滑方法
Given the original alignment matrix A, we create a matrix A∗ with all points initialized with zero. Then, for each alignment point At,i = 1, we update A∗ by adding a Gaussian distribution, g(µ, σ), with a window size w (t-w, … t … t+w).
Take the A1,1 = 1 for example, we have A1,1 * += 1, A1,2 * += 0.61, and A1,3 * += 0.14, with w=2, g(µ, σ)=g(0, 1). Then we normalize each row and get ©.
优化方法
在原有损失函数上增加对齐损失函数,优化策略可以是联合训练,也可以分别训练(先训练对齐,再训练翻译)。
实验结果
掠过,这篇文章很短,就此结束了。
比较值得注意的是他加入了高斯平滑方法。
【论文笔记】Supervised Attentions for Neural Machine Translation相关推荐
- 【论文阅读003】:CURE: Code-Aware Neural Machine Translation for Automatic Program Repair
论文基本情况: 论文名: CURE: Code-Aware Neural Machine Translation for Automatic Program Repair 作者:Nan Jiang(P ...
- 论文阅读笔记:Frequency-Aware Contrastive Learning for Neural Machine Translation
论文链接:https://arxiv.org/abs/2112.14484 author={Zhang, Tong and Ye, Wei and Yang, Baosong and Zhang, L ...
- 《Reducing Word Omission Errors in Neural Machine Translation:A Contrastive Learning Approach》论文阅读笔记
Reducing Word Omission Errors in Neural Machine Translation:A Contrastive Learning Approach 基本信息 研究目 ...
- 【论文笔记】Effective Approaches to Attention-based Neural Machine Translation
这篇文章发布2015年,关于Attention的应用. 现在看来可能价值没那么大了,但是由于没读过还是要读一遍. 简介 Introduce In parallel, the concept of &q ...
- 【论文泛读】4. 机器翻译:Neural Machine Translation by Jointly Learning to Align and Translate
更新进度:■■■■■■■■■■■■■■■■■■■■■■■|100% 理论上一周更一个经典论文 刚刚开始学习,写的不好,有错误麻烦大家留言给我啦 这位博主的笔记短小精炼,爱了爱了:点击跳转 目录 准备 ...
- 《Neural Machine Translation by Jointly Learning to Align and Translate》阅读笔记
个人总结 本文最大贡献是提出了注意力机制,相比于之前 NMT(Neural Machine Translation) 把整个句子压缩成一个固定向量表示的方法,对不同位置的目标单词计算每个输入的不同权重 ...
- Attention Focusing for Neural Machine Translation by Bridging Source and Target Embeddings 论文总结
Attention Focusing for Neural Machine Translation by Bridging Source and Target Embeddings 论文总结 该文是阅 ...
- 【机器翻译】《Gradient-guided Loss Masking for Neural Machine Translation》论文总结
<Gradient-guided Loss Masking for Neural Machine Translation>https://arxiv.org/pdf/2102.13549. ...
- 【机器翻译】《Nearest Neighbor Knowledge Distillation for Neural Machine Translation》论文总结
<Nearest Neighbor Knowledge Distillation for Neural Machine Translation>https://arxiv.org/pdf/ ...
最新文章
- 贪吃蛇游戏(java)
- 用Groovy思考 第一章 用Groovy简化Java代码
- mfc让图片与按钮一起_微信朋友圈发图片还能添加语音,简单两步就能搞定!今天学到了...
- 求两个数集的并集C++代码实现
- 有奶瓶的linux系统,用U盘启动BEINI(奶瓶)系统
- 认识Linux系统中的inode,硬链接和软链接
- neo4j查询节点的出度与入度的数量
- TP5报错variable type error: array
- python用cartopy包画地图_利用Cartopy绘制带有地图投影的图形
- x86汇编--0.资料汇总
- 网卡驱动离线安装经验,避坑指南
- EDM 文件编写规范及注意事项
- (第三天)磁盘分区----LVE逻辑卷
- python读csv文件中文乱码问题简单解决(附python遍历目录下csv文件并输出内容的代码)
- deepin恢复出厂_初始化 - deepin Wiki
- ESP32S3系列--代码执行速度优化(从PSRAM执行代码)
- 微信支付 自动退款 php,银联在线、微信、支付宝自动退款接口文档总结和API地址...
- MacBookPro M1芯片安装brew
- 博图中热电阻/热电偶(RTD/TC)模拟量信号的处理
- centos8使用podman搭建vulhub
热门文章
- 联通156号段正式放号 尾号六位相同号月最低消费两万元
- centOS 无线网卡驱动 安装 配置
- ocr简易文字识别v1.41绿色版
- Trunk与三层交换机技术
- 如何选择包装机?云易科告诉你!
- OCPP1.6协议的充电桩小程序
- Silicon Lab Ember zigbee学习杂谈---zcl frame解析
- 火山引擎 DataTester:一个 A/B 测试,将一款游戏的核心收益提升了 8%
- 解决引入spire.doc.free-3.9.0.jar导致spring boot项目无法使用maven的install问题
- vue制作点击切换图片效果