一、概要

时间步t

1 首先使用最顶层堆叠LSTM的隐含层ht作为输入,以获得语境向量ct

2 进而预测出目标单词yt

global和local的区别仅在于语境向量ct的获取方式

3 拼接隐含层ht和语境向量ct,以获得注意力隐含层状态

4 接着注意力向量ht通过softmax层去生成预测分布

二、global attention 关注全局

思想:在生成语境向量ct时,考虑编码器里所有的隐含层状态

通过比较当前目标隐含层状态ht和每一个源隐含层状态hs,生成变长对齐向量at

score是基于内容的函数,计算方式有dot、general、concat三种。

在论文的早期尝试中,作者曾使用基于定位location-based的方式,其对齐score函数是仅通过目标隐含层ht计算出来

给出了对齐向量作为权重,语境向量ct就被计算为所有的源隐含层状态hs的加权平均值

三、local attention 关注局部

global attention的局限:需要在关注源端的每一个目标单词,计算复杂度高且可能导致翻译长句子的时候出现问题。

local attention的思想:只需要关注源位置附近的单词子集。

关注一个窗口,且是可微的

  1. 时间步t
  2. 先生成一个对齐位置pt
  3. 语境向量ct即为窗口pt-D到pt+D中源隐含层hs的加权平均。

和global不一样的,local的对齐向量是固定维度的。

两种变形

1 monotonic alignmentlocal-m

pt=t,即假设源和目标序列是粗略地单调对齐

2 predictive alignment local-p

其中,

wp和vp是待学习的模型参数

S是源句子长度

为选择pt附近的对齐点,放置一个以pt为中心的高斯分布

根据经验设定

四、输入feeding方法

global和local的问题:注意力的决定是独立的。

解决:注意力向量ht被拼接进LSTM的下一步输入中。

好处:

  1. 完整考虑之前的对齐选项
  2. 网络在广度和深度都是深的

Effective Approaches to Attention-based Neural Machine Translation笔记相关推荐

  1. [持续更新] 神经机器翻译论文汇总 Papers on Neural Machine Translation

    [持续更新] 神经机器翻译论文汇总 Papers on Neural Machine Translation 源文地址 :http://polarlion.github.io/nmt/2017/02/ ...

  2. 《Effective Approaches to Attention-based Neural Machine Translation》—— 基于注意力机制的有效神经机器翻译方法

    目录 <Effective Approaches to Attention-based Neural Machine Translation> 一.论文结构总览 二.论文背景知识 2.1 ...

  3. 【Paper】Effective Approaches to Attention-based Neural Machine Translation

    论文原文:PDF 论文年份:2015 论文被引:4675(2020/11/08) 7232(2022/03/26) 论文作者:Minh-Thang Luong et.al. 文章目录 Abstract ...

  4. 【论文笔记】Effective Approaches to Attention-based Neural Machine Translation

    这篇文章发布2015年,关于Attention的应用. 现在看来可能价值没那么大了,但是由于没读过还是要读一遍. 简介 Introduce In parallel, the concept of &q ...

  5. 注意力机制Effective Approaches to Attention-based Neural Machine Translation

    Effective Approaches to Attention-based Neural Machine Translation nlp三大顶会:ACL.EMCNLP.NACL 学起于思,思起于疑 ...

  6. Attention Focusing for Neural Machine Translation by Bridging Source and Target Embeddings 论文总结

    Attention Focusing for Neural Machine Translation by Bridging Source and Target Embeddings 论文总结 该文是阅 ...

  7. 基于PyTorch实现Seq2Seq + Attention的英汉Neural Machine Translation

    NMT(Neural Machine Translation)基于神经网络的机器翻译模型效果越来越好,还记得大学时代Google翻译效果还是差强人意,近些年来使用NMT后已基本能满足非特殊需求了.目前 ...

  8. 复现有道NLPCC-2018 CGEC:A Neural Machine Translation Approach to Chinese Grammatical Error Correction

    有道NLPCC-2018 CGEC任务论文:A Neural Machine Translation Approach to Chinese Grammatical Error Correction ...

  9. 论文阅读(三):Text2Sign: Towards Sign Language Production using Neural Machine Translation and GAN

    Abstract 概述:我们提出了一种新的方法,利用最近的发展神经机器翻译(NMT),生成对抗性网络(GANs)和运动生成来生成手语.我们的系统能够从口语句子中生成手语视频.与当前依赖于大量注释数据的 ...

最新文章

  1. Attention is All You Need?LSTM提出者:我看未必
  2. 计算机电路门,7.3 门电路计算机操作系统原理.pdf
  3. AlertDialog 宽度充满整个屏幕
  4. JVM字节码之整型入栈指令(iconst、bipush、sipush、ldc)
  5. python的人工智能和c++的有什么区别_为什么人工智能岗位有些招聘C/C 有些招聘Python到底哪门编程语言更重要(恰恰相反C++在人工智能方面的用处很大)...
  6. 基于JAVA+JSP+MYSQL的小说网站阅读管理系统
  7. evolving checkers players [Fogel and Chellapilla, 2002]
  8. Realtek无线网卡在Linux,gentoo下Realtek无线网卡的解决方案…
  9. python转换js_python转换Javascript
  10. angular-6大主流前端框架(一)
  11. macd底背离的python_python量化交易是否可以有策略有效识别MACD/SKDJ底背离和顶背离?...
  12. Allegro对不规则outline处理
  13. html表格里面怎么合并单元格的快捷键,excel合并单元格快捷键是什么
  14. 演唱会系统mysql_演唱会售票管理系统数据库设计.doc
  15. mysql sql日期截取年月日_sql截取日期/时间的单独部分,比如年、月、日、小时、分钟等等...
  16. PLC通讯实现-C#实现AB-CIP以太网通讯
  17. wps office 2013 WPS表格2010怎么为表格设置图形背景
  18. 易灵思Ti60 FPGA专题(1)-器件和需求介绍
  19. HKU MaRS livox camera calib使用过程
  20. ruoyi 页面跳转_若依及vue-element-admin vue 管理系统第三方拼多多登录

热门文章

  1. 大一下c语言笔记本电脑,大一新生上大学笔记本电脑推荐
  2. 植物野外识别速查图鉴
  3. 【Unity开发小技巧】Unity日志输出存储
  4. kali linux窗口变大,kali怎么把屏幕放大
  5. java计算机毕业设计心灵治愈服务平台源码+mysql数据库+lw文档+系统+调试部署
  6. excel 2种方法将长日期修改成短日期
  7. 公积金查询,公积金账号查询
  8. Subpalindromes
  9. 微信新BUG曝光:好友偷偷删了你,用这样一串代码就能查出来!
  10. 真正的朋友与普通的朋友的区别 (转)