论文 Effective Approaches to Attention-based Neural Machine Translation

这篇论文主要介绍了神经网络翻译中的attention机制的集中改进方式,包括global / local attention以及 input-feeding机制,最后通过实验进行比较

本篇博文还将拓展神经网络翻译、注意力机制、soft / hard attention等内容

目录

论文 Effective Approaches to Attention-based Neural Machine Translation

Motivation(神经网络翻译概念)

Related work(attention机制)

Global Attention(与普通attention的区别)

global attention 缺点

Local attention

local-m

local-p

Input-feeding

Conclusion

soft / hard attention


Motivation(神经网络翻译概念)

NMT(神经网络翻译)是一个以条件概率p(y|x)建模的神经网络,将源语句x1,…,xn翻译到目标语句y1,…,ym

NMT的基本形式包括两个组成部分:

1.编码器——计算每个源语句的表示
2.解码器——每次生成一个目标单词

即Decoder 根据s和之前所预测的单词来预测下一个单词

NMT存在问题:

不过Encoder-Decoder有一个很大的问题就是encoder 和decoder之间的上下文向量的长度是固定的,这就可能导致网络无法解决长句子, 当句子的长度上升时, 传统的encoder-decoder模型表现急剧下降。

就好像一个翻译人员翻译一本书,他先通读全篇,当开始翻译时,前面的部分有的已经遗忘了。

Related work(attention机制)

每一个时间步,attention将encoder的hidden states以及decoder当前的hidden state作为输入,最终得到context vector,然后将c和decoder端的hidden state 相连结作为softmax的输入,获得最终结果

attention的计算:

输入是encoder的所有hidden states H,decoder在一个时间点上的hidden state h。

第一步:旋转H与h做点乘得到一个分数。

第二步:对分数做softmax得到一个合为1的权重。

第三步:将H与第二步得到的权重做点乘得到一个大小为(hid dim, 1)的context vector。

理解:是一种对齐,根据encoder的H和decoder位置 j 的h

论文解读——神经网络翻译中的注意力机制 以及 global / local attention相关推荐

  1. 万字长文解读计算机视觉中的注意力机制(附论文和代码链接)

    文中论文和代码已经整理,如果需要,点击下方公号关注,领取,持续传达瓜货 所向披靡的张大刀 注意力机制是机器学习中嵌入的一个网络结构,主要用来学习输入数据对输出数据贡献:注意力机制在NLP和CV中均有使 ...

  2. 【Pytorch神经网络理论篇】 20 神经网络中的注意力机制

    注意力机制可以使神经网络忽略不重要的特征向量,而重点计算有用的特征向量.在抛去无用特征对拟合结果于扰的同时,又提升了运算速度. 1 注意力机制 所谓Attention机制,便是聚焦于局部信息的机制,比 ...

  3. 神经网络中的注意力机制与外部记忆

    神经网络中的注意力机制与外部记忆 文章目录 神经网络中的注意力机制与外部记忆 什么是注意力 神经网络中的注意力机制 注意力机制的实现 注意力机制模型简易理解 注意力分布 注意力机制的软硬模式 自注意力 ...

  4. 论文--计算机视觉中的注意力机制

    目录 引言 2022-04-09 update 2022-02-02 update 2021-12-15 update CV注意力机制资源汇总 Attention Mechanisms in Comp ...

  5. 综述:计算机视觉中的注意力机制

    作者|xys430381_1 https://blog.csdn.net/xys430381_1/article/details/89323444 本文仅作学术分享,著作权归作者所有,如有侵权,请联系 ...

  6. 深度学习中的注意力机制(三)

    作者 | 蘑菇先生 来源 | NewBeeNLP原创出品 深度学习Attenion小综述系列: 深度学习中的注意力机制(一) 深度学习中的注意力机制(二) 目前深度学习中热点之一就是注意力机制(Att ...

  7. 深度学习中的注意力机制(二)

    作者 | 蘑菇先生 来源 | NewBeeNLP 目前深度学习中热点之一就是注意力机制(Attention Mechanisms).Attention源于人类视觉系统,当人类观察外界事物的时候,一般不 ...

  8. 深度学习中的注意力机制(一)

    作者 | 蘑菇先生 来源 | NewBeeNLP 头图 | CSDN下载自视觉中国 目前深度学习中热点之一就是注意力机制(Attention Mechanisms).Attention源于人类视觉系统 ...

  9. 一篇了解NLP中的注意力机制

    文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 转自 | AI小白入门(公众号ID: StudyForAI) 作者 | yuquanle,985在读硕 ...

  10. Paper:《A Unified Approach to Interpreting Model Predictions—解释模型预测的统一方法》论文解读与翻译

    Paper:<A Unified Approach to Interpreting Model  Predictions-解释模型预测的统一方法>论文解读与翻译 导读:2017年11月25 ...

最新文章

  1. 跟我学Spring Cloud(Finchley版)-08-Ribbon深入
  2. 禁止遮罩层以下屏幕滑动----正解(更新版)
  3. C++从入门到放肆!
  4. python3解析json数据_Python3 JSON 数据解析
  5. 百度邀您来听一场云存储的大戏!
  6. 从零开始--系统深入学习android(实践-让我们开始写代码-新手指南-6.使用Fragments构建动态UI)...
  7. 把Windows Phone应用发布到中国
  8. 数据包络分析(DEA)
  9. gulp项目找不到html标签,通过yeoman、gulp、angular编写前段时的html模板处理,打包后找不到html的问题解决...
  10. [C++] Kmeans算法实现
  11. 百度1+x计算机视觉证书题库
  12. proteus仿真+keil——>制作流水灯
  13. 微信分享网页 图标不显示
  14. Fiddler 和 Wireshark抓包教程合集
  15. GOCAD 2009 完整版功能强大的三维地质建模软件
  16. ubuntu 使用 OneNote
  17. 懒癌治疗仪 - 写在前面
  18. Mac创建.prettierrc文件详解
  19. 小红书笔记如何发布内容
  20. 一刀传世服务器维护,#一刀传世#

热门文章

  1. 自定义 Android Studio Locat 的输出颜色
  2. Bada IDE编译
  3. word论文页码排版
  4. 关于太阳(卫星)天顶角,太阳高度角,太阳方位角
  5. linux jnlp 远程,OpenJDK “IcedTea”插件JNLPSecurityManager远程代码执行漏洞
  6. OpenJDK Runtime Environment (IcedTea6 1.13.10) (rhel-1.13.10.0.el6_7-x86_64) OpenJDK 64-Bit Server V
  7. Sun jdk、Open jdk、Icedtea jdk 之间的关系
  8. 电力LED时钟系统解决方案实现精确时间同步
  9. Android隐藏app桌面图标
  10. unity实战:教你做黄豆君