论文 Effective Approaches to Attention-based Neural Machine Translation

这篇论文主要介绍了神经网络翻译中的attention机制的集中改进方式，包括global / local attention以及 input-feeding机制，最后通过实验进行比较

本篇博文还将拓展神经网络翻译、注意力机制、soft / hard attention等内容

论文 Effective Approaches to Attention-based Neural Machine Translation

Motivation（神经网络翻译概念）

Related work（attention机制）

Global Attention（与普通attention的区别）

global attention 缺点

Local attention

local-m

local-p

Input-feeding

Conclusion

soft / hard attention

Motivation（神经网络翻译概念）

NMT（神经网络翻译）是一个以条件概率p(y|x)建模的神经网络，将源语句x1,…,xn翻译到目标语句y1,…,ym

NMT的基本形式包括两个组成部分：

1.编码器——计算每个源语句的表示

2.解码器——每次生成一个目标单词

即Decoder 根据s和之前所预测的单词来预测下一个单词

NMT存在问题：

不过Encoder-Decoder有一个很大的问题就是encoder 和decoder之间的上下文向量的长度是固定的，这就可能导致网络无法解决长句子，当句子的长度上升时，传统的encoder-decoder模型表现急剧下降。

就好像一个翻译人员翻译一本书，他先通读全篇，当开始翻译时，前面的部分有的已经遗忘了。

Related work（attention机制）

每一个时间步，attention将encoder的hidden states以及decoder当前的hidden state作为输入，最终得到context vector，然后将c和decoder端的hidden state 相连结作为softmax的输入，获得最终结果

attention的计算：

输入是encoder的所有hidden states H，decoder在一个时间点上的hidden state h。

第一步：旋转H与h做点乘得到一个分数。

第二步：对分数做softmax得到一个合为1的权重。

第三步：将H与第二步得到的权重做点乘得到一个大小为(hid dim, 1)的context vector。

理解：是一种对齐，根据encoder的H和decoder位置 j 的h

论文解读——神经网络翻译中的注意力机制以及 global / local attention相关推荐

万字长文解读计算机视觉中的注意力机制（附论文和代码链接）
文中论文和代码已经整理,如果需要,点击下方公号关注,领取,持续传达瓜货所向披靡的张大刀注意力机制是机器学习中嵌入的一个网络结构,主要用来学习输入数据对输出数据贡献:注意力机制在NLP和CV中均有使 ...

【Pytorch神经网络理论篇】 20 神经网络中的注意力机制
注意力机制可以使神经网络忽略不重要的特征向量,而重点计算有用的特征向量.在抛去无用特征对拟合结果于扰的同时,又提升了运算速度. 1 注意力机制所谓Attention机制,便是聚焦于局部信息的机制,比 ...

神经网络中的注意力机制与外部记忆
神经网络中的注意力机制与外部记忆文章目录神经网络中的注意力机制与外部记忆什么是注意力神经网络中的注意力机制注意力机制的实现注意力机制模型简易理解注意力分布注意力机制的软硬模式自注意力 ...

论文--计算机视觉中的注意力机制
目录引言 2022-04-09 update 2022-02-02 update 2021-12-15 update CV注意力机制资源汇总 Attention Mechanisms in Comp ...

综述：计算机视觉中的注意力机制
作者|xys430381_1 https://blog.csdn.net/xys430381_1/article/details/89323444 本文仅作学术分享,著作权归作者所有,如有侵权,请联系 ...

深度学习中的注意力机制（三）
作者 | 蘑菇先生来源 | NewBeeNLP原创出品深度学习Attenion小综述系列: 深度学习中的注意力机制(一) 深度学习中的注意力机制(二) 目前深度学习中热点之一就是注意力机制(Att ...

深度学习中的注意力机制（二）
作者 | 蘑菇先生来源 | NewBeeNLP 目前深度学习中热点之一就是注意力机制(Attention Mechanisms).Attention源于人类视觉系统,当人类观察外界事物的时候,一般不 ...

深度学习中的注意力机制（一）
作者 | 蘑菇先生来源 | NewBeeNLP 头图 | CSDN下载自视觉中国目前深度学习中热点之一就是注意力机制(Attention Mechanisms).Attention源于人类视觉系统 ...

一篇了解NLP中的注意力机制
文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 转自 | AI小白入门(公众号ID: StudyForAI) 作者 | yuquanle,985在读硕 ...

Paper：《A Unified Approach to Interpreting Model Predictions—解释模型预测的统一方法》论文解读与翻译
Paper:<A Unified Approach to Interpreting Model Predictions-解释模型预测的统一方法>论文解读与翻译导读:2017年11月25 ...

最新文章

跟我学Spring Cloud（Finchley版）-08-Ribbon深入

禁止遮罩层以下屏幕滑动----正解(更新版)

C++从入门到放肆！

python3解析json数据_Python3 JSON 数据解析

百度邀您来听一场云存储的大戏！

从零开始--系统深入学习android（实践-让我们开始写代码-新手指南-6.使用Fragments构建动态UI）...

把Windows Phone应用发布到中国

数据包络分析（DEA）

gulp项目找不到html标签,通过yeoman、gulp、angular编写前段时的html模板处理，打包后找不到html的问题解决...

[C++] Kmeans算法实现

百度1+x计算机视觉证书题库

proteus仿真+keil——＞制作流水灯

微信分享网页图标不显示

Fiddler 和 Wireshark抓包教程合集

GOCAD 2009 完整版功能强大的三维地质建模软件

ubuntu 使用 OneNote

懒癌治疗仪 - 写在前面

Mac创建.prettierrc文件详解

小红书笔记如何发布内容

一刀传世服务器维护,#一刀传世#

热门文章

自定义 Android Studio Locat 的输出颜色

Bada IDE编译

word论文页码排版

关于太阳（卫星）天顶角，太阳高度角，太阳方位角

linux jnlp 远程,OpenJDK “IcedTea”插件JNLPSecurityManager远程代码执行漏洞

OpenJDK Runtime Environment (IcedTea6 1.13.10) (rhel-1.13.10.0.el6_7-x86_64) OpenJDK 64-Bit Server V

Sun jdk、Open jdk、Icedtea jdk 之间的关系

电力LED时钟系统解决方案实现精确时间同步

Android隐藏app桌面图标

unity实战：教你做黄豆君

论文解读——神经网络翻译中的注意力机制 以及 global / local attention

论文 Effective Approaches to Attention-based Neural Machine Translation

Motivation（神经网络翻译概念）

NMT存在问题：

Related work（attention机制）

attention的计算：

论文解读——神经网络翻译中的注意力机制 以及 global / local attention相关推荐

最新文章

热门文章

论文解读——神经网络翻译中的注意力机制以及 global / local attention

论文解读——神经网络翻译中的注意力机制以及 global / local attention相关推荐