论文解读——神经网络翻译中的注意力机制 以及 global / local attention
论文 Effective Approaches to Attention-based Neural Machine Translation
这篇论文主要介绍了神经网络翻译中的attention机制的集中改进方式,包括global / local attention以及 input-feeding机制,最后通过实验进行比较
本篇博文还将拓展神经网络翻译、注意力机制、soft / hard attention等内容
目录
论文 Effective Approaches to Attention-based Neural Machine Translation
Motivation(神经网络翻译概念)
Related work(attention机制)
Global Attention(与普通attention的区别)
global attention 缺点
Local attention
local-m
local-p
Input-feeding
Conclusion
soft / hard attention
Motivation(神经网络翻译概念)
NMT(神经网络翻译)是一个以条件概率p(y|x)建模的神经网络,将源语句x1,…,xn翻译到目标语句y1,…,ym
NMT的基本形式包括两个组成部分:
即Decoder 根据s和之前所预测的单词来预测下一个单词
NMT存在问题:
不过Encoder-Decoder有一个很大的问题就是encoder 和decoder之间的上下文向量的长度是固定的,这就可能导致网络无法解决长句子, 当句子的长度上升时, 传统的encoder-decoder模型表现急剧下降。
就好像一个翻译人员翻译一本书,他先通读全篇,当开始翻译时,前面的部分有的已经遗忘了。
Related work(attention机制)
每一个时间步,attention将encoder的hidden states以及decoder当前的hidden state作为输入,最终得到context vector,然后将c和decoder端的hidden state 相连结作为softmax的输入,获得最终结果
attention的计算:
输入是encoder的所有hidden states H,decoder在一个时间点上的hidden state h。
第一步:旋转H与h做点乘得到一个分数。
第二步:对分数做softmax得到一个合为1的权重。
第三步:将H与第二步得到的权重做点乘得到一个大小为(hid dim, 1)的context vector。
理解:是一种对齐,根据encoder的H和decoder位置 j 的h
文中论文和代码已经整理,如果需要,点击下方公号关注,领取,持续传达瓜货 所向披靡的张大刀 注意力机制是机器学习中嵌入的一个网络结构,主要用来学习输入数据对输出数据贡献:注意力机制在NLP和CV中均有使 ... 注意力机制可以使神经网络忽略不重要的特征向量,而重点计算有用的特征向量.在抛去无用特征对拟合结果于扰的同时,又提升了运算速度. 1 注意力机制 所谓Attention机制,便是聚焦于局部信息的机制,比 ... 神经网络中的注意力机制与外部记忆 文章目录 神经网络中的注意力机制与外部记忆 什么是注意力 神经网络中的注意力机制 注意力机制的实现 注意力机制模型简易理解 注意力分布 注意力机制的软硬模式 自注意力 ... 目录 引言 2022-04-09 update 2022-02-02 update 2021-12-15 update CV注意力机制资源汇总 Attention Mechanisms in Comp ... 作者|xys430381_1 https://blog.csdn.net/xys430381_1/article/details/89323444 本文仅作学术分享,著作权归作者所有,如有侵权,请联系 ... 作者 | 蘑菇先生 来源 | NewBeeNLP原创出品 深度学习Attenion小综述系列: 深度学习中的注意力机制(一) 深度学习中的注意力机制(二) 目前深度学习中热点之一就是注意力机制(Att ... 作者 | 蘑菇先生 来源 | NewBeeNLP 目前深度学习中热点之一就是注意力机制(Attention Mechanisms).Attention源于人类视觉系统,当人类观察外界事物的时候,一般不 ... 作者 | 蘑菇先生 来源 | NewBeeNLP 头图 | CSDN下载自视觉中国 目前深度学习中热点之一就是注意力机制(Attention Mechanisms).Attention源于人类视觉系统 ... 文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 转自 | AI小白入门(公众号ID: StudyForAI) 作者 | yuquanle,985在读硕 ... Paper:<A Unified Approach to Interpreting Model Predictions-解释模型预测的统一方法>论文解读与翻译 导读:2017年11月25 ...论文解读——神经网络翻译中的注意力机制 以及 global / local attention相关推荐
最新文章
热门文章