注意力机制最新综述解读(last revised 12 Jul 2021

论文连接

[参考翻译]沈子恒的博客-CSDN博客_注意力机制

1.介绍

  注意力模型(AM)最早应用于机器翻译[1],现在神经网络领域应用广泛。注意力机制可以根据人的视觉机制进行解释,比如说驾车经过路口时驾驶员通常会更加关注路边的行人和其他车辆驾驶情况,而注意力机制能在计算中实现类似的效果。总地来说,注意力机制能动态地调整输入内容的权重,从而更加关注有助于完成当前任务的数据。

  注意力机制有三大优势:1)解决多任务任务最先进方法,如机器翻译、问题回答、情绪分析、词性标记、对话系统;2)提高神经网络可解释性;3)克服循环网络中随输入增加带来的性能下降。

2.注意力基础

3.注意力模型

Fig.2 编码器-解码器体系结构:(a)传统(b)注意模型

  图2(a)为sequence-to-sequence模型,由编码器-解码器组成,编码器是一个RNN,他接受由tokens{x1,x2,....,xT}\{x_{1},x_{2},....,x_{T}\}{x1x2,....,xT}组成的输入序列,t为输入序列长度,并编码为长度为t的向量{h1,h2,....,hT}\{h_{1},h_{2},....,h_{T}\}{h1h2,....,hT}。解码器也是一个RNN,通过tokens-to-tokens[2]生成一个输出序列{y1,y2,....,yT′}\{y_{1},y_{2},....,y_{T'}\}{y1y2,....,yT}, T′T'T 是输出序列的长度。在每个时间 ttthth_{t}htsts_{t}st 分别表示编码器和解码器的隐藏层表示。

传统编码器-解码器模型挑战

1)在编码器阶段,将输入信息压缩成固定长度的向量必然带来内容缺失

2)输入和输出序列之间没有对齐

从直觉上,我们希望输出的token受输入序列某个部分影响很大,但解码器并不能选择性的关注某部分序列。

关键理念:

  注意力机制目的是为了有选择地调用{h1,h2,....,hT}\{h_{1},h_{2},....,h_{T}\}{h1h2,....,hT},选择的实现则在于引入注意权重 $\alpha $ ,通过计算加权和生成下一个输出 ccc .

Attention 使用

  图 2 (b)展示了具有注意力机制的编码器-解码器模型。图中的半圆矩形为注意力模块,负责自主学习注意力权重 αij\alpha_{ij}αij ,他可以自动捕获 hih_{i}hi (编码器隐藏状态,又称为候选状态)和 sjs_{j}sj (解码器隐藏状态,又称查询状态)之间的相关性。然后根据以下公式生成 cjc_{j}cj :
cj=∑i=1Tαijhic_{j}=\sum_{i=1}^{T}\alpha _{ij}h_{i} cj=i=1Tαijhi
在每个解码位置 jjj ,内容向量 cjc_{j}cj 是编码器所有隐藏状态及其相应注意权的加权和。

注意力权重$\alpha $ 学习

  注意力权重通过在结构中加入一个额外的前馈神经网络来学习。前馈神经网络以 hih_{i}hisj−1s_{j-1}sj1 两种状态为神输入,并借助两种状态构成的函数种学习特定的 αij\alpha _{ij}αij ,这函数称为对齐函数alignment function(表 1 中)。对齐函数能对 hih_{i}hisj−1s_{j-1}sj1的相关程度进行评分 eije_{ij}eij .将对齐函数生成的相关度评分 eije_{ij}eij 输入分类函数(表 1 中)生成注意力权重 αij\alpha _{ij}αij

x={x1,...,xT}x=\{x_{1},...,x_{T}\}x={x1,...,xT}:输入序列,TTT:输入序列长度,hih_{i}hi:编码器隐藏层状态,ccc : 语境(Context)向量,αij\alpha _{ij}αij:对输入的注意权重,sjs_{j}sj : 解码其隐藏状态,yjy_{j}yj:输出token,f,gf,gf,g:非线性函数,aaa:对齐函数,ppp:分类函数

表 1 .编码器-解码器结构:传统和注意模型。

广义注意力模型A

  图 2(b) 所示的注意力模型也可以看作是键序列

注意力机制最新综述解读(last revised 12 Jul 2021)相关推荐

  1. 注意力机制blogs

    目录 blogs blogs 计算机视觉中的注意力机制.2018 注意力机制总结.2020 综述-图像处理中的注意力机制.2019 注意力机制最新综述解读.2019 注意力机制基本思想和实现原理.20 ...

  2. 清华南开出品最新视觉注意力机制Attention综述

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨量子位 编辑丨极市平台 导读 清华大学计图团队和南开大学程明明 ...

  3. Attention!注意力机制模型最新综述(附下载)

    来源:专知 本文多资源,建议阅读5分钟. 本文详细描述了Attention模型的概念.定义.影响以及如何着手进行实践工作. [导 读]Attention模型目前已经成为神经网络中的一个重要概念,本文为 ...

  4. 注意力机制(Attention)最新综述论文及相关源码

    来源:专知 注意力机制(Attention)起源于模仿人类的思维方式,后被广泛应用于机器翻译.情感分类.自动摘要.自动问答等.依存分析等机器学习应用中.专知编辑整理了Arxiv上一篇关于注意力机制在N ...

  5. 万字解读:预训练模型最新综述!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale学术 作者:太子长琴,Datawhale意向成员 如何在有限数据下训练出高效的 ...

  6. 目标检测论文解读复现之十八:基于注意力机制的光线昏暗条件下口罩佩戴检测

    前言 此前出了目标改进算法专栏,但是对于应用于什么场景,需要什么改进方法对应与自己的应用场景有效果,并且多少改进点能发什么水平的文章,为解决大家的困惑,此系列文章旨在给大家解读最新目标检测算法论文,帮 ...

  7. 综述:计算机视觉中的注意力机制

    作者|xys430381_1 https://blog.csdn.net/xys430381_1/article/details/89323444 本文仅作学术分享,著作权归作者所有,如有侵权,请联系 ...

  8. 目标检测论文解读复现之十七:融合注意力机制的YOLOv5口罩检测算法

    前言 此前出了目标改进算法专栏,但是对于应用于什么场景,需要什么改进方法对应与自己的应用场景有效果,并且多少改进点能发什么水平的文章,为解决大家的困惑,此系列文章旨在给大家解读最新目标检测算法论文,帮 ...

  9. 万字长文解读计算机视觉中的注意力机制(附论文和代码链接)

    文中论文和代码已经整理,如果需要,点击下方公号关注,领取,持续传达瓜货 所向披靡的张大刀 注意力机制是机器学习中嵌入的一个网络结构,主要用来学习输入数据对输出数据贡献:注意力机制在NLP和CV中均有使 ...

最新文章

  1. 链表问题20——按照左右半区的方式重新组合单链表
  2. Python 之列表的常用方法
  3. Oracle入门(九)之用户、角色与权限之间关系
  4. 线性表 - 数据结构和算法06
  5. 安卓应用安全指南 5.6.3 密码学 高级话题
  6. nginx主配置文件解释
  7. Spring read-only=true 只读事务的一些概念
  8. 动手编写操作系统(1):初识Bochs
  9. python cad 二次开发bom_python处理BOM
  10. 没有配置任何软件的计算机上能够运行,禁止电脑安装任何软件
  11. ps快捷键 拿走不谢*小Lemon送你们的
  12. 写php什么梗,什么是php(php是什么梗)
  13. aj6 stamps storm_AJ6黑红真假对比细节图评测
  14. Python基础学习:类语法规则
  15. 如何将数据库中text字段中返回的数据转换成数组的形式,并且将字符串的数字转换成数字的形式显示
  16. 关于信息化管理的建议
  17. 01.计算机基础与Java
  18. Who Wants to Be a Millionaire?
  19. 你不知道的CSS霓虹灯文字总结
  20. 海尔集团CEO张瑞敏演讲稿:人不成熟的5大特征

热门文章

  1. 华为java 上机_华为校园招聘Java上机笔试题
  2. 使用trac进行项目管理
  3. 乐1Pro 乐视X800+_官方线刷包_救砖包_解账户锁
  4. 数仓 DW层中主题表之页面交互事件概况主题(分享,点赞,收藏)
  5. Leaflet中使用draw绘制时获取图形的几何信息
  6. python编译成c语言-cython编译Python为c语言
  7. c++语言表白超炫图形_C/C++编程笔记:浪漫流星雨表白装b程序
  8. 等额本息与等额本金问题的分析
  9. Python OpenCV 之图像乘除与像素的逻辑运算,图像处理取经之旅第 17 天
  10. 【微信支付】(亲测可用)对接app微信支付V2版本 后端代码示例