1. Introduction

注意机制起源于对人类视觉的研究。在认知科学中,由于信息处理的瓶颈,人类只能注意到所有可见信息的一部分。受这种视觉注意机制的启发,研究者们试图寻找视觉选择性注意模型来模拟人类的视觉感知过程,从而模拟人类在观察图像和视频时的注意分布,并扩展其应用。

以计算机视觉领域为例,深度学习与视觉注意机制相结合的研究大多集中在mask的使用上。mask的原理是将图像数据中的关键特征用另一层新的权值来识别。通过学习和训练,深度神经网络可以学习到每一个新图像中需要注意的区域,从而形成注意。

这个想法进一步发展成两种不同类型的注意:软注意和硬注意。软注意机制是通过梯度下降实现的,具有可微性和连续性。在神经网络中,注意的权重可以通过前向传播和后向反馈来学习。然而,硬注意机制并不是可微分的,它往往是通过强化学习来实现的,并受到利益函数的激励,使模型更加注重某些部分的细节。

本文将分三部分进行介绍:第一部分是视觉选择性注意的计算模型;第二部分是计算机视觉注意机制模型的分类;第三部分是对现有注意机制的总结和展望。

2. Computational Models of Visual Selective Attention 视觉选择性注意力的计算模型

虽然这种活动是主观的,但不可否认的是,内容的性质对选择性注意有影响,这反映了视觉选择性注意计算的自上而下和自下而上的注意加工机制。

目前,对视觉选择性注意建模的研究主要集中在四个方面:如何计算 bottom-up 的显著图;如何描述和表达 up-bottom 的任务和知识;如何将自底向上的信息流与自顶向下的知识流合并如何控制注意力的转移。Itti和Koch基于生物学原理提出了一种自下而上的视觉注意计算模型,该模型有效地模拟了人类的视觉选择性注意机制,是目前应用最广泛的模型[4]。

如图1所示,该模型分为两个部分:显著图的计算以及 attention 区域的选择和转移。显著图计算的核心是每个通道特征的提取和融合策略,这也是整个模型框架的核心。首先,将输入图像分解为彩色、亮度和方向三个多通道图像分量,并建立多分辨率金字塔来表达每个分量。然后,利用模拟人类感官场特征的“中心-外围”算子对多尺度分量图像进行操作,得到12幅颜色特征图、6幅亮度特征图和24幅方位特征图。然后通过归一化线性重叠得到相应的颜色、亮度和方向显著图,并根据这三种不同通道的显著图生成总显著图。最后,通过人工构建的动态神经网络通过显著图选择注意区域。选择的区域是一个以关注焦点为中心的圆,显著图中值较大的点将首先被注意到。

3. The classification of attention mechanism models in computer vision计算机视觉中注意力机制模型的分类

3.1 soft attention:

3.1.1 spatial attention

3.1.2. Channel attention

给每个通道一个权重,显示通道之间的相关性,权重越大,相关性越高,就应该更加关注相应的通道。

一旦得到每个特征通道的权值,将权值应用于每个原始特征通道,根据具体任务学习不同通道的重要性。

通道注意机制的本质在于对各特征之间的重要性进行建模,其权重可以根据不同任务的输入来分配,因此该机制简单有效。

3.1.3. Mixed attention

以CBAM为例。spatial attention和channel attention的混合。

3.1.4. Self attention

在卷积神经网络中,卷积核受到其大小的限制,只能使用局部信息来计算目标像素,因此可能会由于忽略全局信息而导致偏差。如果将feature map中的每个像素视为随机变量,计算配对协方差,则可以根据每个预测像素与图像中其他像素的相似度对其值进行增减。利用相似像素进行训练和预测而忽略不同像素的机制称为 self-attention 机制。

为了实现每个像素级预测的全局参考,Wang等人在CNN中提出了非局部的 self-attention 神经网络,如图5[8]所示。他们的方法是将每个像素视为一个基于像素间预测协方差的随机变量。参与的目标像素是所有像素值的加权和,其中权重是每个像素与目标像素之间的相关性。利用 self-attention 机制,在模型的训练和预测过程中实现全局参考(global reference)。该模型具有较好的偏方差权重(bias-variance weight),使模型更加合理。

3.2. Hard attention

由于 hard attention 能够从输入信息中选择重要特征,因此被认为是一种更有效、更直接的方法。

尽管如稀疏约束的作用在塑造的能力学习代理一直在探索,Attention Agent采取了不同的方式,灵感来源于无意视盲”相关的概念,也就是说,当大脑从事一项任务需要努力,它最关注的元素相关的任务,暂时忽略其他信号。

为了实现这一点,[9]将输入图像分割成几个块,然后基于改进的自我注意体系结构模拟块之间的投票,从而选择一个被认为是重要的子集。在每个时间步中选择相关的块,一旦确定,AttentionAgent将只根据这些块做出决策,而忽略其他块。通常,反向传播被用来优化神经网络但是考虑到Attention Agent包含了不可微的操作,如排序、切片等来生成重要的块,将这些技术应用到训练中并不容易。因此,采用非导数优化算法来克服这一问题,如图6所示。

The upper row: input transforming——滑动窗口将输入图像分割成更小的块,然后将它们平铺以供将来处理。

The middle row: block election——修改后的自我注意模块在块之间投票,生成块重要性向量。

The lower row: action generation- AttentionAgent选择最重要的块,提取相应的特征,并根据它们做出决策。

已经证明AttentionAgent已经成功地学会了注意输入图像中的不同区域。关键块的可视化可以看出agent 如何做出决策,从而证明大多数选择符合人脑的选择和直觉。此外,由于agent也学会了忽略对核心任务不重要的信息,所以可以将其推广到环境稍有改变的任务中。

4. Conclusion

到目前为止,人类视觉的许多认知特征仍有待探索,在人类视觉注意机制领域还没有统一的理论框架可供参考。只有进一步加强对人类注意机制的研究,探索和建模人类视觉在信息处理中的规律,才能更好地应用于计算机信息处理领域。

低级和高级视觉特征的结合,使我们对不同的事物有不同的关注,这些特征的贡献也不同。因此,选择合适的加权方法,使其更符合人眼观察事物的模式,是至关重要的。

人的视觉注意过程是通过自下而上的主要视觉特征处理和自上而下的任务引导相结合来实现的。然而,大多数模型都是以单一的方式处理的。在这种情况下,自底向上和自顶向下的计算模型相结合,可以更好地模拟人类视觉注意的机制,在机器视觉领域具有更广阔的研究前景。

由于添加了时间轴特性,视频比自然图像更加复杂,视频视觉注意力的计算模型也更加有限。在这种情况下,用更高维度的语义来描述视频突出区域中的对象,可以使其更接近人类的视觉,有利于视频的检索和分类等领域。

attention综述论文阅读:An Overview of the Attention Mechanisms in ComputerVision相关推荐

  1. 论文阅读:Overview of the NLPCC 2018 Shared Task: Grammatical Error Correction

    论文阅读:Overview of the NLPCC 2018 Shared Task: Grammatical Error Correction 1. 引言 2. 任务定义 3. 数据 3.1 训练 ...

  2. 强化学习泛化性 综述论文阅读 A SURVEY OF GENERALISATION IN DEEP REINFORCEMENT LEARNING

    强化学习泛化性 综述论文阅读 摘要 一.介绍 二.相关工作:强化学习子领域的survey 三.强化学习中的泛化的形式 3.1 监督学习中泛化性 3.2 强化学习泛化性背景 3.3 上下文马尔可夫决策过 ...

  3. prompt综述论文阅读:Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural La

    prompt综述论文阅读:Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Lan ...

  4. MVS学习(一):综述论文阅读记录

    MVS学习(一):综述论文Multi-View Stereo: A Tutorial阅读记录 Abstract Introduction SfM简介 Openmvs简介和安装 Multi-view P ...

  5. 【论文阅读】Hierarchical Multi-modal Contextual Attention Network for Fake News Detection --- 虚假新闻检测,多模态

    本博客系本人阅读该论文后根据自己理解所写,非逐句翻译,欲深入了解该论文,请参阅原文. 论文标题:Hierarchical Multi-modal Contextual Attention Networ ...

  6. Small Object Detection using Context and Attention(论文阅读笔记)

    Small Object Detection using Context and Attention 论文阅读笔记 出处:2021 International Conference on Artifi ...

  7. 《Artificial intelligence in healthcare》综述论文阅读

    为了方便阅读,我将下面这篇综述论文进行了翻译. Yu, KH., Beam, A.L. & Kohane, I.S. Artificial intelligence in healthcare ...

  8. 论文阅读笔记(11)--- Attention is all you need(Transformer)逐段精读

    根据李沐读论文学习一下这篇论文. Transformer Introduction Background Model Architecture Encoder and Decoder Stacks A ...

  9. 【论文阅读】MFAN: Multi-modal Feature-enhanced Attention Networks for Rumor Detection --- 多模态,谣言检测,注意力机制

    本博客系博主根据个人理解所写,非逐字逐句翻译,预知详情,请参阅论文原文. 论文标题:MFAN: Multi-modal Feature-enhanced Attention Networks for ...

最新文章

  1. SAP BAPI的一些初级资料
  2. 关于FastStone Capture for Windows在Windows10英文系统下的中文乱码问题
  3. Preparing Cities for Robot Cars【城市准备迎接自动驾驶汽车】
  4. 【C++进阶】利用重载二元运算符改进平面向量类Vec2D
  5. 排序——宇宙总统(洛谷 P1781)
  6. 工具组件_从零认知BI: BI组件、架构、工具、优势、缺点
  7. python字典的基本操作编程_Python入门教程5. 字典基本操作【定义、运算、常用函数】 原创...
  8. java利用poi为excel添加图片水印
  9. 剑侠世界手游服务器维护公告,剑侠世界手游公告_剑侠世界手游开服公告_更新公告_安趣网...
  10. 如何申请免费的企业邮箱
  11. ppt如何替换其他mo ban_一次性解决PPT初学者的20个常见问题,赶紧收藏
  12. 快应用中实现自定义抽屉组件
  13. 跨国族群布里亚特的特殊“年味儿”
  14. 前端开发框架:Ajax的基本入门和使用。
  15. 国外B端竞品调研网站一网打尽
  16. Spring源码系列- Spring Beans - 核心类的基本介绍
  17. 蓝桥杯 历届试题 地库取宝(深搜 dfs)----------C语言—菜鸟级
  18. LifeKeeper 6.0 for Windows
  19. 2018年,中国顶尖名校毕业生都去哪儿了?
  20. 二叉树节点和度的关系及特点

热门文章

  1. python读取dat数据_dat文件读写_c语言读写dat文件_c语言读dat文件 - 云+社区 - 腾讯云...
  2. 作为开发用的GUI音频处理软件推荐--wavosaur
  3. Vue实现搜索关键字标红高亮加粗
  4. 怎么用ai做出适量插画_AI怎么画矢量插画? ai手绘插画的教程
  5. 愚人节 整人程序 by wy811007
  6. 2017年4月24号课堂笔记
  7. 主流平面设计软件推荐,实用工具推荐必坑指南!
  8. Python Tkinter模块详解(后续持续补充)
  9. php安全新闻早八点-Microdoor-第二季
  10. 游戏中的事件管理--观察者模式的解读