新Attention | NAM,一种新的注意力计算方式,无需额外的参数
每天给你送来NLP技术干货!
来自:AI公园
作者:ronghuaiyang
导读
本文介绍了一种新的计算注意力的方式,相比于之前的注意力机制,无需额外的全连接,卷积等额外的计算和参数,直接使用BN中的缩放因此来计算注意力权重,并通过增加正则化项来进一步抑制不显著的特征。
代码:https://github.com/Christian-lyc/NAM
论文:https://arxiv.org/abs/2111.12419
摘要:本文提出一种基于归一化的注意力模块(NAM),可以降低不太显著的特征的权重,这种方式在注意力模块上应用了稀疏的权重惩罚,这使得这些权重在计算上更加高效,同时能够保持同样的性能。我们在ResNet和MobileNet上和其他的注意力方式进行了对比,我们的方法可以达到更高的准确率。
1、介绍
注意力机制在近年来大热,注意力机制可以帮助神经网络抑制通道中或者是空间中不太显著的特征。之前的很多的研究聚焦于如何通过注意力算子来获取显著性的特征。这些方法成功的发现了特征的不同维度之间的互信息量。但是,缺乏对权值的贡献因子的考虑,而这个贡献因子可以进一步的抑制不显著的特征。因此,我们瞄准了利用权值的贡献因子来提升注意力的效果。我们使用了Batch Normalization的缩放因子来表示权值的重要程度。这样可以避免如SE,BAM和CBAM一样增加全连接层和卷积层。这样,我们提出了一个新的注意力方式:基于归一化的注意力(NAM)。
2、方法
我们提出的NAM是一种轻量级的高效的注意力机制,我们采用了CBAM的模块集成方式,重新设计了通道注意力和空间注意力子模块,这样,NAM可以嵌入到每个网络block的最后。对于残差网络,可以嵌入到残差结构的最后。对于通道注意力子模块,我们使用了Batch Normalization中的缩放因子,如式子(1),缩放因子反映出各个通道的变化的大小,也表示了该通道的重要性。为什么这么说呢,可以这样理解,缩放因子即BN中的方差,方差越大表示该通道变化的越厉害,那么该通道中包含的信息会越丰富,重要性也越大,而那些变化不大的通道,信息单一,重要性小。
因此,通道注意力子模块如图1,式(2),用表示最后得到的输出特征,γ是每个通道的缩放因子,因此,每个通道的权值可以得到,如果对空间中的每个像素使用同样的归一化方法,就可以得到空间注意力的权重,式(3),就叫做像素归一化。像素注意力见图2,输出为。
为了抑制不重要的特征,我们在损失函数中加入了一个正则化项,如(4)式,
3、实验
我们将NAM和SE,BAM,CBAM,TAM在ResNet和MobileNet上,在CIFAR100数据集和ImageNet数据集上进行了对比,我们对每种注意力机制都使用了同样的预处理和训练方式,对比结果表示,在CIFAR100上,单独使用NAM的通道注意力或者空间注意力就可以达到超越其他方式的效果。在ImageNet上,同时使用NAM的通道注意力和空间注意力可以达到超越其他方法的效果。
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
记得备注呦
整理不易,还望给个在看!
新Attention | NAM,一种新的注意力计算方式,无需额外的参数相关推荐
- NAM: Normalization-based Attention Module,一种新的注意力计算方式,无需额外的参数...
点击上方"AI公园",关注公众号,选择加"星标"或"置顶" 导读 本文介绍了一种新的计算注意力的方式,相比于之前的注意力机制,无需额外的全连 ...
- python编程工时计算公式_工作日、工作小时的一种非常简单的计算方式
一.需要解决的问题 有些业务流程复杂,环节多样.为了看清整个业务的进展,往往需要对各个环节设定预计完成时间开销,然后在用这个是时间去考核实际业务开展的效率. 业务环节不同,往往设定的预计完成时间开销也 ...
- java go md5_Go语言中三种不同md5计算方式的性能比较
前言 本文主要介绍的是三种不同的 md5 计算方式,其实区别是读文件的不同,也就是磁盘 I/O, 所以也可以举一反三用在网络 I/O 上.下面来一起看看吧. ReadFile 先看第一种, 简单粗暴: ...
- Transformer新内核Synthesizer:低复杂度的attention代替点乘式的注意力机制
论文链接:https://arxiv.org/pdf/2005.00743.pdf 参考文档:https://mp.weixin.qq.com/s/e2Cor8amz7GiFfBGdLXULg 导读 ...
- 【CVPR 2020】一种新的门控通道注意力转换单元
的点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 [导读]今天给大家推荐一篇百度联合Syndney在CVPR2020上发表的关于Attenti ...
- 一种新的基于时空图神经网络的交通流预测模型
1.文章信息 <Traffic Flow Prediction via Spatial Temporal Graph Neural Network>.这是北京交通大学发在国际顶级会议WWW ...
- ResNet超强变体CoTNet!一种新的Transformer计算机视觉模块!
点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:Sophia知乎 https://zhuanlan.zhihu.com/p/400411057 AI博士笔记系 ...
- 新研究起底人类和机器注意力机制的区别|一周AI最火论文
大数据文摘专栏作品 作者:Christopher Dossman 编译:笪洁琼.conrad.云舟 呜啦啦啦啦啦啦啦大家好,拖更的AIScholar Weekly栏目又和大家见面啦! AI Schol ...
- 【NLP】五万字综述!Prompt Tuning:深度解读一种新的微调范式
作者 | 王嘉宁 整理 | NewBeeNLP https://wjn1996.blog.csdn.net/article/details/120607050 这绝对是我看过最全面细致的Prompt ...
- Prompt-Tuning——深度解读一种新的微调范式
Prompt-Tuning--深度解读一种全新的微调范式 作者:王嘉宁 邮箱:lygwjn@126.com 本博客针对Prompt进行的综述博客,暂时为半成品,持续更新中,也欢迎读者参与编辑和投稿, ...
最新文章
- 愤怒的小鸟【$DP$优化】
- %matplotlib inline 是什么意思
- Send data format set as XML
- 利用github page搭建博客
- 给你安利一款国产良心软件uTools
- 8086CPU的寄存器
- 《OD大数据实战》MapReduce实战
- TortoiseGit使用入门
- Material Design使用集合
- Matlab程序接口应用总结
- vs2017 社区版在不联网的电脑上注册方法
- 国外浏览器无法访问apple ID页面,显示502 Bad Gateway,解决方法
- 淘宝获取sku详细信息
- 如何查看PostgreSQL数据库的版本
- iOS远程推送原理及实现过程
- C语言实现RGB888转BMP格式图片功能
- LS1028 使用serdes mode 99BB软件修改方案
- 按键精灵使用脚本编写测试Android入门与实战
- SparkSQL(一):概述
- android 源码结构