到底有多火?三家单位争抢发布,谷歌、清华、牛津同时提超越注意力的新机制...
5月4日,谷歌团队在arXiv上提交了一篇论文“MLP-Mixer: An all-MLP Architecture for Vision”[1],引起了广大计算机视觉的研究人员的热烈讨论,MLP究竟有多大的潜力?
5月5日,清华大学图形学实验室Jittor团队在arXiv上提交论文“Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks”[2], 提出了一种新的注意机制,称之为“External Attention”,基于两个外部的、小的、可学习的和共享的存储器,只用两个级联的线性层和归一化层就可以取代了现有流行的学习架构中的“Self-attention”,揭示了线性层和注意力机制之间的关系。
同日,清华大学软件学院丁贵广团队在arXiv上提交了论文“RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition”[3],展示了结合重参数化技术的MLP也取得了非常不错的效果。
5月6日牛津大学的学者提交了一篇名为"Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet"的论文[4],也提出了Transformer中的attention是不必要的,仅仅使用Feed forward就可以在ImageNet上实现非常高的结果。
Part1
从Self-attention到External-attention
自注意力机制在自然语言处理和计算机视觉领域中起到了越来越重要的作用。对于输入的Nxd维空间的特征向量F,自注意力机制使用基于自身线性变换的Query,Key和Value特征去计算自身样本内的注意力,并据此更新特征:
由于QKV是F的线性变换,简单起见,我们可以将自注意力计算公式简记如下:
这是 F 对 F 的注意力,也就是所谓的 Self-attention。如果希望注意力机制可以考虑到来自其他样本的影响,那么就需要一个所有样本共享的特征。为此,我们引入一个外部的Sxd维空间的记忆单元M,来刻画所有样本最本质的特征,并用M来表示输入特征。
我们称这种新的注意力机制为External-attention。我们可以发现,公式(5)(6)中的计算主要是矩阵乘法,就是常见的线性变换,一个自注意力机制就这样被两层线性层和归一化层代替了。我们还使用了之前工作[5]中提出的Norm方式来避免某一个特征向量的过大而引起的注意力失效问题。
为了增强External-attention的表达能力,与自注意力机制类似,我们采用两个不同的记忆单元。
下图形象地展示了External-attention与Self-attention的区别。
图1 Self Attention和External Attention的区别
Part2
为什么两层线性层可以超越Self-attention?
自注意力机制一个明显的缺陷在于计算量非常大,存在一定的计算冗余。通过控制记忆单元的大小,External-attention可以轻松实现线性的复杂度。
其次,自注意力机制仅利用了自身样本内的信息,忽略了不同样本之间的潜在的联系,而这种联系在计算机视觉中是有意义的。打个比方,对于语义分割任务,不同样本中的相同类别的物体应该具有相似的特征。
External-attention通过引入两个外部记忆单元,隐式地学习了整个数据集的特征。这种思想同样在稀疏编码和字典学习中得到了应用。
计图团队在Pascal VOC 的Test set上,可视化了注意力图以及分割的结果,如图2所示,可以发现,使用两层线性层的External attention 的注意力图是合理的。
图2 注意力图以及分割的结果的可视化
Part3
从实验看External Attention的效果
为了证明方法的通用性,我们在图像分类、分割、生成以及点云的分类和分割上均做了实验,证明了方法的有效性,External-attention在大大减少计算量的同时,可以取得与目前最先进方法相当,甚至更好的结果。
1. 图像分类
2. 图像语义分割(三个数据集上)
3. 图像生成
4. 点云分类
5. 点云分割
Part4
External Attention VS MLP-Mixer
谷歌的工作提出了一种小巧且好用的Mixer-Layer,然后用极其丰富的实验,证明了仅仅通过简单的图像分块和线性层的堆叠就可以实现非常好的性能,开拓了人们的想象。
清华的External Attention则揭示了线性层和注意力机制之间的内在关联,证明了线性变换其实是一种特殊形式的注意力实现,如下公式所示:
Attention(x)=Linear(Norm(Linear(x)))
计图团队的工作和谷歌团队的工作都证明了线性层的有效性。值得注意的是,如果将External-attention不断级联堆叠起来,也是MLP的形式,就可以实现一个纯MLP的网络结构,但External-attention使用不同的归一化层,其更符合注意力机制。这与谷歌团队的工作有异曲同工之妙。
清华的External Attention的部分计图代码已经在Github开源。
https://github.com/MenghaoGuo/-EANet
后续将尽快开源全部计图代码。
参考文献
1. Tolstikhin et al., MLP-Mixer:An all-MLP Architecture forVision,
https://arxiv.org/abs/2105.01601
2. Guo et al. Beyond Self-attention: External Attentionusing Two Linear Layers for Visual Tasks,
https://arxiv.org/abs/2105.02358
3. Ding et al., RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition,
https://arxiv.org/abs/2105.01883
4. Luke Melas-Kyriazi, Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet,
https://arxiv.org/abs/2105.02723
5. Guo et al. PCT: Point cloud transformer. Computational Visual Media, 7(2), 187–199 (2021).
扫码加入智源社区-计算机视觉群,参与更多 CV 研究和进展讨论
到底有多火?三家单位争抢发布,谷歌、清华、牛津同时提超越注意力的新机制...相关推荐
- 三家权威机构联合发布2017中国软件行业基准数据
工业和信息化部电子工业标准化研究院.北京软件造价评估技术创新联盟.北京软件和信息服务交易所三家机构联合发布了目前国内最权威的"2017年中国软件行业基准数据",发布仪式在2017年 ...
- 3G到底有多快 三家运营商3G网速大比拼
先有视频通话的体验,后有高速上网的诱惑.如今,三大3G技术标准将全面起跑.可是,各方关于3G高速的宣传尽管铺天盖地,有说测试速度已经达到15Mbps的,有声称速度达到7.2Mbps的,但普通消费者还是 ...
- Mol Plant | 多家单位联合发布小麦组学大数据可视化和在线分析平台WheatOmics
随着小麦模式品种"中国春"的参考基因组以及不同倍性.不同品种小麦基因组/泛基因组的陆续发布,小麦研究业已进入了后基因组大数据时代.与此同时,基于外显子测序.基因组重测序.SNP芯片 ...
- 佐客牛排机器人餐厅_2018年中国最火的三家餐厅!秘密竟是机器人服务员?
原标题:2018年中国最火的三家餐厅!秘密竟是机器人服务员? 智东西(公众号:zhidxcom) 文|轩窗 在CES2019上,智东西看到了不少机器人玩家推出了配送机器人.而在刚刚过去的2018年,配 ...
- 南宁有几家机器人餐厅_全年最火的三家餐厅!秘密竟是机器人服务员
智东西(公众号:zhidxcom) 文 | 轩窗 在CES 2019上,智东西看到了不少机器人玩家推出了配送机器人.而在刚刚过去的2018年,配送机器人应用就已经开始逐渐开花. 2018年下半年分别坐 ...
- 为什么考研报名显示服务器错误,考研到底有多火?2021年考研预报名第一天,服务器出现“故障”...
文/郝老师聊教育 根据数据显示,2019年考研的报考人数达到290万人左右,都说"考研本身就是一个痛苦而又寂寞的过程",但为什么报考的人数又如此之多呢? 随着我国社会的不断发展,参 ...
- 阿里巴巴一年投三家AR公司,AR购物或是最终目标
阿里巴巴再投资AR公司,一年连续投资超2.2亿美元,它到底想要做什么? 最近,以色列AR眼镜厂商Lumus获得来自阿里巴巴的600万美元的投资.此前,镁客网报道过这家公司在去年12月份获得由广达电脑. ...
- 400多家单位、30余万科研人员,10多年奋斗!北斗卫星核心器件实现100%国产!(附:北斗研发建设历程)...
来源:EETOP 国务院新闻办公室8月3日上午10时举行新闻发布会,中国卫星导航系统管理办公室主任.北斗卫星导航系统新闻发言人冉承其介绍,工程建设提前半年完成,彰显中国速度."北斗三号200 ...
- 你们都在吐槽的华为“浴霸”被这三家拿去用了...
自华为手机使用"浴霸"造型的摄像头后,在吐槽声不断情况下,"浴霸"造型竟然开始流行起来,目前看来,已经被三家拿去用了. 第一个,当然是让人怀疑设计师罢工的苹果. ...
最新文章
- codeforces-1132 (div2)
- go var type 互转_Go语言学习笔记(第九章) 结构体
- jupyter !wget 等系统命令使用技巧
- 汽车全景标定(拼接)效果的检验方法
- Linux备份检查工具,6种优化Linux系统备份的应用与技巧
- JavaWeb:脚本标识
- c++命名空间---namespace
- 分库分表解决方案之MyCat
- 用nohup重定向python输出到文件不成功的解决办法
- Eclipse 基于接口编程的时候,快速跳转到实现类的方法(图文)
- [转][Python小记] 通俗的理解闭包 闭包能帮我们做什么?
- 湖南2021年高考成绩查询与录取查询课件,@所有高考生,高考成绩和录取动态查询方式公布...
- 基于Pairwise排序学习的因子分解推荐算法
- UILabel根据内容自动调整高度
- IBM将花2.5亿收购第二家以色列移动软件开发商
- 【jQuery】货币格式化
- Windows 10 微软官方下载工具
- Win7环境下MSCOMM32.OCX控件的使用
- arm汇编lr pc b bl ret指令函数调用和返回gif动图演示
- f5 gtm 工作原理_F5基本模块架构
热门文章
- jsecharts如何改变占比_echarts.js多图表数据展示使用小结_蓝戒的博客
- biopython安装_BioPython的安装和使用
- php barcode_php生成条形码
- 鸿蒙系统开发者公测,公测尝鲜开启!华为Mate40/P40开始和安卓渐行渐远
- hexo 搜索_Hexo--本地搜索localsearch之url路径问题
- PTA 基础编程题目集 7-33 有理数加法 C语言
- 求5个学生4门成绩的总分和平均分
- js等待 callback 执行完毕_前端开发,一篇文章让你彻底搞懂,什么是JavaScript执行机制!...
- 计算机音乐是哪一个,哪种软件适合音乐编辑的计算机版本?
- 如何查看别人公众号自定义菜单的功能_如何注册自己的个人公众号?手把手教您开启自媒体赚钱之路?...