梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

在视觉任务上,CNN、ViT各有各的优势和劣势。

于是,以经典Backbone为基础、细节上相互借鉴,成了最近一个热门研究方向。

前有微软SwinTransformer引入CNN的滑动窗口等特性,刷榜下游任务并获马尔奖。

后有Meta AI的ConvNeXT用ViT上的大量技巧魔改ResNet后实现性能反超。

现在一种全新Backbone——VAN(Visiual Attention Network, 视觉注意力网络)再次引起学界关注。

因为新模型再一次刷榜三大视觉任务,把上面那两位又都给比下去了。

VAN号称同时吸收了CNN和ViT的优势且简单高效,精度更高的同时参数量和计算量还更小。

VAN来自清华计图胡事民团队,他们提出一个标准大核卷积可以拆解成三部分

深度卷积(DW-Conv)、深度扩张卷积(DW-D-Conv)和1 × 1卷积(1 × 1 Conv)。

更关键的是,再加上一步element-wise相乘可以获得类似注意力的效果,团队把新的卷积模块命名为大核注意力LKA(Large Kernel Attention)

论文最后还提到,现在的VAN只是一个直觉的原始版本、没有仔细打磨,也就是说后续还有很大提升潜力。

(代码已开源,地址在文末)

拆解大核卷积能算注意力

注意力机制,可以理解为一种自适应选择过程,能根据输入辨别出关键特征并自动忽略噪声。

关键步骤是学习输入数据的长距离依赖,生成注意力图

有两种常用方法来生成注意图。

第一种是从NLP来的自注意力机制,但用在视觉上还有一些不足,比如把图像转换为一维序列会忽略其二维结构。

第二种是视觉上的大核卷积方法,但计算开销又太大。

为克服上面的问题,团队提出的LKA方法把大核卷积拆解成三部分。

设扩张间隔为d,一个K x K的卷积可以拆解成K/d x K/d的深度扩张卷积,一个(2d − 1) × (2d − 1)的深度卷积核一个1 x 1的point-wise卷积。

c为通道(channel)

这样做,在捕捉到长距离依赖的同时节省了计算开销,进一步可以生成注意力图。

LKA方法不仅综合了卷积和自注意力的优势,还额外获得了通道适应性。

在CNN里,LKA方法与MobileNet的两部分拆解法类似,增加的深度扩张卷积可以捕获长距离依赖。

与ViT相比,解决了自注意力的二次复杂度对高分辨率图像计算代价太大的问题,

MLP架构中的gMLP也引入了注意力机制,但只能处理固定分辨率的图像,且只关注了全局特征,忽略了图像的局部结构。

从理论上来说,LKA方法综合了各方优势,同时克服了上述缺点。

那么,实际效果如何?

新Backbone刷榜三大任务

根据LKA方法设计的新Backbone网络VAN,延续了经典的四阶段设计,具体配置如下。

每个阶段的结构如图所示,其中下采样率由步长控制,CFF代表卷积前馈网络( convolutional feed-forward network)

假输入和输出拥有相等的宽高和通道数,可以算出计算复杂性。

其中当卷积核大小(K)为21时,扩张间隔(d)取3可以让参数量最小,便以此为默认配置。

团队认为按此配置对于全局特征和局部特征的提取效果都比较理想。

最终,在ImageNet上不同规模的VAN精度都超过了各类CNN、ViT和MLP。

在COCO 2017目标检测任务上,以VAN为Backbone应用多种检测方法也都领先。

ADE20K语意分割任务上同样如此。

而且正如前文所述,VAN未经仔细打磨就已刷榜三大任务,后续还有提升空间。

对于今后的改进方向,团队表示可能会尝试更大的卷积核,引入来自Res2Net的多尺度结构,或者Inception中的多分支结构

另外用VAN做图像自监督学习和迁移学习,甚至能否做NLP都有待后续探索。

作者介绍

这篇论文来自清华大学计算机系胡事民团队。

胡事民教授是清华计图框架团队的负责人,计图框架则是首个由中国高校开源的深度学习框架。

一作博士生国孟昊,现就读于清华大学计算机系,也是计图团队的成员。

这次论文的代码已经开源,并且提供了Pytorch版和计图框架两种版本。

该团队之前有一篇视觉注意力的综述,还成了arXiv上的爆款

配套的GitHub仓库视觉注意力论文大合集Awesome-Vision-Attentions也有1.2k星。

最后八卦一下,莫非是团队研究遍了各种视觉注意力机制后,碰撞出这个新的思路?

也是666了。

论文地址:
https://arxiv.org/abs/2202.09741

GitHub地址:
https://github.com/Visual-Attention-Network

Awesome-Vision-Attentions
https://github.com/MenghaoGuo/Awesome-Vision-Attentions

把大核卷积拆成三步,清华胡事民团队新视觉Backbone刷榜了,集CNN与ViT优点于一身...相关推荐

  1. 将大核卷积分三步,清华胡事民、南开程明明团队全新视觉骨干VAN,超越SOTA ViT和CNN...

    来源:机器之心 来自清华大学和南开大学的研究者提出了一种新型大核注意力(large kernel attention,LKA)模块,并在 LKA 的基础上构建了一种性能超越 SOTA 视觉 trans ...

  2. arXiv爆款:想了解Attention就看它!清华计图胡事民团队出品

    博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI 清华计图胡事民团队的这篇注意力机制的综述火了! 在上周的arXiv上,这是最热的一篇论文: 推特以及GitHub上也有不低的热度: 而这篇论 ...

  3. 南大周志华清华胡事民入围院士候选!计算机领域共计7人

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI 2021 ...

  4. 2021中科院院士候选名单出炉:清华胡事民、南大周志华等人在列

    8 月 1 日,中国科学院公布了 2021 年院士增选的初步候选人名单,清华大学计算机科学与技术系教授胡事民.南京大学人工智能学院院长周志华等 191 人进入了该名单. 这份名单分为数学物理.化学.生 ...

  5. 清华大学胡事民是计算机视觉,清华团队将Transformer用到3D点云分割上后,效果好极了丨开源...

    萧箫 发自 凹非寺量子位 报道 | 公众号 QbitAI 当Transformer遇上3D点云,效果会怎么样? 一个是当下最热门的模型(NLP.图像领域表现都不错),另一个是自动驾驶领域.机器人抓取等 ...

  6. 清华大学胡事民是计算机视觉,ResNet也能用在3D模型上了,清华「计图」团队新研究已开源...

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 用AI处理二维图像,离不开卷积神经网络(CNN)这个地基. 不过,面对三维模型,CNN就没有那么得劲了. 主要原因是,3D模型通常采用网格数 ...

  7. 清华大学胡事民是计算机视觉,ResNet也能用在3D模型上了,清华“计图”团队新研究已开源...

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 用AI处理二维图像,离不开卷积神经网络(CNN)这个地基. 不过,面对三维模型,CNN就没有那么得劲了. 主要原因是,3D模型通常采用网格数 ...

  8. 计算机图形学 opengl版本 第三版------胡事民 第四章 图形学中的向量工具

    计算机图形学 opengl版本 第三版------胡事民 第四章  图形学中的向量工具 一   基础 1:向量分析和变换   两个工具  可以设计出各种几何对象 点和向量基于坐标系定义 拇指指向z轴正 ...

  9. Vue 服务端渲染原理 拆分成三步个步骤简单的实现一个案例

    前言 可能我们平常接触比较多的是使用 vue + vue全家桶来搭建起一个单页(SPA)应用.用 服务端渲染 搭建项目比较少,本文是记录我在学习 服务端渲染 过程中的一些见解,如有出错或疏漏,麻烦帮忙 ...

最新文章

  1. 遍历Treeview每个节点并初始化(C#)
  2. protected private public
  3. PHP的simplexml_load_file
  4. python打怪之路【第二篇】:ImportError: No module named setuptools
  5. mysql safe无法启动_(转)mysqld_safe无法启动的解决办法
  6. kafka监控之kafka-run-class.sh
  7. VBA代码宝(列表框)20220402
  8. Mac 安装7z解压工具
  9. Zhong__交换机各种情况下端口快速启动方法
  10. 管理后台布局-左菜单-右侧内容宽度控制(使用ant design vue)
  11. 《软件工程》第4章需求工程
  12. raid5数据丢失后应该怎么做才能提高数据恢复成功率?
  13. 怎样调研一个公司的各项数据?
  14. LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking(论文翻译)
  15. Unity 3D建筑内部第一人称漫游,房间切换漫游
  16. 通过手机安装 AndFTP 应用访问计算机FTP服务器
  17. 微信小程序相机组件wx.createCameraContext()的使用模拟微信拍照-后端为nodejs
  18. 巨一自动化工业机器人_【巨一自动化装备公司工业机器人调试工程师面试】两个人面试的,科长和经理。-看准网...
  19. php 扩展 xhprof,php xhprof 扩展的使用
  20. si5351使用记录

热门文章

  1. 关于mybatis的xml文件中使用 >= 或者 <= 号报错的解决方案
  2. jQuery是否可以获取与元素关联的所有CSS样式?
  3. maven 引入本地 jar
  4. iOS Swift UISearchController的取消按钮
  5. socket.io的 Python客户端中文encode问题
  6. 启用事务操作,解决批量插入或更新sqlite,mssql等数据库耗时问题
  7. Android面试题大集合
  8. 学习编写用例是开发者走向项目经理的必经之路(《编写有效用例》书评) ——“Jolt大奖精选丛书”有奖征文...
  9. oracle 回滚段介绍(三)
  10. 全国信息化工程师院校IT双证书职业课程认证