动机

卷积操作具有两个显著特性,即spatial-agnostic和channel-specific。

  1. spatial-agnostic:图像所有位置都使用同一个卷积核,实现了平移不变性。但它剥夺了卷积核在不同空间位置采用不同视觉模式的能力,从而限制了卷积核提取特征的的能力。此外,它还限制了卷积的感受野,对识别小目标或者模糊图像构成了挑战。

  2. channel-specific:每个channel都提取不同类型的特征,产生了数据冗余。这使得卷积核对于不同通道的灵活性受到限制。

方法

提出了Involution卷积(如上图所示),可构建用于构建新型的神经网络架构。提出的Involution结构与普通卷积完全相反。具有Spatial-Specific和Channel-Agnostic两个对称反向特性。具体地说,Involution核在空间范围上是不同的,但在通道上是共享的。由于Involution核的空间特性,如果将其参数化为Involution核等固定大小的矩阵,并使用反向传播算法进行更新,则会阻碍学习到的对Involution核在不同分辨率的输入图像之间的传输。在处理可变特征分辨率的最后,属于特定空间位置的Involution核可能仅在对应位置本身的传入特征向量的条件下作为实例生成。此外,还通过在通道维数上共享Involution核来减少核的冗余。

具体来说,Involution核是专门为对应坐标位置的像素定制的,但在通道上共享。以一个滑动窗口的方式对输入特征映射进行乘加运算,得到Involution的输出特征映射。与卷积核不同,Involution核的形状取决于输入特征映射的形状。想法是生成以原始输入张量为条件的Involution核,使输出核与输入核对齐。

Involution核以单个像素为条件的函数产生的。一个像素的通道维上的信息编码在核生成步骤中隐性地分散到其空间附近,然后利用大量动态的involution核来收集丰富的感受野中的信息。线性变换被穿插用于通道信息交换。

对于每个Involution核,2个线性变换共同构成bottleneck结构,中间通道维数由降阶比控制,以便有效处理。然后对2个线性变换做非线性激活,并做批处理归一化。在做Channel到Spatial的重排后,将Involution的乘加运算分解为2个步骤,即跨C个信道传播的乘法运算和在空间邻域内聚合的求和运算。

本文提出的Involution本质上可以成为Self-Attention的一般化表达。通过计算Query与Value的对应关系Q和K得到的关联度,得到Self-Attention pool Value。相似之处在于,这2种操作都通过加权和来收集邻域或较小范围内的像素。一方面,Involution的计算机制可以看作是空间域上的一种注意力集中。另一方面,Attention Map,或者说Self-Attention中的affinity矩阵 ,可以看作是一种Involution核。

在ResNet的主干和主干的所有bottleneck位置上使用Involution替换掉了3×3卷积,但保留了所有的1×1卷积用于通道映射和融合。这些精心重新设计的实体联合起来,形成了一种新的高效主干网络,称为RedNet。

实验细节

所有的网络模型都是用PyTorch库实现的。

实验证明,对于目标分类,在ImageNet训练集上从头开始做主干训练,RedNet与现有的SOTA模型相比,获得了更好的参数、更高的精度;对于目标检测,在COCO 2017上进行测试,RedNet作为Backbone的检测框架,不管是RetinaNet、Faster R-CNN还是Mask R-CNN都可以在参数量下降的情况下,还取得了明显的AP提升;对于语义分割,在在Cityscapes数据集上进行测试,RedNet在参数量下降的情况下,还取得了2.4的mIoU提升。

结论

1、重新思考卷积与空间和通道范围有关的内在原理。这一思考促使其提出使用其他具有辨别能力和表达能力的潜在算子作为视觉识别的替代,突破了卷积现有的归纳偏见。

2、将把Self-Attention融入视觉表征的学习过程。在此背景下,关系建模中对像素对的组合要求受到了挑战。此外,统一了Self-Attention和卷积的观点。

3、Involution驱动的体系结构的泛化能力强,在图像分类、目标检测、实例分割和语义分割等一系列视觉任务中都有很好的应用,比基于卷积的方法具有更好的性能。

CVPR 2021 Involution: Inverting the Inherence of Convolution for Visual Recognition相关推荐

  1. CVPR 2021 | Involution:超越 Convolution 和 Self-attention 的神经网络新算子

    本文是对我们CVPR 2021被接收的文章 Involution: Inverting the Inherence of Convolution for Visual Recognition的解读,同 ...

  2. CVPR 2021 | Involution:超越卷积和自注意力的神经网络新算子

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文作者: 李铎  |  本文系作者投稿 https://zhuanlan.zhihu.com/p/3581 ...

  3. CVPR 2021 involution:超越convolution和self-attention的神经网络新算子

    1 原理 1.1 普通卷积 空间不变性:卷积核大小为Co×Ci×K×KC_o \times C_i \times K \times KCo​×Ci​×K×K,其中CoC_oCo​和CiC_iCi​分别 ...

  4. CVPR'21 | Involution:超越convolution和self-attention的神经网络新算子

    进入公众号,在消息对话框 回复[CVPR2021]即可获取CVPR2021最新论文集 来源:我爱计算机视觉 本文是对我们CVPR 2021被接收的文章 Involution: Inverting th ...

  5. CVPR‘21 | Involution:超越convolution和self-attention的神经网络新算子

    本文是对我们CVPR 2021被接收的文章 Involution: Inverting the Inherence of Convolution for Visual Recognition的解读,同 ...

  6. CVPR 2021 | 真内卷!Involution:构建新一代视觉识别网络

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文转载自:AI人工智能初学者   |  作者:ChaucerG Involution: Inverting ...

  7. Involution:空间不共享?可完全替代卷积的高性能算子 | CVPR 2021

    其实这篇文章很早就写好了,但作者其它论文涉及到洗稿问题,所以先放着了.目前看这篇文章没被举报有洗稿的嫌疑,所以就发出来了 . 来源:晓飞的算法工程笔记 公众号 论文: Involution: Inve ...

  8. CVPR 2021 论文和开源项目合集(Papers with Code)

    摘自:https://github.com/amusi/CVPR2021-Papers-with-Code CVPR 2021 论文和开源项目合集 CVPR 2021 论文和开源项目合集(Papers ...

  9. 字节跳动多篇论文入选 CVPR 2021,精选干货都在这里了

    CVPR 2021,近期刚刚落下帷幕. 作为计算机视觉领域三大顶级学术会议之一,CVPR每年都吸引了各大高校.科研机构与科技公司的论文投稿,许多重要的计算机视觉技术成果都在CVPR上中选发布. 今天, ...

  10. 【Whalepaper】CV论文研读 - Involution内卷:超越Convolution的新算子

    Whalepaper是由周郴莲负责的一个每周分享论文的活动,带你研读AI领域的论文,快来一起开源学术科研吧! NLP 论文分享:每周日 晚上 九点 CV 论文分享: 每周日 晚上 九点 Res 论文分 ...

最新文章

  1. python核心装饰_Python核心编程 | 装饰器
  2. RedHat7/CentOS7 压缩解压命令汇总
  3. kingshard--一个支持sharding的MySQL Proxy项目
  4. java 索取了多表联合查询分页,mybatis-plus多表联合分页查询
  5. linux server文件,linux两台server远程copy文件
  6. excel如何把顺序倒过来_Excel 中的计算运算符和优先顺序级别
  7. 在anaconda中运行jupyter notebook,无法自动打开浏览器的解决方案,亲测100%有效
  8. Riot - 比 Facebook React 更轻量的 UI 库
  9. mysql 多条记录选择一套_2020-11-09-Mysql(练习题第一套)
  10. 和佳股份有没有纳米机器人_新高赛复赛入围项目(49)一种纳米硅质绝热材料及其制备方法...
  11. js深拷贝和浅拷贝对数组的影响_javascript之浅拷贝与深拷贝
  12. Git 更安全的强制推送,--force-with-lease
  13. css几个居中的方法
  14. java 任务链模式,flink部署运行架构
  15. dota英雄装备攻略,最全的英雄出装攻略介绍
  16. 在matlab中syms是什么,syms在matlab中的作用是什么
  17. python图片旋转脚本_封装了深度学习中几个图片数据增强的脚本-python平移、旋转与调整大小...
  18. 一个简单的PHP笔试题
  19. MyCobot六轴机械臂开箱及开发前的准备工作(一)
  20. uniapp微信小程序项目-优购商城

热门文章

  1. es数据定时清理_elasticsearch索引自动清理
  2. 【北京迅为】i.MX6ULL终结者硬件资源说明
  3. android怎样开启root权限管理,手机怎样开启root权限(最新安卓手机一键root教程)...
  4. silktest 破解 转帖未验证
  5. WPF实现截图功能——WPF制作文字OCR软件(三)
  6. 基于UP30飞控系统的无人机地面站航线规划方法
  7. Context-Aware Patch Generation for Better Automated Program Repair -上下文感知补丁生成更好的自动化程序修复
  8. 微信文章编辑的html在哪里,微信公众号的文章编辑界面在哪里?怎么编辑排版? | 微信公众号指南...
  9. 面试常见逻辑题小整理
  10. [MATLAB]--曲线拟合(polyfit/polyval)