CVPR 2021 Involution: Inverting the Inherence of Convolution for Visual Recognition

动机

卷积操作具有两个显著特性，即spatial-agnostic和channel-specific。

spatial-agnostic：图像所有位置都使用同一个卷积核，实现了平移不变性。但它剥夺了卷积核在不同空间位置采用不同视觉模式的能力，从而限制了卷积核提取特征的的能力。此外，它还限制了卷积的感受野，对识别小目标或者模糊图像构成了挑战。
channel-specific：每个channel都提取不同类型的特征，产生了数据冗余。这使得卷积核对于不同通道的灵活性受到限制。

方法

提出了Involution卷积（如上图所示），可构建用于构建新型的神经网络架构。提出的Involution结构与普通卷积完全相反。具有Spatial-Specific和Channel-Agnostic两个对称反向特性。具体地说，Involution核在空间范围上是不同的，但在通道上是共享的。由于Involution核的空间特性，如果将其参数化为Involution核等固定大小的矩阵，并使用反向传播算法进行更新，则会阻碍学习到的对Involution核在不同分辨率的输入图像之间的传输。在处理可变特征分辨率的最后，属于特定空间位置的Involution核可能仅在对应位置本身的传入特征向量的条件下作为实例生成。此外，还通过在通道维数上共享Involution核来减少核的冗余。

具体来说，Involution核是专门为对应坐标位置的像素定制的，但在通道上共享。以一个滑动窗口的方式对输入特征映射进行乘加运算，得到Involution的输出特征映射。与卷积核不同，Involution核的形状取决于输入特征映射的形状。想法是生成以原始输入张量为条件的Involution核，使输出核与输入核对齐。

Involution核以单个像素为条件的函数产生的。一个像素的通道维上的信息编码在核生成步骤中隐性地分散到其空间附近，然后利用大量动态的involution核来收集丰富的感受野中的信息。线性变换被穿插用于通道信息交换。

对于每个Involution核，2个线性变换共同构成bottleneck结构，中间通道维数由降阶比控制，以便有效处理。然后对2个线性变换做非线性激活，并做批处理归一化。在做Channel到Spatial的重排后，将Involution的乘加运算分解为2个步骤，即跨C个信道传播的乘法运算和在空间邻域内聚合的求和运算。

本文提出的Involution本质上可以成为Self-Attention的一般化表达。通过计算Query与Value的对应关系Q和K得到的关联度，得到Self-Attention pool Value。相似之处在于，这2种操作都通过加权和来收集邻域或较小范围内的像素。一方面，Involution的计算机制可以看作是空间域上的一种注意力集中。另一方面，Attention Map，或者说Self-Attention中的affinity矩阵，可以看作是一种Involution核。

在ResNet的主干和主干的所有bottleneck位置上使用Involution替换掉了3×3卷积，但保留了所有的1×1卷积用于通道映射和融合。这些精心重新设计的实体联合起来，形成了一种新的高效主干网络，称为RedNet。

实验细节

所有的网络模型都是用PyTorch库实现的。

实验证明，对于目标分类，在ImageNet训练集上从头开始做主干训练，RedNet与现有的SOTA模型相比，获得了更好的参数、更高的精度；对于目标检测，在COCO 2017上进行测试，RedNet作为Backbone的检测框架，不管是RetinaNet、Faster R-CNN还是Mask R-CNN都可以在参数量下降的情况下，还取得了明显的AP提升；对于语义分割，在在Cityscapes数据集上进行测试，RedNet在参数量下降的情况下，还取得了2.4的mIoU提升。

结论

1、重新思考卷积与空间和通道范围有关的内在原理。这一思考促使其提出使用其他具有辨别能力和表达能力的潜在算子作为视觉识别的替代，突破了卷积现有的归纳偏见。

2、将把Self-Attention融入视觉表征的学习过程。在此背景下，关系建模中对像素对的组合要求受到了挑战。此外，统一了Self-Attention和卷积的观点。

3、Involution驱动的体系结构的泛化能力强，在图像分类、目标检测、实例分割和语义分割等一系列视觉任务中都有很好的应用，比基于卷积的方法具有更好的性能。

CVPR 2021 Involution: Inverting the Inherence of Convolution for Visual Recognition相关推荐

CVPR 2021 | Involution：超越 Convolution 和 Self-attention 的神经网络新算子
本文是对我们CVPR 2021被接收的文章 Involution: Inverting the Inherence of Convolution for Visual Recognition的解读,同 ...
CVPR 2021 | Involution：超越卷积和自注意力的神经网络新算子
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达本文作者: 李铎 | 本文系作者投稿 https://zhuanlan.zhihu.com/p/3581 ...
CVPR 2021 involution：超越convolution和self-attention的神经网络新算子
1 原理 1.1 普通卷积空间不变性:卷积核大小为Co×Ci×K×KC_o \times C_i \times K \times KCo×Ci×K×K,其中CoC_oCo和CiC_iCi分别 ...
CVPR'21 | Involution：超越convolution和self-attention的神经网络新算子
进入公众号,在消息对话框回复[CVPR2021]即可获取CVPR2021最新论文集来源:我爱计算机视觉本文是对我们CVPR 2021被接收的文章 Involution: Inverting th ...
CVPR‘21 | Involution：超越convolution和self-attention的神经网络新算子
本文是对我们CVPR 2021被接收的文章 Involution: Inverting the Inherence of Convolution for Visual Recognition的解读,同 ...
CVPR 2021 | 真内卷！Involution：构建新一代视觉识别网络
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达本文转载自:AI人工智能初学者 | 作者:ChaucerG Involution: Inverting ...
Involution：空间不共享？可完全替代卷积的高性能算子 | CVPR 2021
其实这篇文章很早就写好了,但作者其它论文涉及到洗稿问题,所以先放着了.目前看这篇文章没被举报有洗稿的嫌疑,所以就发出来了 . 来源:晓飞的算法工程笔记公众号论文: Involution: Inve ...
CVPR 2021 论文和开源项目合集(Papers with Code)
摘自:https://github.com/amusi/CVPR2021-Papers-with-Code CVPR 2021 论文和开源项目合集 CVPR 2021 论文和开源项目合集(Papers ...
字节跳动多篇论文入选 CVPR 2021，精选干货都在这里了
CVPR 2021,近期刚刚落下帷幕. 作为计算机视觉领域三大顶级学术会议之一,CVPR每年都吸引了各大高校.科研机构与科技公司的论文投稿,许多重要的计算机视觉技术成果都在CVPR上中选发布. 今天, ...
【Whalepaper】CV论文研读 - Involution内卷：超越Convolution的新算子
Whalepaper是由周郴莲负责的一个每周分享论文的活动,带你研读AI领域的论文,快来一起开源学术科研吧! NLP 论文分享:每周日晚上九点 CV 论文分享: 每周日晚上九点 Res 论文分 ...

CVPR 2021 Involution: Inverting the Inherence of Convolution for Visual Recognition

动机

方法

实验细节

结论

CVPR 2021 Involution: Inverting the Inherence of Convolution for Visual Recognition相关推荐

最新文章

热门文章