关注公众号,发现CV技术之美

 写在前面

在本文中,作者提出了一种名为动态区域感知卷积(DRConv) 的新卷积,它可以自动将多个滤波器分配给具有相似特征表示的空间区域。标准卷积层通常是增加滤波器的数量以提取更多的视觉信息,但这会导致较高的计算成本。

本文的DRConv使用可学习的指导将增加的滤波器转移到空间维度,这不仅提高了卷积的表示能力,而且保持了计算成本和标准卷积的平移不变性 。DRConv是处理复杂多变空间信息分布的一种有效而优雅的方法,由于其即插即用的特性,它可以代替现有网络中的标准卷积。

作者在广泛的模型(MobileNet系列、ShuffleNet V2等)和任务(分类、人脸识别、检测和分割)上评估了DRConv。在ImageNet任务上,基于DRConv的ShuffleNet V2-0.5×在46M的multiply-adds计算量水平上实现了67.1%的SOTA性能,相对baseline提高了6.3%

 1. 论文和代码地址

Dynamic Region-Aware Convolution

论文地址:https://arxiv.org/abs/2003.12243

代码地址:未开源

 2. Motivation

卷积神经网络(CNNs)由于其强大的表示能力,在图像分类、人脸识别、目标检测等许多应用领域取得了重大进展。CNN强大的表示能力源于不同的滤波器负责在不同的抽象级别的信息提取。

然而,当前主流的卷积运算是以滤波器共享的方式跨空间域执行的,因此只有在重复应用这些卷积运算时,才能捕获更有效的信息(比如用更多的滤波器来增加通道数和深度)。但这种方式会带来几个局限性:首先,它的计算效率很低 ;其次,滤波器数量的增加会导致优化的困难

与滤波器共享的方法不同,为了对更多的视觉元素进行建模,目前一些研究侧重于通过在空间维度上使用多个滤波器来利用语义信息的多样性。比如,一些方法在每个像素上都使用单独的滤波器的替代卷积(在文中这类方法成为局部卷积),因此,每个位置的特征将被用不同方式地处理,这比标准卷积能够更有效地提取空间特征。虽然与标准卷积相比,局部卷积并没有增加计算复杂度,但它有两个致命的缺点:

1、局部卷积带来大量的参数,这些参数量和特征的大小呈正相关。

2、局部卷积破坏了平移不变性,这对某些需要平移不变性特征的任务 是不友好的 (例如,局部卷积不适用于分类任务)。

这两种方法都难以在神经网络中广泛应用。此外,局部卷积仍然在不同样本之间共享滤波器,这使模型对每个样本的特定特征不敏感。例如,在人脸识别和目标检测任务中,存在具有不同姿势或视点的样本。因此,跨不同样本的共享过滤器无法有效地提取特定于样本的特征。

考虑到上述局限性,本文提出了一种新的卷积算法,称为动态区域卷积算法(DRConv) ,该算法能够自动将滤波器分配到相应的空间区域,因此,DRConv具有强大的语义表示能力,并完美地保持了平移不变性。

具体来说,作者设计了一个可学习的引导掩模模块(guided mask module) ,根据每个输入图像的特征自动生成滤波器,并在相同的区域内共享滤波器。由于区域和滤波器都是基于样本的特征生成的,这种方法能更有效地关注样本自身的重要特征。

DRConv的结构如上图所示,首先用标准卷积从输入生成引导特征,然后根据引导特征,将空间维度划分为多个区域,每个区域用不同的颜色表示。在每个共享区域中,作者用滤波器生成器模块生成多个滤波器来执行二维卷积运算。

因此需要优化的参数主要集中在滤波器生成器模块中,其参数量与特征空间大小无关。除了显著提高网络性能外,本文的DRConv与局部卷积相比可以大大减少参数量,并且与标准卷积相比几乎不增加计算复杂度。

为了验证本文方法的有效性,作者在几个不同的任务上进行了一系列的实验研究,包括图像分类、人脸识别、目标检测和分割。实验结果表明,DRConv可以在这些任务上获得优异的性能。此外,作者还提供了充分的消融研究,以分析DRConv的有效性和鲁棒性。

 3. 方法

权重共享机制限制了标准卷积模拟语义的变化。因此,标准卷积必须在通道维度上增加滤波器的数量,以匹配更多的空间视觉元素,但是这种做法是低效的。局部卷积利用了空间信息的多样性,但牺牲了平移不变性。

为了解决上述限制,作者提出了DRConv,它不仅通过在空间维度上使用多个滤波器来增加多样性,而且保持这些具有相似特征的区域的平移不变性。

3.1. Dynamic Region-Aware Convolution

标准卷积的输入可以表示为,其中、、分别为高度、宽度和通道。代表二维空间维度,代表输出,代表标准卷积滤波器。对于输出特征的第o个通道,可以表示为:

其中,代表二维卷积。

对于局部卷积,使用表示在空间维度上不共享的滤波器。输出特征的第o个通道,可以表示为:

其中表示像素,处的不共享的滤波器。

基于上述公式,作者定义了引导掩模(guided mask) ,表示从空间维度划分的多个区域,其中单个过滤器在同一个区域中是共享的,不同滤波器用于不同的区域。

这个引导掩模是基于输入数据自适应学习的,相应的,每个区域对应的滤波器可以表示为,其中第个滤波器与第个区域对应。输出特征的第o个通道可以表示为:

其中表示的第c个通道,,表示区域中的一个点。

本文的方法主要分为两个步骤。首先,使用一个可学习的引导掩模 将特征划分为多个空间区域,从语义上讲,语义相似的特征将被分配到同一区域。

其次,在每个共享区域中,作者们使用滤波器生成器模块 生成一个基于输入的滤波器来执行正常的二维卷积运算。可学习的引导掩模 决定将哪个滤波器器分配给哪个区域。滤波器生成器模块 用于生成不同区域的相应滤波器。

3.2. Learnable guided mask

作为DRConv的最重要部分之一,可学习引导掩模决定了滤波器在空间维度上的分布,并通过损失函数进行优化。对于具有m个共享区域的k×k的DRConv,作者用k×k的标准卷积基于输入来生成输出通道数为m的引导特征。用表示引导特征,用表示引导掩模。对于每一个点,,引导掩模的计算为:

其中,表示取出最大值的下标,因此的值域是在0到m-1的范围内。

但是,操作使得这一部分的梯度被截断了,从而无法端到端的学习,因此,作者重新设计了这一操作的前向传播和后向传播,如下图所示。

Forward propagation

基于上面的介绍,每个位置的滤波器的计算表示为:

通过这种方式,m个滤波器将与所有位置建立对应关系,并且可以将整个空间像素划分为m个组。空间上使用相同滤波器的像素具有相似的上下文,因为具有平移不变性的标准卷积将其信息传递给了引导特征。

Backward propagation

如上图所示,在反向传播的时候,作者引入了:

通过上式的操作,可以看做是近似的one-hot形式,因此和one-hot形式的差距就会非常小。因此,作者在训练过程中,作者将近似为。的梯度可以表示为:

其中,代表点乘,代表梯度。前向传播的近似反向传播可以表示为:

其中代表逐元素相乘。

3.3. Dynamic Filter: Filter generator module

在DRConv中,多个滤波器将分配到不同的区域,滤波器生成器模块用于为这些区域生成滤波器。由于不同图像之间特征的多样性,跨图像的共享滤波器不足以有效地关注图像自身的特征。因此,作者在本文中提出了滤波器生成模块,基于输入数据自适应的生成滤波器。

将输入特征表示为,代表滤波器生成模块。这些滤波器表示为,并且每个滤波器器仅在同一个区域中共享。如上图所示,为了生成m个卷积核大小为

的滤波器,作者首先用了adaptive average pooling将输入下采样到,然后使用两个连续的

卷积,中间用了激活函数,第二个卷积采用分组卷积。滤波器生成器模块可以增强捕获不同图像样本特征的能力。

 4.实验

4.1. Classification

上表展示了在ImageNet分类任务上,将不同的轻量级网络的卷积替换为DRConv的实验结果,可以看出DRConv能够显著提升模型的性能,并且对于不同的网络都是有用的。

4.2. Face Recognition

上表展示了人脸识别任务上,基于MobileFaceNet,不同方法的计算量和准确率对比,可以看出,本文的方法能够显著提高模型的性能。

4.3. COCO Object Detection and Segmentation

上表展示了在COCO目标检测和分割任务上,基于DetNAS-300M和Mask R-CNN框架,baseline和DRConv的实验结果对比,可以看出,相比于baseline,本文方法能够明显提高性能,证明了DRConv的有效性。

4.4.  Ablation Study

Visualization of dynamic guided mask

上图展示了本文方法划分区域的可视化结果,可以看出,划分的区域具有显著的语义信息,能够帮助模型的学习。

Different model size

上图展示了在不同模型大小下,本文方法和baseline方法的对比,可以看出,本文的方法在小模型上能够实现更显著的性能提升,因为通过用DRConv取代标准卷积,小型模型将显著提高其建模语义信息的能力,从而获得更好的性能。

 5. 总结

在本文中,作者提出了一种新的卷积,称为动态区域感知卷积(DRConv) ,该卷积在空间域中采用了部分共享的滤波器,并成功地保持了平移不变性。本文提出的DRConv可以完全替代任何现有网络中的标准卷积。

实现上,作者设计了一个可学习的引导掩模模块 用于滤波器的分配引导任务,这保证了一个区域中的相似特征可以匹配相同的滤波器器。

此外,作者还设计了滤波器生成器模块 ,为每个数据样本生成基于输入的滤波器,这使得不同的输入可以使用自己的专用滤波器。

在多个不同任务上的综合实验表明了DRConv的有效性,此外,消融实验的结果表明,可学习引导掩模在每个样本的滤波器分布中起着关键作用,有助于获得更好的性能。

▊ 作者简介

研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。

知乎/公众号:FightingCV

END

欢迎加入「计算机视觉交流群

CVPR2021 DRConv:即插即用!旷视孙剑、张祥雨团队提出动态区域感知的卷积,涨点显著!...相关推荐

  1. LGD:涨点神器!旷视孙剑、张祥雨团队提出标签引导的自蒸馏技术,助力目标检测!...

    关注公众号,发现CV技术之美 本文介绍论文『LGD: Label-guided Self-distillation for Object Detection』,由旷视孙剑.张祥雨团队等提出标签引导的自 ...

  2. 旷视孙剑博士提出LGD,训练速度提升51%,适用于目标检测的知识蒸馏

    来源:新智元 [导读]知识蒸馏已经成了目前常用的模型压缩方法,但相关研究还局限在图像分类任务上.最近旷视孙剑博士联手西安交大发表了一篇论文,提出新模型LGD,无需一个强力的teacher模型也能在目标 ...

  3. 多快好省的目标检测器来了,旷视孙剑团队提出Anchor DETR:基于Anchor Point的DETR

    作者丨小马 编辑丨极市平台 本文原创首发于极市平台公众号,转载请获得授权并标明出处. [写在前面] 在本文中,作者提出了一种基于Transformer的目标检测器.在以前基于Transformer的检 ...

  4. 张祥雨团队最新工作:用于物体检测的实例条件知识蒸馏 | NeurIPS 2021

    [专栏:前沿进展]在青源LIVE第31期中,旷视研究院张祥雨团队的张培圳研究员深入浅出地为我们介绍了其团队被 NeurIPS 2021 录用的论文「用于物体检测的实例条件知识蒸馏」.本期报告首先简要回 ...

  5. ResNet成阿尔法元核心技术 旷视孙剑详解Zero的伟大与局限

    摘要:2017年10月19日,DeepMind团队发表了迄今最强版本的AlphaGoAlphaGo Zero,其中一个重要模块是出自华人团队的深度残差网络ResNet.就此背景,新智元采访了深度残差网 ...

  6. R TALK | 旷视孙剑:如何打造云、端、芯上的视觉计算

    「R TALK 」是北京智源-旷视联合实验室推出的一个深度学习专栏,将通过不定期的推送,展示旷视研究院的学术分享及阶段性技术成果.「R Talk 」旨在通过一场场精彩纷呈的深度学习分享,抛砖引玉,推陈 ...

  7. 对话旷视孙剑:比 TensorFlow 还早半年,旷视 Brain++ 的进化法则

    质疑与荣耀,技术与商业,所有疑问,或许通过这样一个国产自主的AI框架,至少可以回答一半. 打榜.噱头.争议.烧钱 创新.天才.明星.思辨 -- 评价 AI 企业,有人说他们是烧钱的机器.科技行业的共享 ...

  8. AlphaGo Zero「无师自通」背后的伟大与局限 | 旷视孙剑解读

    整理 | 安木 当你被 AlphaGo Zero 刷屏的时候,你是对人类的创造力产生自豪,还是对人类的未来感到担忧? 10 月 20 日,旷视科技(Face++)首席科学家孙剑博士接受了多家媒体的群访 ...

  9. 旷视孙剑团队提出AutoML神经架构搜索新方法:单路径One-Shot,更精确更省时

    本文转载自旷视研究院 一步法(One-Shot)是一个强大的神经网络模型搜索(Neural Architecture Search/NAS)框架,但是它的训练相对复杂,并且很难在大型数据集(比如 Im ...

最新文章

  1. 【Vue】新建一个Vue3项目
  2. 工程师文化:BAT 为什么不喊老板
  3. php趣味小程序,php常用小程序
  4. codeforces 1097 Hello 2019
  5. Leecode07. 整数反转——Leecode大厂热题100道系列
  6. 强制关机对电脑的影响_电脑强制关机,对电脑有影响吗?你被伪科普骗了多久?...
  7. linux输入法_超强两笔输入法 入门简文
  8. 《深入剖析Android系统》第9章RIL补充配图
  9. 【转】Android 9 Pie 兼容性常见问题及注意事项
  10. 一场视频号裂变活动获客3W+,头部品牌裂变案例拆解
  11. ArcGIS地理配准、影像校正步骤
  12. ciscn 2020 Misc the_best_ctf_game
  13. 如何恢复 TrustedInstaller 所有者权限;怎么给文件夹权限添加“所有受限制的应用程序包”这个用户主体:
  14. CF1060F Shrinking Tree
  15. (转载)虚幻引擎3--12掌握虚幻技术UnrealScript 代理
  16. 对人工智能的一点看法
  17. 【Python爬虫】| XPANX获取抖音APP小视屏
  18. python局域网通信_python如何实现网络通信
  19. wchar_t 转换 string std::string 转换 wchar_t
  20. 转:管理大师曼弗雷德:不关注员工的动机需求,何谈高绩效组织?

热门文章

  1. 模式识别听课笔记【武汉理工大学】
  2. Opencv--addWeighted()
  3. MyBatis框架 多表联合查询实现
  4. Arbitrage(判断正环 spfa写法)
  5. python用牛顿迭代法求平方根_Python编程实现二分法和牛顿迭代法求平方根代码
  6. anaconda创建新环境_【创建社会主义新农村】怀城街道:转变整治理念 农村人居环境换新颜...
  7. debian9为什么默认是pip2_Debian9 安装后基本配置
  8. 线程池状态以及转换java_JAVA线程池总结一下
  9. 复制assert目录文件到私有目录_在电脑上复制目录的方法
  10. it运维中faq_如何编写系统FAQ