Dynamic Region-Aware Convolution

  • 摘要
  • 介绍
  • 方法
  • 实验结果
  • 总结

论文单位:旷视研究院

论文链接:https://arxiv.org/abs/2003.12243

作者:Jin Chen, Xijun Wang, Zichao Guo, Xiangyu Zhang, Jian Sun

摘要

旷视研究院提出一种新颖的卷积方式,名为动态区域感知卷积(DRConv),它能为特征具有相似表示的相应空间区域自动地分配定制卷积核,相较标准卷积,这种卷积方式大大地增强了对图像语义多样性的建模能力。DRConv通过可学习的指示器(learnable instructor)将逐步增加的通道维卷积核变换至空间维,这一方面增强了卷积的表征能力,另一方面控制计算成本并使平移不变性保持与标准卷积一致。(由于每个卷积层可以视为一次滤波操作,所以我把文中的filter理解为网络指定卷积层中的等效卷积核)。

DRConv是一种高效且灵活的卷积方法,适用于处理复杂且多变的空间信息分布,在各种模型(MobileNet series, ShuffleNetV2, etc.)与视觉任务(Classification, Face Recognition, Detection and Segmentation)中证实了其有效性和优越性。

介绍

目前主流的卷积操作,即标准卷积(standard convolution)是在空间域共享同一个卷积核的权值,如果想要捕获更有效的信息,只能通过重复堆叠卷积来实现,这样不仅计算效率低下,还会给模型优化带来困难。与共享卷积核方法不同,局部卷积(local convolution)通过在空间维度上使用多个卷积核来利用语义多样性,从而建模更多的视觉特征,局部卷积会不同对待不同位置的特征,这能够更有效地提取空间特征,但它会带来与特征图大小成比例的参数,并且会破坏平移不变性。

针对上述问题,作者提出了动态区域感知卷积(dynamic region-aware convolution),它能够通过可学习的结构为相应区域自动分配卷积核,因此它具备强大的语义表征能力并能够保持平移不变性。具体来说,作者设计了一个可学习的指导模块来根据每个输入图像的特征自动生成卷积核的共享区域模板(region-sharing-pattern),该模板意味着将空间维度划分成许多区域,每个区域仅共享一个卷积核,通过这种方法,实现了根据相应的输入特征动态生成用于不同样本和不同区域的卷积核,确保每个卷积核能更有效的集中处理指定区域的重要特征,如图1所示。

图1展示了DRConv的结构,整个模块的优化参数主要在卷积核生成模块 中,其数量与空间大小无关,因此DRConv相比局部卷积可以大大减少参数量,相比标准卷积,它具有较强的表征能力。

方法



通常动态区域感知卷积包含两个步骤,第一,使用learnable guided mask将空间特征几个区域,例如颜色相同的像素或语义特征相似的像素被分配到相同区域;第二,使用filter generator module来生成指定区域对应的卷积核。具体实现图解如图2所示。

实验结果

Table 1展示了分类任务中的标准卷积,CondConv,DRConv对不同模型性能的影响,发现DRConv在不同的模型上,让网络在只增加少量计算量的情况下性能(准确率)有了较为显著的提升,甚至在一些减少计算量的情况下,其性能仍保持优越性。

同时,研究者还发现DRConv在轻量化网络上有着更明显的优势。由于轻量化网络需要在网络深度和宽度都受限的情况下尽可能地提取出原始输入图像的有效信息,而DRConv的设计恰好是在不增加太多额外计算量的情况下充分利用空间信息的多样性来增强模型的特征表达。

Table 2展示了人脸识别中的DRConv对不同模型性能的提升。


Figure 3可视化了分类和人脸识别任务中不同层下的guided mask,表明DRConv方法能够成功地为语义相近的区域分配卷积核,同时由于深层特征具有较大的感受野,有更准确的语义表达,深层的guided mask可以相应减少划分的区域数m。由于guided mask完全由图像的空间信息分布决定,所以某个区域的浅层划分倾向为离散的,因为它们考虑的特征侧重于输入图像上下文的细节信息,而深层划分倾向为连续的,因为它们考虑的特征侧重于语义信息。

Figure 4展示了分割任务下不同模型大小的性能对比,从数据上看,将DRConv用于较小模型会比用于较大模型获得更多性能上的提升,这是因为较小模型的特征提取能力有限,通过DRConv能够充分利用空间信息提高语义信息的建模能力,提升特征的有效性。

总结

总的来说,这篇论文所提出的DRConv,是考虑到特征图的空间分布特征,在标准卷积的基础上作出的改进,其中我认为最新颖最有灵性的部分,是learnable guided mask模块的设计。首先是在原理上,DRConv根据空间信息的分布,通过标准卷积和简单分类将待处理的整幅特征图划分为若干个子区域,再根据不同区域的语义特性分配相应卷积核(filters);其次是在具体实现上,argmax和softmax的设计保证了提出的动态卷积的传播,卷积核集合W和guided mask M的相乘保证了特征图不同区域的特异性处理,还同时保持标准卷积平移不变的性质。

当需要增加卷积的表征能力时,DRConv的使用能够减少像标准卷积堆叠的计算冗余,还能避免局部卷积的平移不变性被破坏,此外,文章多提出的DRConv还能被便捷地运用在分类、人脸识别、语义分割等多种视觉任务中,增强网络特征表达能力。

CVPR 2021 论文解读I 动态区域感知卷积,进一步提升分类/检测/分割性能|Dynamic Region-Aware Convolution相关推荐

  1. CVPR 2021 论文解读Vol.6 I 动态区域感知卷积,进一步提升分类/检测/分割性能

    论文单位:旷视研究院 论文链接:https://arxiv.org/abs/2003.12243 作者:Jin Chen, Xijun Wang, Zichao Guo, Xiangyu Zhang, ...

  2. CVPR 2021 | 即插即用! CA:新注意力机制,助力分类/检测/分割涨点!

    摘要 最近关于移动网络设计的研究已经证明了通道注意(例如,挤压和激发注意)对于提升模型性能的显著效果,但是它们通常忽略位置信息,而位置信息对于生成空间选择性注意图是重要的.本文提出了一种新的移动网络注 ...

  3. CVPR 2021论文解读 | 长尾分布问题解决新思路

    收录会议:CVPR 2021 论文单位:旷视研究院 论文链接:https://arxiv.org/abs/2103.16370 论文代码:https://github.com/Megvii-BaseD ...

  4. CVPR 2021 论文解读Vol.9 | 多样化分支模块:将卷积构建为类似Inception的单元

    收录会议:CVPR2021 论文单位:旷视研究院 论文链接:https://arxiv.org/abs/2103.13425 一作:丁霄汉 本科毕业于南京大学,直博就读清华大学软件学院.目前在旷视Ba ...

  5. 直播 | CVPR 2021论文解读:引入因果结构的解耦表征学习

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  6. 旷视 CVPR 2021 论文解读直播来喽!

    1 ???? 现在,在「知乎」也能找到我们了 进入知乎首页搜索「PaperWeekly」 点击「关注」订阅我们的专栏吧 · ???? 点击阅读原文立刻报名

  7. 旷视CVPR 2021 论文解读直播来喽!

    1

  8. 直播 | ICLR 2021论文解读:兼听则明,信而有征:可信多模态分类

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  9. 直播 | WWW 2021论文解读:论解耦图卷积网络和标签传播的等价性

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

最新文章

  1. mysql 主从配置
  2. Android之SparseArray<E>详解
  3. 使用JUnit和Repeat注​​释编写有效的负载测试
  4. jQuery.validate 中文API
  5. php过滤4字节的字符串,过滤utf8 字符中超过三个字节的字符,或者非utf8字符
  6. 计算语言学和自然语言信息处理研究和应用综述(一)
  7. 新stem编程scratch3水果钢琴创意键盘兼容MakeyMakey开源国产盒装使用教程
  8. excel对比两边数据去重
  9. 现阶段人工智能应用涉及到哪些行业?
  10. Linux指令部分(一)
  11. qnap raid5升级raid6_实践出真知!100TB的RAID5到底能否重建成功?
  12. php讲字符串转成数组中,PHP将字符串转数组
  13. 写在冬日的第一天--一个女程序员第八年工作总结
  14. 音视频学习之ffmpeg常用基础命令整理
  15. ChessBoard棋盘覆盖问题
  16. 【程序人生】IT界含金量高的证书
  17. Windows下免杀思路总结
  18. 计算机常用软件英文读音,常用软件,software,音标,读音,翻译,英文例句,英语词典...
  19. 玩《Minecraft我的世界》学python编程,可免费领|取电子学习版本
  20. Android VR Player(全景视频播放器) [10]: VR全景视频渲染播放的实现(exoplayer,glsurfaceview,opengl es)

热门文章

  1. 30行Python代码,打造一个微信群聊助手~
  2. 5个超实用的小众软件,让你的电脑体验感提升200%
  3. 流量分析实战(1⃣️)_2014_11_16
  4. 【转载】透视“专利恶霸”系列之二 蜕变后的苹果有了新玩法
  5. 英语语法笔记——长难句分析其他方式(七)
  6. 【解决方案】Command failed due to signal: Segmentation fault: 11
  7. Qt的信号和槽是如何工作的
  8. Linux Glibc幽灵漏洞允许黑客远程获取系统权限
  9. PMP证书的含金量高吗?值得考吗?
  10. 手机端抓包http/https-Fiddler的设置