Pooling Revisited: Your Receptive Field is Suboptimal

paper:https://arxiv.org/abs/2205.15254

摘要

感受野的大小和形状决定了网络如何聚集局部信息,并对模型的整体性能产生显著影响。神经网络中的许多组成部分,例如用于卷积和池化运算的核大小和步长,都会影响到感受野配置。然而仍然依赖于超参数,现有模型的感受野会导致形状和大小不理想,因此提出了一种简单而有效的动态优化池操作称为(DynOPool),通过学习每个层中感受野的理想形状和大小来优化端到端特征映射的比例因子。

介绍

为了缓解人工设计的体系结构和操作的次优性,我们提出了动态优化池操作(DynOPool),这是一个可学习的调整大小模块,可以替代标准的调整大小操作。将我们从复杂的超参数设计中解脱出来,例如卷积的步长和池操作。
我们的贡献如下:

  • 解决了深度神经网络中现有尺度算子依赖于超参数的局限性
  • 提出了DynOPool,可以找到中间特征图的最佳比例因子和感受野
  • 证明在图像分类和语义分割任务中,使用DynOPool在多个数据集和网络结构上优于基线

相关工作

NAS

神经架构搜索通过将带有人类诱导偏差的超参数设置为可学习的过程来优化神经网络架构,优于搜索空间的限制,仍然是次优的。

动态核大小

最近的方法采用不同的卷积,动态的学习感受野的大小。而我们的方法通过学习特征图大小来识别。

可学习的调整大小模块

通过直接学习特征图大小来控制感受野,提出一个可微的调整大小模块。

动机

图像中的信息分布在不同级别的位置,CNN使用一系列核学习不同尺度的模式,由于每个图像的语义都有很大的不同,因此识别适当的感受野并提取有用信息非常重要。

不对称信息分布

最佳感受野形状根据数据集中的空间信息不对称而变化,例如条形码。
为了表示提出方法的能力,将数据集中图像在垂直方向上垂直拉伸两次,并随机裁剪

密集或稀疏分布的信息

CNN通过级联方式聚集局部信息,从图像中学习复杂表示,然而,局部信息的重要性在很大程度上去借每个图像的属性,例如当图像模糊时,大多纹理信息被消除了,在这种情况下,最好在早期层中扩大感受野,将注意力集中在全局信息中。
为了验证这一假设,图1中首先将数据集中图像减半采样,然后构建16x16图像。
然后将下采样的图像平铺为4x4,将下采样图像上采样为64x64,实验中我们的模型大大优于人工设计的模型。

拟定方法

动态优化池(DynOPool)

DynOPool的设计

DynOPool首先将特征图划分为网格:

然后给定一个p为中心的网格单元,四个查询点的位置定义为:

每个查询点的表示由四个最近网格单元的双线性插值给出,然后DynOPool聚合四个特征向量,并返回每个网格单元的输出表示。我们选择最大池化作为聚合函数,其他函数也可以替代,只要能有效计算来自多个局部特征的抽象表示。自适应控制深层感受夜的大小和形状。

优化

重缩放模块由(1)和(2)组合定义,然而舍入操作是不可微的,阻碍了优化过程。为了解决这一问题利用了一种可微量化技巧:

sg表示停止梯度操作符,(3)和(4)允许我们前馈原始离散值,同时通过其连续的值进行反向传播。
虽然优化可行,但学习比例因子r仍然存在挑战,重缩放模块涉及位移函数,其取决于r,当r较小时,相对于r的梯度是不稳定的,因为:

所以使用倒数重新参数化r:

将α定义为可学习的尺度参数,并对其进行优化,而不是对r进行优化,训练过程在实践中得到了极大的稳定,图3展示了整个优化过程:

前向传递采用离散化值,但后向传播采用连续值,将梯度反向传播到α。

模型复杂性约束

为了最大限度地提高模型的精度,DynOPool有时具有较大的比例因子,并提高中间特征图的分辨率。因此,为了限制计算成本并减少模型大小,我们引入了额外的损失项LGMAC,该损失项由每个训练迭代t的分层GMACs计数的简单加权和给出:

LGMAC反映了在训练中随着比例因子r的变化,计算成本增加的程度。

Loss


λ控制模型的计算复杂度

DynOPool的多功能性

由于模型的不可知性,DynOPool可以替换任何给定网络中的各种大小调整操作符。为了分析该方法的优越性,用DynOPool替换了基线网络中所有的缩放操作符,最后一个全局平均池化除外,池化操作被DynOPool取代,而跨步卷积被普通卷积和DynOPool的组合取代。
与其他需要提前选择上采样或下采样的池化比例方法不同,DynOPool学习调整特征图的大小,而不受比例因子和池化比例的约束,DynOPool的上采样工程与下采样过程相同。

实验

与人工设计模型比较


表1显示了DynOPool在GMACs和精度方面的性能。将人工设计模型与我们使用DynOPool模型的两个变体进行比较:

  1. 计算成本与人工设计模型相似的模型,DynOPool-S
  2. 主要为精度学习的模型,DynOPool-B

大多数情况下,DynOPool-S与人工设计模型几乎相同或更少的GMAC并显著提高精度,DynOPool-B在所有设置中都优于人工设计模型。

图4可视化了人类设计模型、DynOPool-S/B和形状适配器的特征图大小,(b)和©所示,DynOPool-S/B利用非方形特征图并展示数据驱动的模型选择能力,特别是DynOPool-B甚至在第一个池化层之后增加了特征图的大小。

准确率和GMACs的权衡


图5说明了DynOPool模型与VGG-16人工设计模型之间的准确率和GMACs精度权衡,调整输入图像的大小,以获得人工设计模型不同GMACs对应的准确率。
几乎在所有情况下,与人工设计模型相比,在准确率和GMACs之间更优越,尤其是当模型被显著压缩时,

与形状适配器比较


虽然这两种算法的目标都是通过引入可学习的大小调整模块来找到最佳的特征映射大小,但DynOPool在准确性和效率方面都优于形状适配器。
我们认为,形状适配器通过两个预定义的候选尺寸比例的线性插值来确定输出特征图的大小,该策略通过强制考虑预测比例因子下的潜在无关特征,导致较大的近似误差。相反DynOPool使用单个比例因子r自然调整特征图大小。

与NAS比较


在NAS的搜索空间中通常不考虑特征图大小,带有DynOPool的结构更有竞争力。
虽然DynOPool的优势并不显著,但是DynOPool在大大缩短搜索时间的情况下找到具有优化特征图大小的竞争模型。

语义分割结果

结论和未来工作

结论

提出了一种动态优化池化,称为DynOPool,有助于找到最佳形状和大小的感受野和特征图。
可以识别特征图的最佳形状和大小而不依赖于人类的归纳偏见或详细的架构搜索。我们的模块在多个数据集上使用各种识别模型取得了优异的性能,并且在准确性和计算成本之间显示出了令人满意的权衡。我们还表明,DynoPool与最新的NAS算法兼容,并且自然适用于语义分割模型。我们希望我们的模块能够让视觉界更有效地优化深层神经网络。

未来工作

虽然我们在这项工作中主要关注二维任务,但我们的模块可以扩展到更高维的缩放模块。例如,在动作识别任务中,我们还可以使用DynOPool通过调整时间池所需的帧数从数据集中捕获时间关系。
此外,与我们在认知科学中的发现类似,几十年来众所周知,人类视觉系统感知垂直线略长于水平线[9、20、36],判断对称性的依据更多的是水平对称性,而不是垂直对称性[10、37]。换句话说,我们的视觉系统已经适应了对垂直信息变化更敏感的要求。尽管历史悠久,但确切原因尚未确定,仍在讨论中[2,28]。我们的研究结果与认知科学的观察结果之间的联系值得研究,这有助于理解计算机视觉和人类视觉系统的不对称行为,并在两个研究领域之间架起一座缺失的桥梁。

Pooling Revisited: Your Receptive Field is Suboptimal相关推荐

  1. Pooling Revisited: Your Receptive Field is Suboptimal 论文解读和感想

    Pooling Revisited: Your Receptive Field is Suboptimal 作为CVPR 2022中一篇探索新网络模块的文章,本文对于新网络的设计,特别是处理high- ...

  2. 池化层(pooling layer) 感受野(Receptive Field) 神经网络的基本组成

    目录 (1)本文涉及的函数 (2)池化层 (3)感受野 (4)代码示例(含注释) 承接上两篇博客:卷积层(空洞卷积对比普通卷积).激活函数层 (1)本文涉及的函数 import torch impor ...

  3. 【目标检测】Receptive Field Block Net for Accurate and Fast Object Detection论文理解

    摘要   目标检测器现状:   (1)目前性能最好的目标检测器依赖于深度CNN骨干,如ResNet-101和Inception,拥有强大的特征表示,但承受着高计算成本.   (2)一些基于轻量级模型的 ...

  4. ECCV2018论文RBNet:Receptive Field Block Net for Accurate and FastObject Detection

    论文下载:https://arxiv.org/abs/1711.07767 源码下载:https://github.com/ruinmessi/RFBNet Abstract: 目前性能最好的目标检测 ...

  5. 《Understanding the Effective Receptive Field in Deep Convolutional Neural Networks》理解深卷积神经网络中的有效感受野

    前言 论文推荐来自B站UP-启释科技,该up对感受野和卷积有深刻的理解 推荐感受野视频讲解: 深度理解感受野(一) 深度理解感受野(二) 深度理解感受野(三) 深度理解感受野(四) 深度理解感受野(五 ...

  6. Dilated Convolution + Receptive Field

    1.感受野(Receptive Field) Receptive field 是啥?看看网上的大佬们怎么说. The receptive field is defined as the region ...

  7. 深度学习笔记~感受野(receptive field)的计算

    以前对CNN中的感受野(receptive field)已经有了一些认识,基本上是从概念理解上得到的. 本篇文章给出了receptive field的计算过程和相应的python代码,对recepti ...

  8. 深度学习之学习(1-2)感受野(receptive field)

    参见:原始图片中的ROI如何映射到到feature map? - 知乎 1 感受野的概念 在卷积神经网络中,感受野的定义是 卷积神经网络每一层输出的特征图(feature map)上的像素点在原始图像 ...

  9. 论文解读 Receptive Field Block Net for Accurate and Fast Object Detection

    其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 PDF全 ...

最新文章

  1. c#用webkit内核支持html5
  2. 【推荐】Google告诉你如何做移动搜索的
  3. M 点滑动平均 Python 实现
  4. 安装好了pytorch,但不知道安装路径怎么办?——快速找到pytorch安装路径
  5. Linux C : TCP/IP 和 网络编程
  6. vc 串口 实时保存_Arduino提高篇22—实时时钟DS1302
  7. Single Number leetcode java
  8. CSS3过渡、变形和动画
  9. 【Java与智能设备】4_1 Activity的创建和跳转
  10. CAD二次开发获取已选择实体
  11. 通俗易懂的哈希算法讲解
  12. 高品质摄影作图台式计算机推荐,摄影后期做图用什么电脑
  13. 月是故乡明,每逢佳节倍思亲,近乡情更怯
  14. 推荐一款清爽的实时监控大屏附安装教程
  15. 2021年如何选购华强北AirPods(一次翻车到下车的经历总结的经验)
  16. 【转】 计算机视觉、图像处理学习资料汇总
  17. 会话(gorilla/sessions)
  18. Linux iptables nat 实现不同网络间(内外网)的互联
  19. 助力移动物联网开启高质量发展新征程,芯讯通获“2022年移动物联网先进企业”奖
  20. 蚂蚁全媒体中心总编刘鑫炜:如何破解碎片化时代的营销困境

热门文章

  1. es报Unexpected character (‘ï‘ (code 239)): was expecting comma to separate Object entries解决方法
  2. Linux中的split命令,文件切割
  3. 使用Unity编写传统ARPG游戏人物操作方式(二)
  4. u盘格式化数据恢复(官方方案分享)
  5. 手机Android存储性能优化架构分析
  6. 利用策略路由traffic-policy 实现路由的控制
  7. 关于“前台根据后台值,操作字段、显示或select选中状态”的几种做法
  8. 物联网设备安全保护,需要这三道防线
  9. 路由与交换技术-18-热备份路由选择协议HSRP
  10. 信息系统风险评估内容