Pooling Revisited: Your Receptive Field is Suboptimal

paper:https://arxiv.org/abs/2205.15254

摘要

感受野的大小和形状决定了网络如何聚集局部信息，并对模型的整体性能产生显著影响。神经网络中的许多组成部分，例如用于卷积和池化运算的核大小和步长，都会影响到感受野配置。然而仍然依赖于超参数，现有模型的感受野会导致形状和大小不理想，因此提出了一种简单而有效的动态优化池操作称为(DynOPool)，通过学习每个层中感受野的理想形状和大小来优化端到端特征映射的比例因子。

介绍

为了缓解人工设计的体系结构和操作的次优性，我们提出了动态优化池操作(DynOPool)，这是一个可学习的调整大小模块，可以替代标准的调整大小操作。将我们从复杂的超参数设计中解脱出来，例如卷积的步长和池操作。
我们的贡献如下：

解决了深度神经网络中现有尺度算子依赖于超参数的局限性
提出了DynOPool，可以找到中间特征图的最佳比例因子和感受野
证明在图像分类和语义分割任务中，使用DynOPool在多个数据集和网络结构上优于基线

动机

图像中的信息分布在不同级别的位置，CNN使用一系列核学习不同尺度的模式，由于每个图像的语义都有很大的不同，因此识别适当的感受野并提取有用信息非常重要。

不对称信息分布

最佳感受野形状根据数据集中的空间信息不对称而变化，例如条形码。
为了表示提出方法的能力，将数据集中图像在垂直方向上垂直拉伸两次，并随机裁剪

密集或稀疏分布的信息

CNN通过级联方式聚集局部信息，从图像中学习复杂表示，然而，局部信息的重要性在很大程度上去借每个图像的属性，例如当图像模糊时，大多纹理信息被消除了，在这种情况下，最好在早期层中扩大感受野，将注意力集中在全局信息中。
为了验证这一假设，图1中首先将数据集中图像减半采样，然后构建16x16图像。
然后将下采样的图像平铺为4x4，将下采样图像上采样为64x64，实验中我们的模型大大优于人工设计的模型。

拟定方法

动态优化池(DynOPool)

DynOPool的设计

DynOPool首先将特征图划分为网格：

然后给定一个p为中心的网格单元，四个查询点的位置定义为：

每个查询点的表示由四个最近网格单元的双线性插值给出，然后DynOPool聚合四个特征向量，并返回每个网格单元的输出表示。我们选择最大池化作为聚合函数，其他函数也可以替代，只要能有效计算来自多个局部特征的抽象表示。自适应控制深层感受夜的大小和形状。

优化

重缩放模块由(1)和(2)组合定义，然而舍入操作是不可微的，阻碍了优化过程。为了解决这一问题利用了一种可微量化技巧：

sg表示停止梯度操作符，(3)和(4)允许我们前馈原始离散值，同时通过其连续的值进行反向传播。
虽然优化可行，但学习比例因子r仍然存在挑战，重缩放模块涉及位移函数，其取决于r，当r较小时，相对于r的梯度是不稳定的，因为：

所以使用倒数重新参数化r：

将α定义为可学习的尺度参数，并对其进行优化，而不是对r进行优化，训练过程在实践中得到了极大的稳定，图3展示了整个优化过程：

前向传递采用离散化值，但后向传播采用连续值，将梯度反向传播到α。

模型复杂性约束

为了最大限度地提高模型的精度，DynOPool有时具有较大的比例因子，并提高中间特征图的分辨率。因此，为了限制计算成本并减少模型大小，我们引入了额外的损失项LGMAC，该损失项由每个训练迭代t的分层GMACs计数的简单加权和给出：

LGMAC反映了在训练中随着比例因子r的变化，计算成本增加的程度。

Loss

λ控制模型的计算复杂度

DynOPool的多功能性

由于模型的不可知性，DynOPool可以替换任何给定网络中的各种大小调整操作符。为了分析该方法的优越性，用DynOPool替换了基线网络中所有的缩放操作符，最后一个全局平均池化除外，池化操作被DynOPool取代，而跨步卷积被普通卷积和DynOPool的组合取代。
与其他需要提前选择上采样或下采样的池化比例方法不同，DynOPool学习调整特征图的大小，而不受比例因子和池化比例的约束，DynOPool的上采样工程与下采样过程相同。

实验

与人工设计模型比较

表1显示了DynOPool在GMACs和精度方面的性能。将人工设计模型与我们使用DynOPool模型的两个变体进行比较：

计算成本与人工设计模型相似的模型，DynOPool-S
主要为精度学习的模型，DynOPool-B

大多数情况下，DynOPool-S与人工设计模型几乎相同或更少的GMAC并显著提高精度，DynOPool-B在所有设置中都优于人工设计模型。

图4可视化了人类设计模型、DynOPool-S/B和形状适配器的特征图大小，(b)和©所示，DynOPool-S/B利用非方形特征图并展示数据驱动的模型选择能力，特别是DynOPool-B甚至在第一个池化层之后增加了特征图的大小。

准确率和GMACs的权衡

图5说明了DynOPool模型与VGG-16人工设计模型之间的准确率和GMACs精度权衡，调整输入图像的大小，以获得人工设计模型不同GMACs对应的准确率。
几乎在所有情况下，与人工设计模型相比，在准确率和GMACs之间更优越，尤其是当模型被显著压缩时，

与形状适配器比较

虽然这两种算法的目标都是通过引入可学习的大小调整模块来找到最佳的特征映射大小，但DynOPool在准确性和效率方面都优于形状适配器。
我们认为，形状适配器通过两个预定义的候选尺寸比例的线性插值来确定输出特征图的大小，该策略通过强制考虑预测比例因子下的潜在无关特征，导致较大的近似误差。相反DynOPool使用单个比例因子r自然调整特征图大小。

与NAS比较

在NAS的搜索空间中通常不考虑特征图大小，带有DynOPool的结构更有竞争力。
虽然DynOPool的优势并不显著，但是DynOPool在大大缩短搜索时间的情况下找到具有优化特征图大小的竞争模型。

语义分割结果

结论和未来工作

结论

提出了一种动态优化池化，称为DynOPool，有助于找到最佳形状和大小的感受野和特征图。
可以识别特征图的最佳形状和大小而不依赖于人类的归纳偏见或详细的架构搜索。我们的模块在多个数据集上使用各种识别模型取得了优异的性能，并且在准确性和计算成本之间显示出了令人满意的权衡。我们还表明，DynoPool与最新的NAS算法兼容，并且自然适用于语义分割模型。我们希望我们的模块能够让视觉界更有效地优化深层神经网络。

未来工作

虽然我们在这项工作中主要关注二维任务，但我们的模块可以扩展到更高维的缩放模块。例如，在动作识别任务中，我们还可以使用DynOPool通过调整时间池所需的帧数从数据集中捕获时间关系。
此外，与我们在认知科学中的发现类似，几十年来众所周知，人类视觉系统感知垂直线略长于水平线[9、20、36]，判断对称性的依据更多的是水平对称性，而不是垂直对称性[10、37]。换句话说，我们的视觉系统已经适应了对垂直信息变化更敏感的要求。尽管历史悠久，但确切原因尚未确定，仍在讨论中[2，28]。我们的研究结果与认知科学的观察结果之间的联系值得研究，这有助于理解计算机视觉和人类视觉系统的不对称行为，并在两个研究领域之间架起一座缺失的桥梁。