【SSN】：Spatial Shortcut Network for Human Pose Estimation

1.概述

现有的基于姿态估计的方式，是通过逐像素分类实现的，这种方式是考虑不到大范围的空间信息的。举例来说：在左图中，由于肘关节的外观与膝关节非常相似，对于一个感受野仅能覆盖肘关节本身的小特征提取器，很难将两者区分开来。但如果感受野能同时看到附近的手腕或肩膀，那么将其归类为肘部就容易得多。同样，在中间的图像中，要确定身体的某个部位是左还是右，人的头部和手的方向是重要的信息，但这需要较大的感受野。在涉及单人姿态估计的方法中，需要抑制非主要人体部位的检测。如右图所示，利用周围人和图像边界的信息，特征提取器可以抑制非主要人体部位的肩膀检测，同样的较大的感受野是必须的。

对卷积网络而言，只要将网络变的更深，或者增大卷积核，就能够促进空间信息流动，我们就可以增加最终特征的感受野。感受野增加了，上述提到的三种情况都能够被较好的解决。然后不论是大卷积核还是深网络，这对计算和训练都带来了较大的挑战。

为了空间信息能够低成本的流动，本文提出了一种针对于姿态估计任务的空间连接网络，使信息在空间上的流动更容易。本文提出的网络为spatial shortcut network (SSN)。该网络将特征映射移动和注意机制结合在一个称为特征移动模块feature shifting module(FSM)中。

本文的主要贡献有：
1.提出了一种基于特征变换的空间通道快速移动模型（FSM）。通过对其特征映射移位、信道解耦和注意机制的研究，提出了一种窗口优化、高效灵活的卷积层结构。
2.对上述提到的FSM模块进行了详细的分析。证明了该算法在空间依赖关系建模、关键点检测与偏移量关系建模等方面的能力。
3.结果表明，该模型能够在较小的结构下取得较好的甚至更好的效果。本文还提出了一种具有竞争性能的轻量级网络，允许在资源有限的设备上应用。

Deformable CNN用分数值对每个通道和每个空间位置的卷积核偏移量进行回归。Active CNN使用可优化的核偏移量而不进行回归，偏移量值在空间位置上是一致的。本文提出的方法也可以看作是学习核偏移量，但是它比可变形卷积和主动卷积更有效，我们将在3.1节中介绍。虽然也有人使用分数可学习偏移量来移动每个通道，但在本文的方法中，通道的解耦和注意力机制的引入使的学习的偏移量能够更专注于建模空间长期依赖关系。

2.feature shifting module（FSM）

本文最核心的部分是特征转移模块（FSM）。该模块在参数数量和计算成本上都与普通卷积层一样轻量，并可以插入到网络的任何部分来补充空间信息。该模块主要分为两个部分，如下图所示，主模块（main）和注意力机制模块（correlation attention）。

一.main模块

该模块输入为C个通道的特征P，首先通过1*1的卷积变换为K个通道的特征。然后对K个通道的特征，作逐通道的shift操作，该过程中需要 K对偏置参数。shift操作后的特征和CA模块的输出，作逐元素相乘。再利用1*1的卷积将通道数变换为C个。最后在和模块的输入特征P做短连接逐元素相加，经过BN和Relu后输出。整个过程中，最重要的shift操作如下。

如上图所示，若K通道的特征中，K等于3，则对每个通道而言都会有一对可学习的参数(x,y)。该参数对用于作对应通道的特征偏移。为了训练的便利，该可学习参数为实数值，而且在偏移前对特征图作了双线性差值。

上述公式展示了shift过程的计算，星号表示对原始的输入C通道特征图作线性差值，第二个公式表示对K通道特征图进行可学习偏移。因此，整个FSM模块的公式如下：

二.CA模块（Correlation attention）

文章引入相关注意模块(CA)，根据输入数据来调节FSM在何处以及如何有效。如果没有它，FSM将在每个空间位置上不加区别地进行卷积，在没有空间依赖性的位置上产生噪声，或者可能发生过拟合现象。CA模块会在每个空间位置预测空间依赖是否存在，或者说移位特征是否与局部特征相关。为了预测相关置信度，理想情况下，我们应该同时使用移位前和移位后的特征作为输入源，但是实验表明，这与仅使用移位前的特征具有类似的性能，因此本文中仅使用移位前的特征作为CA模块的输入。具体公式如下：

三.窗口定义

本文中接下来要讲的窗口不是传统的网格形状，例如3 *3卷积中的3* 3个网格，而是由所有K个偏移量进行偏移后定义的形状。在这个卷积视图下，我们将输入映射中的卷积位置称为窗口位置，如下图中的橙色/蓝色/绿色点所示。

四.通道解耦

我们在shift操作前后添加1个1*1卷积的原因是为了解耦输入通道和shift后的通道。首先，如果直接在输入通道上进行shift，并不是每个通道都需要移位，而且无法通过多个不同的偏移量来shift通道。其次，需要shift的通道数量并不仅仅取决于输入通道的数量。shift的目标是将空间相关的位置对齐，因此所需的偏移量也应取决于特征的空间分布。第三，我们希望FSM能够为主干提供补充信息，并且我们的方法中的主干也在ImageNet上进行了不使用FSM的预训练。采用解耦的方式，使得插入FSM后可以防止骨干训练受到根本干扰，从而提高训练性能。而且FSM在参数上更有效。FSM的输入通道和输出通道的数量都是C，并且覆盖了K个窗口位置，所以FSM的参数总共是3KC +2K。对于有源卷积和可变形卷积，为了覆盖窗口位置，参数个数分别为KC2 + 2K和KC2 + 2KC。FSM的另一个优点在于，它并不像前两者将每个输入通道与所有K个窗口位置进行卷积，如下图中左边所示。但是并非所有通道都需要每个窗口位置，特别是在一个大k的卷积层中。通过对输入和shift通道进行解耦，FSM等价于在每个输入通道中只选择一个窗口位置子集进行卷积，而这个子集在不同的通道中是不同的。下图的中间显示了这一点。我们认为FSM是更有效的，因为具有长期空间依赖性的特征可能很少同时存在于单一输入通道中。而右图中，表示使用CA情况下，根据每个位置的输入数据，可以在一个输入通道的不同输出位置形成不同的窗口形状。

3.骨干网络和早期预测器

骨干网络整体SSN（spatial shortcut network）结构如图所示，SSN结构如图所示。使用U形网络作为骨干网，类似于FPN，基于ResNet结构，上采样层和它们之间的shotcut连接的组合。

作者认为浅层的分类能力差主要是由于它们的感受野小。虽然较深的特征可以覆盖较大的图像区域，但在空间上受到限制。因此，作者将FSMs插入ResNet的每个Bottleneck block之前，以扩大它们的感受野。由于感受野的提升，可以在网络中进行更多的姿态估计和细化。由于浅层特征中加入了FSM模块，因此，在浅层上直接增加了更多的预测因子，被称之为早期预测因子early stage predictors（ESP）。

4.结论

本文提出了一种融合特征转移模块和相关注意机制的空间链接网络。该网络通过建立远程空间依赖关系模型，提高了浅层探测能力。我们演示了所提出的模块如何对姿态估计任务做出贡献，并以相似或更小的体系结构提供了更好的性能。