CornerNet: Detecting Objects as Paired Keypoints

论文链接： https://arxiv.org/abs/1808.01244

一、 Problem Statement

Anchor boxes 有两个缺点:

positive 和 negative anchors数量的不平衡，训练慢。
引入了超参数，比如大小，比例，数量等等。

二、 Direction

Anchor-free的方法，检测bounding box的左上角和右下角的点，引入了Corner-pooling。

三、 Method

先来看一下它的整体框架:

可以看到网络具体包括两个部分，一个是Backbone，一个是prediction heads。

Backbone 由hourglass network组成。
Prediction heads由三部分组成，分别为两个heatmaps，一个embeddings vector 和一个offsets。通过这三部分加上后处理算法，形成了Bounding boxes。

1. Hourglass Backbone 和 prediction heads

角点检测，或者说目标点检测，最通用的一个backbone就是hourglass network。Hourglass 可以在一个建构中就捕捉global 和 local的特征。在这篇文章中，主要包括了两个hourglass modules。但有一点不同的是: 在hourglass modules中，没有使用 max pooling，而是简单使用了stride 为 2的卷积，来进行下采样。作者把特征分辨率下降了5倍，然后相对应增加它们的通道数(256,384,384,384,512).当进行上采样的时候，使用了2个residual modules 加1个nearest neighbor upsampling。

prediction heads结构如下:

2. Detecting Corner

预测角点是通过网络生成两个heatmaps实现的。 一个heatmaps用于左上角，一个heatmaps用于右下角。每一个heatmaps有C个通道，C是类别的总数。其大小为 $\times W$ 。没有background 的通道。每一个通道是一个二值掩膜(binary mask)，表示一个类别中点的位置。
对于每一个角点，只有一个地方是ground-truth location，其他的都是negative。在训练的时候，作者引入了penalty机制。在positive 一定的半径范围内的negative locations,作者减少了penalty，因为这些位置上可以生成与ground-truth bounding boxes overlap较大的框。作者通过目标的大小决定半径，确保在半径范围内的一对点可以生成一个bounding box,与ground-truth有至少0.3 的IoU。penalty reduction是通过一个unnormalized 2D Gaussian ( $e−x2+y22σ2e^{-\frac{x^2+y^2}{2\sigma^2}}$ )实现的，其中心是positive location和 $σ\sigma$ 是半径的1/3。

假设 $p_{cij}$ 是位置 $(i, j)$ 和类别为 $c$ 在heatmaps上的概率， $y_{cij}$ 是添加了unnormalized Guassian的ground-truth heatmaps。作者设计了以下Focal loss:

$ycij=1(1−ycij)β(pcij)αlog(1−pcij)otherwiseL_{det} = -\frac{1}{N}\sum_{c=1}^C \sum_{i=1}^H \sum_{j=1}^W \bigg \{ \begin{aligned} (1-p_{cij})^{\alpha}log(p_{cij}) \quad& \text{if} ~ ~y_{cij}=1 \\ (1-y_{cij})^{\beta}(p_{cij})^\alpha log(1-p_{cij})\quad& \text{otherwise} \end{aligned}$

其中， $N$ 是图像中目标的数量。 $α,β\alpha, \beta$ 是超参数。

当从heatmaps重映射回去图像的时候，有可能会有误差。因此作者引入了一个offsets branch，预测location offsets，用于重映射回原图相分辨率大小之前，轻微调整角点的位置。
$ok=(xkn−⌊xkn⌋,ykn−⌊ykn⌋)o_k=(\frac{x_k}{n} - \lfloor\frac{x_k}{n}\rfloor, \frac{y_k}{n}-\lfloor\frac{y_k}{n}\rfloor)$

其中， $o_k$ 是offset， $x_k$ 和 $y_k$ 是角点 $k$ 的 $x, y$ 坐标。 $n$ 是下采样因子。使用Smooth-L1 loss进行训练:
$Loff=1N∑k=1NSmoothL1Loss(ok,o^k)L_{off} = \frac{1}{N}\sum_{k=1}^N SmoothL1Loss(o_k, \hat{o}_k)$

3. Grouping Corners

我们需要判断以下哪一个左上角的角点对应于哪一个右下角的角点，所以才能形成一个bounding box。这是通过一个embeding vector来实现的。网络对每一个角点预测了一个embedding vector,然后如果左上角和右下角的角点属于同一个Bounding box，它们的embedding距离应该是很小的。所以就可以直接诶把他们分为一组。embedding vector是一维的，用 $e_{t_K}$ 表示目标 $k$ 的左上角embedding, $e_{b_k}$ 表示右下角。使用"pull" loss和"push" loss来训练这个网络:

$Lpull=1N∑k=1N[(etk−ek)2+(ebk−ek)2]L_{pull} = \frac{1}{N}\sum_{k=1}^N[{(e_{t_k}-e_k)^2 + (e_{b_k} - e_k)^2}]$

$Lpush=1N(N−1)∑k=1N∑j=1j≠kmax⁡(0,Δ−∣ek−ej∣)L_{push} = \frac{1}{N(N-1)}\sum_{k=1}^N\sum_{ \begin{matrix} j=1 \\ j\neq k \end{matrix}}\max(0, \Delta - |e_k - e_j|)$
其中， $e_k$ 是 $e_{t_k}$ 和 $e_{b_k}$ 的平均数。 $Δ\Delta$ 为1。

和offset loss一样，我们只在ground-truth corner 位置上的点进行计算。

4. Corner Pooling

通常目标没有明确的角点特征。所以为了确定哪个像素是左上角角点，我们需要水平向右看一个物体的最上面的边界，垂直向下看最左边的边界。因此作者提出了Corner Pooling 来更好的定位角点。

假设我们判断像素位置 $(i, j)$ 是否是左上角的角点，假设 $f_t$ 和 $f_l$ 为feature maps， $f_{t_{ij}}$ 和 $f_{l_{ij}}$ 为位置 $(i, j)$ 在 $f_t$ 和 $f_l$ 的向量。如果有 $\times W$ 大小的feature maps， Corner Pooling首先 max pooling 在区间 $(i, j)$ 和 $(i, H)$ 中的所有特征向量，也就是在这一行内，找最大值。接着max pooling 在区间 $(i, j)$ 到区间 $(W, j)$ 的特征向量，也就是在这一列里面，找到最大值。最后把这两个值相加。如下图所示。这个过程可以用数学表示为:
$i<HftHjotherwiset_{ij} = \biggl \{ \begin{matrix} \max(f_{t_{ij}}, t_{(i+1)j}) \quad \text{if} ~~ i< H \\ f_{t_{Hj}} \quad \quad \quad \quad \quad \quad \text{otherwise} \end{matrix}$
$j<WfliWotherwisel_{ij} = \biggl \{ \begin{matrix} \max(f_{l_{ij}}, l_{i(j+1)}) \quad \text{if} ~~ j< W \\ f_{l_{iW}} \quad \quad \quad \quad \quad \quad \text{otherwise} \end{matrix}$

右下角的角点同样的方法。Corner Pooling 在prediction heads中使用，用来预测heatmaps, embeddings和offsets。

5. 整体的Loss:

$L=Ldet+αLpull+βLpush+γLoffL=L_{det} + \alpha L_{pull} + \beta L_{push} + \gamma L_{off}$

四、 Conclusion

CornerNet 角点检测，如果任何一个角丢失了，就会丢失一个物体；需要精确的offset来生成紧密的边界框；不正确的embedding将导致许多错误的边界框。论文原文:

This suggests that although there is still ample room for improvement in both detecting and grouping corners, the main bottleneck is detecting corners.

但相对于一些anchors的检测器，它的bounding boxes质量会高很多，得益于corner pooling。

五、 Reference