ICCV2019——SCRDet Towards More Robust Detection for Small, Cluttered and Rotated Objects

文章目录

ICCV2019——SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects
- 1.Abstract
- 2.Introduction
- 3.SCRDet
- - 3.1 SF-Net
  - 3.2 MDA-Net
  - 3.3 Rotation Branch
  - - 3.3.1 ROI Align And GAP
    - 3.3.2 The regression of the rotation bounding box
    - 3.3.3 Loss Function
    - - 3.3.3.1 Regrssion Loss
      - 3.3.3.2 Attention Loss
      - 3.3.3.3 Classification Loss
- 4.Experience
- - 4.1 Ablative study
  - 4.2 Peer Methods Comparison
  - 4.3 Experiments on Natural Images
- 5. Conclusion

ICCV2019——SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects

论文地址：https://arxiv.org/abs/1811.07126
开源代码：https://github.com/DetectionTeamUCAS/R2CNN-Plus-Plus_Tensorflow

1.Abstract

目标检测一直是计算机视觉的一个重要组成部分。虽然已经取得了很大的进展，但对于小尺寸、任意方向、密集分布的物体仍然存在挑战。除了自然图像外，这些问题在非常重要的航空图像中尤为突出。本文提出了一种适用于小、杂、旋转物体的多类别旋转检测器SCRDet。为了提高对小目标的敏感度，设计了一种融合多层特征和有效锚定采样的采样融合网络。同时，结合有监督像素注意网络和信道注意网络，通过抑制噪声和突出目标特征来实现对小目标和杂乱目标的检测。为了获得更精确的旋转估计，在平滑L1损失中加入IoU常数因子，以解决旋转边界盒的边界问题。

2.Introduction

遥感图像的三大挑战：

（1）小物件，航空图像通常包含被复杂的周围场景淹没的小物体

（2）杂乱的排列，用于探测的物体通常排列密集，如车辆和船舶

（3）任意方向，航空图像中的物体可以以不同的方向出现。遥感中普遍存在的大长宽比问题对其提出了进一步的挑战。

本文的主要贡献：

（1）针对小目标，设计了一个集特征融合和精细锚定采样于一体的采样融合网络（SF-Net）

（2）针对杂乱的排列，为了抑制噪声，突出前景，文章提出了一种由像素注意网络和通道注意网络组成的监督多维注意网络（MDA-Net）

（3）针对任意方向的杂乱密集目标，引入角度相关参数进行估计，设计了角度敏感网络。提出了一种改进的smooth L1 loss的方法，通过增加双常数因子来解决旋转包围盒回归的边界问题，以提高对任意旋转对象的鲁棒处理能力。

（4）本文提出的方法可以应用于自然图像，并且与一般的检测算法相结合超越了最先进的方法。

目前使用的方法：

3.SCRDet

SCRDet主要由SF-Net，MDA-Net和Rotation Branch三个部分组成。SF-Net，MDA-Net主要通过不断的强化目标来提取新的特征图，然后利用Rotation Branch来进行位置的回归和分类。

3.1 SF-Net

上图为SF-Net的流程图来看，我们可以获得以下信息：

SF-Net中我们只使用ResNet中的C3和C4层来进行融合，目的是为了平衡语义信息和位置信息，只使用C3和C4可以更好的捕获有效信息，忽略不相关特征。
在基于锚的检测框架中，SA的值等于特征映射相对于原始图像的缩减因子，直观点的说输入的图片为800 * 800（指W和H）,若SA=4的话则输出200 * 200。（这里的SA的值是2的指数倍数）。

上述的是不同的锚距下的采样，橙黄色边框表示锚点，绿色框表示地面真相，红色边框表示锚点与地面真相框IOU最大的锚点（这里解释一下，一个锚点周围有众多个以锚点为中心的橙黄色框，而红色边框就是在这些橙黄色边框中找出与绿色的地面真相框的IOU最大的框）。由上图可见，SA越小，锚点对应的框与地面真相框的max IOU更大，即效果更好。
SF-Net的两个通道（C3和C4）都上采样到SA=S（将特征图缩小至最原始输入图的1/S），这里S是预期的锚距，如下图所示，实验在DOTA数据集上，进行不同锚距S的测试下得出结果，在精度和速度之间权衡，S的值普遍设为6。

（这里OBB指oriented bbox，即水平框；HBB指horizontal bbox，带有方向的框），如下图
C3经过上采样后，加入了一个Inception Model来扩大C3的感受野，并增加语义信息。（这里Inception model如上面的图所示，通过不同比例的卷积核来捕获目标的多样性，Filter concatenation指将图片的深度叠加），最后将此通道的元素和C4上采样后的特征元素相加，得到新的特征图F3。

3.2 MDA-Net

使用MDA-Net的目的：由于后面的步骤我们需要用RPN提取区域目标，可能会引入大量的噪声信息（如图b），过多的噪声淹没目标信息，且目标之间的边界变得模糊（如图a）。因此我们有必要增强目标线索，弱化非目标信息。
MDA-Net流程：
- 像素注意网络：将特征图F3经过Inception Module通过不同比例的卷积核提取不同范围的目标特征，经过卷积操作得到一个双通道的显著映射图（前景和背景）。然后我们对该显著图进行softmax操作，来使显著性图的值在[0,1]之间，然后来降低噪声，相对增强目标信息。这里为了保存显著图的上下文信息，我们为了指导这个有监督学习过程，我们得到一个二值映射做为标签。
- 通道注意网络：通过GAP获得通道数C，然后降维至输入的1/r，经relu激励函数，恢复原来维度，然后通过sigmoid函数得到权重
- 三者相乘：将经softmax后的显著图的其中一个通道，F3特征图，通道注意网络得到的权重三者相乘

3.3 Rotation Branch

3.3.1 ROI Align And GAP

在RPN建议区域目标后，我们为了充分利用训练前的权重资源，将fc6和fc7换成了C5 block（ROI Align）和GAP（全局平均池）

ROI Align是一个取消量化操作，使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值，从而将整个特征聚集转化的一个连续过程。

通俗理解：输入一张800 * 800的图片，图上有一个600 * 600的目标包围框，然后我们通过主干网络提取特征后，图片缩小成1/32，因此特征图尺寸为25 * 25，而包围框尺寸为18.75 * 18.75，我们通过常规方法ROI Pooling量化后包围框尺寸为18 * 18，因此偏差0.75。而ROI Align则是不进行量化，通过插值法来将特征聚集。

由于在遥感航拍图像上我们要检测的小目标居多，因此例如0.75的偏差在大型对象上可能影响很小，但是在小目标上就会造成较大误差。所以在这里我们加上C5 block。
全局平均池来代替全连接层是一个减少计算量，防止过拟合的常见方法。

简单来说就是少了FC层这个中间过渡，一个FC层中间需要大量的调优参数，而我们使用GAP减少了中间的复杂计算，在最终输出结果相同的情况下，降低了空间参数，防止过拟合且减少计算量。

3.3.2 The regression of the rotation bounding box

参数	意义
x	中心坐标x
y	中心坐标y
w	宽度
h	高度
θ	角度（与x轴夹角）
x	地面真值箱（适用y,w,h,θ）
xa	锚定箱（适用y,w,h,θ）
x’	预测箱（适用y,w,h,θ）

3.3.3 Loss Function

skew IOU and R-NMS：
轴对齐目标框上的IOU会导致斜交目标框IOU不准确，从而破坏预测，因策我们提出一种基于三角剖分思想的skew IOU，且R-NMS做为skew IOU的后续操作（不同类别R-NMS设置的阈值不同）

多任务损失：

3.3.3.1 Regrssion Loss

参数	意义
N	候选框数量
λ1	折衷参数，取值为4
t’n	二进制值，等于0为前景，等于1为背景
Lreg	smooth L1 Loss
v’*j	预测框偏移矢量
v*j	真实框的目标向量