暴力改进SSD | 小目标检测的福音

作者 | 小书童编辑 | 集智书童

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心技术交流群

小目标检测是一个具有挑战性的问题。在过去的几年里，卷积神经网络的方法取得了相当大的进展。然而，目前的检测器却难以实现对小尺度物体的有效特征提取。

为了解决这一挑战，本文提出了图像金字塔Single-shot检测器（IPSSD）。在IPSSD中，采用Single-shot检测器与图像金字塔网络相结合，提取语义上较强的特征来生成候选区域。该网络可以增强特征金字塔网络的小尺度特征。

作者在两个公共数据集上评估了所提出的模型的性能。结果表明，本文所提的模型的性能优于其他最先进的目标检测器。

1、介绍

随着遥感技术的快速发展，遥感图像分析（RSI）因其在学术和工业上的影响而成为一个热门领域。RSI中的目标检测是一个重要的研究领域，也已经进行了大量的研究，为了解决实际问题，已经开发了几种目标检测方法Multi-vision network、MFPN、ASSD。在过去几年中，由于深度学习模型的巨大进步，自然图像中的目标检测已经取得了巨大的成功，包括SSD、R-CNN、用于目标检测的特征金字塔网络（FPN），以及YOLO模型。

最近，用于自然图像的目标检测方法已应用于RSI中的目标检测。Dong等人提出了一个基于Faster r-cnn的模型，并采用转移学习来减少丢失小物体的可能性。

在Cfc-net中，作者提出了一种基于FPN的特征捕获网络，通过改进特征表示和优化标签分配来提高检测精度。

Wang等人介绍了一种名为特征合并Single-shot检测网络（FMSSD）的架构，该架构通过使用FPN和不同的采样率来集成各种大小的信息，以提高特征的质量。

在Olcn中，通过使用低耦合回归和感受野优化层，提出了一种用于小目标检测的模型，以更好地估计感兴趣区域（RoI）。

在REF中，作者提出了一种在各种尺度和方向上提取语义强特征的架构，以更好地检测RSI中的小对象。然而，现有模型中忽略了小目标检测的问题，并且有很大的空间来提高模型的性能。

正如前面所讨论的，在RSI中准确检测仅占据10×10像素区域的小物体是具有挑战性的。在本文中提出了一种基于SSD的新架构来解决上述挑战。本文的主要贡献如下。

通过将图像金字塔网络集成到SSD（IPSSD）中，设计了一种用于小目标的检测管道，以实现更强大的语义特征。
提出了旋转池化层来覆盖水平和定向区域提议，并设计了定制的特征融合模型，以使提取的特征以更好的形式融合。
评估了RSI中的几种最新目标检测模型，并对其性能进行了说明。

2、本文方法

SSD显示了一个有希望的检测结果。在SSD中，每个预测层具有不同的分辨率，其中较浅的层参与小目标检测，较深的层参与大目标预测。尽管SSD具有高性能，但由于SSD早期层中的语义信息较差，因此无法检测小目标。为了解决这个问题，作者通过将SSD与作者提出的图像金字塔网络（IPN）集成以提取ROI来提高特征图的质量。

与区域提议网络（RPN）中仅能够覆盖水平区域proposals的最大池化层不同，提出的旋转池化层可以处理水平和定向区域proposals。此外，还设计了一个特征融合网络（FFN）来改善上下文信息。图1说明了IPSSD的体系结构。

在提出的架构中，SSD被用作基线检测器，其中每个层检测特定比例的目标。这意味着，较浅的层预测小目标，而较大的目标由较深的层预测。然而，由于较浅层中的语义信息不足，SSD无法准确检测小目标。为了解决这个问题，作者使用IPN扩展SSD以提高SSD的性能。

如图1所示，IPSSD包含2个主流：标准SSD和IPN。对于SSD，主干是VGG-16，为了更好地提取特征，增加了更小的卷积层。在本文的模型中，不同规模的IPN层使用FFN集成到SSD的层中。

2.1、Image pyramid network

标准FPN的计算效率和效率都不高，因为CNN处理每个图像的各种尺度。为了解决这个问题，作者提出了一个有效的模型，通过IPN中的RPN生成目标候选。网络包含缩减过程。作为输入的IPN接收不同大小的图像以生成一组框偏移。然后，根据框偏移的比例，模块选择最佳大小的特征图。

首先形成输入图像X，该模型通过缩小输入图像来生成多尺度图像＝，其中，表示IPN的层。为了构建多尺度特征图，图像由IPN 处理，其中表示每个层的特征。IPN具有2个1×1和2个3×3层，具有不同数量的通道。

2.2、Oriented candidate regions network

标准RPN采用Anchor来创建ROI。然而，在RSI中，物体的尺度很小，方向各异。事实上，标准RPN创建的水平候选不足以应对RSI中的有困难对目标，为了解决这个问题，作者对标准RPN进行了如下修改：

删除了最后3个FC层和softmax层;
在卷积层[5−3]之前添加称为reg−conv的网络;
3×3×512大小的卷积核用于在分类特征图上生成512维的特征向量;
生成的特征向量由和层处理。

对于定向Anchor方案，遵循Sig-nms-based faster rcnn来创建具有各种定向的ROI，并生成更适合的区域，以便更好地检测小目标。更具体地说，候选区域被分成几个子区域。因此，子区域具有与候选区域相同的取向，并且每个子区域具有、的大小。

在本文的模型中，每个输入的旋转区域建议由定义，其中是边界框的中心，分别是边界框（bbox）的高度和宽度，表示从x轴的绝对方向到具有空间大小S的定向bbox的长边的位置。因此，每个子区域的左上角计算为：

其中，,且的旋转坐标计算如下：

2.3、Feature fusion network

为了改善空间信息，作者还引入了FFN，以将IPN层的特征与SSD层相结合（见图2(d)）。

在FFN中，首先，IPN层的输出经过3×3和1×1对流层，然而，每个SSD层的输出仅经过1×1的对流层。然后，通过添加将每个IPN层和SSD层的特征结合起来。然后，存在用于检测的3×3和1×1 Conv层，其中，表示包括1×1、3×3、BN层的过程，表示ReLU激活。

3、实验

3.1、模型比较

为了评估IPSSD在小目标检测中的性能，选择了几个最先进的模型来进行定量和定性的比较。

在表I和表II中报告了模型在DOTA和NWPU数据集的3个小目标类别上与其他方法的检测结果。DOTA上SSD的检测率为70.72mAP，处理速度为64FPS。FMSSD在22 FPS的处理速度下实现了78.06 mAP。然而，IPSSD在53 FPS下处理时达到79.24 mAP。

在图2中评估了IPSSD与其他方法的性能。结果表明，IPSSD可以稳定地产生精确的结果。NWPU数据集模型也优于最先进的模型。本文的检测器达到93.35%的mAP。这一进展是以下部分的结果。

通过将IPN结合到SSD中可以创建了一个架构，其中每个图像尺度都具有功能，从而提高了检测器的性能。
FFN可以提高提出的模型对整个目标部分的关注，从而实现更准确的小目标检测。

图3为DOTA上平均定位误差及与背景混淆的曲线图。与其他模型相比，IPSSD具有更好的性能。

4、参考

[1].ENHANCED SINGLE-SHOT DETECTOR FOR SMALL OBJECT DETECTION IN REMOTE SENSING IMAGES.

【自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、硬件配置、AI求职交流等方向；

添加汽车人助理微信邀请入群

备注：学校/公司+方向+昵称