Small Object Detection using Context and Attention（论文阅读笔记）

Small Object Detection using Context and Attention 论文阅读笔记

出处：2021 International Conference on Artificial Intelligence in Information and Communication (ICAIIC) Jeju Island, Korea

一、介绍

目标检测算法在各种环境下的应用存在许多局限性，特别是检测小物体仍然具有挑战性，因为它们的分辨率低，信息有限。

文章提出了一种使用上下文的目标检测方法，以提高检测小目标的准确性。该方法通过连接多尺度特征，将来自不同层次的附加特征作为上下文。
提出了具有注意机制的目标检测，该机制可以聚焦于图像中的目标，并包含目标层的上下文信息。

实验结果表明，与传统的SSD相比，该方法对小目标的检测精度更高。此外，对于300×300的输入图像，在PASCAL VOC2007测试集上实现了78.1%的平均精度(mAP)。

二、相关工作

2.1 基于深度学习的目标检测

R-CNN：利用深度学习进行物体检测的第一个尝试，但对于实时应用程序来说，它太慢了，因为它对每个候选区域都是顺序通过cnn的。
Fast R-CNN：对所有候选区域只执行一次特征提取。但这两项工作仍然对区域建议使用了单独的阶段。
YOLO、SSD：实时目标检测。

2.1 小目标检测

SSD：提出减少大型目标的尺寸，以克服数据不足的问题。
DSSD：对SSD的所有特征图都采用反卷积技术，得到按比例放大的特征图。但由于将反卷积模块应用于所有的特征图，增加了模型的复杂性，降低了速度。
R-SSD：通过池化和反卷积集合不同尺度的特征得到比DSSD更高的准确率和更快的速度。
利用GAN将低分辨的特征变成高分辨率的特征。

2.1 视觉注意力网络

《K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhudinov, R. Zemel, and Y . Bengio. Show, attend and tell: Neural image caption generation with visual attention. InInternational conference on machine learning, pages 2048–2057,2015.》利用视觉注意生成图像字幕。为了生成对应图像的标题，他们使用了LSTM 处理给定图像的相关部分。
《S. Sharma, R. Kiros, and R. Salakhutdinov. Action recognition using visual attention.arXiv preprint arXiv:1511.04119,2015.》将注意力机制应用于视频中的动作识别。
《F. Wang, M. Jiang, C. Qian, S. Yang, C. Li, H. Zhang,X. Wang, and X. Tang. Residual attention network for image classification.arXiv preprint arXiv:1704.06904, 2017.》通过叠加残差注意模块提高了ImageNet数据集的分类性能。

三、方法

3.1 Single Shot Multibox Detector (SSD)

文章以SSD为baseline，基于VGG16为骨干网络，添加图层来创建不同分辨率的feature map。从每一个特征，加上一个额外的卷积层来匹配输出通道，网络预测输出，包括bbox回归和目标分类。但在小对象上的性能仍然较低，VOC 2007的性能为20.7%，仍有很大的提升空间。

文章认为，第一，这是因为缺乏上下文信息来检测小对象。需从缺乏语义信息的浅层特征中提取小目标检测特征。第二，加入注意力模块来关注更重要的部分。

3.2 F-SSD: SSD with context by feature fusion

目标特征来自Conv4_3，上下文特征来自Conn7和Conv8_2。

由于3个特征层具有不同的空间大小，文章提出了如下的融合方法，并对上下文特征进行反卷积，同时，设置上下文特征通道数为目标特征通道数的一半，以至于不会压倒目标特征本身。

3.3 A-SSD: SSD with attention module

将一个两阶段的注意力模块加到了Conv4_3和Conv7之后。
残差注意力模块：

第一阶段的Down-up采样网络：

第二阶段的Down-up采样网络：

以及残差模块：

3.4 FA-SSD: Combining feature fusion and attention in SSD

四、实验

4.1 实验设置

backbone:VGG16
input size:300*300
训练集：VOC2007 and VOC2012 trainval datasets
测试集：VOC2007 test dataset

4.2 消融实验

4.3 推理时间

4.4 定性结果

4.5 注意力可视化

4.6 以ResNet为主干的实验

4.7 在 VOC2007 test上的结果

五、结论

文章提出的改进有：

利用上下文信息=融合不同尺度的特征
增加注意力机制