2022最新综述 | 面向大规模场景的小目标检测：综述和 benchmark

点击上方“计算机视觉工坊”，选择“星标”

干货第一时间送达

作者丨汽车人

来源丨自动驾驶之心

1论文背景

目标检测在过去几年中取得了显著的进展，然而，由于小目标视觉特征较差、噪声较多，小目标检测已成为计算机视觉中最具有挑战性的任务之一。此外，用于小尺寸目标检测的大规模基准测试数据集仍然不够全面。本文首先对小目标检测方法进行了全面的回顾，除此之外，还构建了两个大规模小目标检测数据集（SODA），SODA-D和SODA-A，分别关注驾驶场景和空中场景。SODA-D包括24704张高质量交通图像和9个类别的277596个实例。SODA-A收集了2510张高分辨率航空图像，并在9个类中注释了800203个实例。SODA数据集是目前为止最大规模的小目标检测数据集。

数据集和代码将会在：https://shaunyuan22.github.io/SODA/上公布

2应用背景

小目标检测在监控、无人机场景分析、行人检测、自主驾驶交通标志检测等各种场景中具有重要的理论和现实意义；

虽然在通用目标检测方面取得了实质性进展，但小目标检测的研究进展相对缓慢，即使是SOTA网络，在检测小目标和正常尺寸目标方面也存在巨大的性能差距。以DyHead为例，DyHead在COCO测试集上小目标的平均精度（mAP）度量仅为28.3%，显著落后于中型和大型目标（分别为50.3%和57.5%）。我们认为这种性能下降有两个原因：

1）从小物体的有限和扭曲信息中学习适当表征存在固有的困难；

2）缺乏用于小对象检测的大规模数据集；

目前可用的数据集无法支持小目标检测的模型训练，也无法作为评估算法的公正基准。同时，作为构建数据驱动的深度CNN模型基础，大规模数据集的可访问性，如PASCAL VOC、ImageNet、COCO至关重要；

下图显示了前期的一些目标检测算法综述：

论文主要贡献

回顾了深度学习时代小目标检测的发展，并系统地综述了该领域的最新进展，可分为6类：数据处理方法、尺度感知方法、特征融合方法、超分辨率方法、上下文建模方法和其他方法。除分类外，还对这些方法的优缺点进行了深入分析。同时，我们回顾了跨越多个领域的十几个与小目标检测相关的数据集；
发布了两个用于小目标检测的大规模基准，其中第一个专用于驾驶场景，另一个专用于空中场景。拟议的数据集是首次尝试为小目标检测量身定制大规模基准，我们希望这两个详尽注释的基准可以帮助研究人员开发和验证小目标检测的有效框架，并促进该领域的更多突破；3.在我们的数据集上调查了几种有代表性的目标检测方法的性能，并根据定量和定性结果进行了深入分析，这可能有助于后面进行小目标检测的研究；

3小目标检测基础回顾

问题定义

术语“微小”和“小”通常由面积阈值或长度阈值定义，以COCO为例，面积小于等于1024像素的对象属于小目标，考虑到目前为止没有关于小对象的统一和明确的定义，除非另有规定，在论文中遵循原始文件中关于这些微小术语的表达。

主要挑战

包括目标信息丢失、噪声特征表示和边界框扰动的低容忍；

1.目标信息丢失

特征提取器通常利用子采样操作来过滤噪声，并降低特征图的空间分辨率，从而不可避免地丢失目标信息。考虑到最终特征仍然保留了足够的信息，这种信息丢失在一定程度上几乎不会影响大中型对象的性能。然而这对小目标来说是致命的，因为检测头很难在高度结构化的表示上给出准确预测，在这种表示中，小物体的微弱信号几乎被消除。

2.噪声特征表示

判别特征对于分类和定位任务都至关重要，小物体通常分辨率低，外观质量差，因此很难从其扭曲的结构中进行区分学习。同时，小对象的区域特征容易受到背景和其他情况的污染，从而进一步将噪声引入学习表示。综上所述，小目标的特征表示容易受到噪声的影响，阻碍后续检测。

3.边界框扰动的低容忍

定位作为检测的主要任务之一，在大多数检测范式中被表述为回归问题，其中定位分支被设计为输出边界框偏移，通常采用联合交集（IoU）度量来评估精度。然而，定位小对象比定位大对象更困难。如图下图所示，与中大型对象（56.6%和71.8%）相比，小对象预测框的微小偏差（沿对角线方向的6个像素）导致IoU显著下降（从100%降至32.5%）。同时，更大的差异（例如，12像素）进一步加剧了这种情况，对于小对象，IoU下降到可怜的8.7%。也就是说，与较大的对象相比，小对象对box扰动的容忍度较低，从而加剧了回归分支的学习。

近年来小目标检测上的一些范式和方法，主要包括：

数据增强方式

基于重/过采样的方法
自动增强方案

尺度感知方法

分而治之的多尺度检测
自适应定制的训练方案

特征融合方式

自上而下的信息交互
精细特征融合

超分辨率方法

基于学习的尺度扩充
基于GAN的超分辨率框架

上下文建模方法

人类可以有效地利用环境和物体之间的关系或物体之间的相互关系来促进物体和场景的识别。这种捕捉语义或空间关联的先验知识称为上下文，它将证据或线索传递到目标区域之外。上下文信息不仅在人类的视觉系统中至关重要，在场景理解任务中也至关重要。

其它方法

Attention-based methods
Localization-driven optimization
Density analysis guided detection

4小目标检测数据集汇总

目前并没有大规模的小目标检测基线数据集，现开源的主要包括：COCO、WiderFace、TinyPerson、TT100K、DOTA，各个数据集的图像规模和实例规模如下图所示：

5BENCHMARKS

为了一致性起见，论文采用绝对面积作为定义小对象的标准。根据经验，2000年对于定义一个小对象来说是一个相当宽松的界限，因此，论文将对象分为两个组：小对象和微小对象。此外，考虑到当物体尺寸变小进一步将微小物体分为三个子集：极微小（eT）、相对微小（rT）和一般微小（gT）。

论文在自动驾驶和遥感图像上展开了处理；SODA-D中的图像主要来自MVD、自采集和互联网。MVD是一个用于街道场景语义理解的大规模数据集，其中25000张高质量图像是从道路上采集的景观、公路、农村和越野场景。由于MVD的高质量和高分辨率特性，我们可以获得大量具有清晰视觉结构的有价值实例。对于自采集部分，我们使用车载摄像机和手机收集中国几个城市的典型驾驶场景的图像，包括北京、深圳、上海、青岛、广州等。此外，还通过在图像搜索引擎（谷歌、必应、百度等）上搜索关键字来抓取图像。最后获得了30126张交通场景的原始图像。受先驱作品的启发，Google Earth2被用于为SODA-A收集图像，我们从专家建议的全球数百个城市中提取了2976张图像。SODA-A中的图像具有相对较高的分辨率，其中大多数图像的分辨率大于4700×2700，能够获得更精细的细节和足够的上下文，这对小对象检测具有重要意义。

数据集的类别分布及可视化如下图所示：

SODA-A和SODA-D数据集和其它数据的数量类别对比：

SODA-D属性

丰富性高、分辨率高、忽略非忽略标记；

SODA-A属性

密度变化大、各种方向、地点丰富！

6实验

论文还将几种常见的方法在SODA数据集上进行了实验对比，可供后续的研究参考；

SODA-A自动驾驶场景

SODA-D遥感场景

7总结

注释良好的数据集可以作为各种小目标检测方法提供基准测试的平台。在小目标检测的基础上对几种有代表性的算法进行了全面的评估和比较，基于这些结果，我们讨论了几种潜在解决方案和未来发展方向。较深的主干网络可能不利于提取小对象的高质量特征表示，设计一个有效的backbone具有强大的特征提取能力，同时避免高计算成本和信息丢失，这一点至关重要。FPN是小目标检测中不可或缺的一部分。尽管如此，当前的特征金字塔架构对于小目标检测来说并不理想，因为其顶层是冗余的且未使用启发式金字塔级分配策略，此外，在低层特征图上进行检测会带来沉重的计算负担，因此，对小目标检测任务量身定制的高效分层特征架构的需求很高。

本文仅做学术分享，如有侵权，请联系删文。

干货下载与学习

后台回复：巴塞罗那自治大学课件，即可下载国外大学沉淀数年3D Vison精品课件

后台回复：计算机视觉书籍，即可下载3D视觉领域经典书籍pdf

后台回复：3D视觉课程，即可学习3D视觉领域精品课程

计算机视觉工坊精品课程官网：3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

13.重磅！四旋翼飞行器：算法与实战

14.ROS2从入门到精通：理论与实战

15.国内首个3D缺陷检测教程：理论、源码与实战

16.基于Open3D的点云处理入门与实战教程

重磅！计算机视觉工坊-学习交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~