目标检测：Imbalance Problems in Object Detection: A Review

文章目录

1. INTRODUCTION
- 1.1 Scope and Aim
- 1.2 Comparison with Previous Reviews
- 1.3 A Guide to Reading This Review
2 BACKGROUND, DEFINITIONS ANDNOTATION
- 2.1 State of the Art in Object Detection
- 2.2 Frequently Used Terms and Notation
3 对象检测中的不平衡问题及其解决方案的分类
4 IMBALANCE1: CLASSIMBALANCE
- 4.1 Foreground-Background Class Imbalance
- - 4.1.1 Hard Sampling Methods

1. INTRODUCTION

目标检测是同时估计给定图像中目标实例的类别和位置。它是计算机视觉中的一个基本问题，在许多领域有着重要的应用,例如监控、自动驾驶、医疗决策以及机器人技术。

自从目标检测（OD）被视为一个机器学习问题以来，第一代OD方法依赖于手工制作的特征和线性、最大边距分类器。这一代中最成功和最具代表性的方法是可变形零件模型（DPM）。在Krizhevsky等人于2012年所做的极具影响力的工作之后，深度学习（或深度神经网络）开始主导计算机视觉中的各种问题，OD也不例外。当前一代OD方法都基于深度学习，其中第一代方法的手工特征和线性分类器都已被深度神经网络所取代。这种替换带来了性能上的显著改进：在广泛使用的OD基准数据集（PASCAL VOC）上，DPM实现了0.34平均精度（mAP），当前基于深度学习的OD模型达到0.80左右的mAP。

在过去五年中，虽然OD进展的主要驱动力是深度神经网络的结合[16]、[17]、[18]、[19]、[20]、[21]、[22]、[23]，但OD在多个层面上的不平衡问题也受到了极大的关注[24]、[25]、[26]、[27]、[28]、[29]、[30]。当输入属性的分布影响性能时，就会出现输入属性的平衡问题。如果不解决，不平衡问题会对最终检测性能产生不利影响。例如，OD中最常见的不平衡问题是前景和背景的不平衡，表现在正例的数量与负例的数量之间的极端不平等。在给定的图像中，虽然通常有几个正例，但可以提取数百万个负例。如果不加以解决，这种不平衡会大大降低检测精度。

在本文中，我们回顾了深度学习时代的目标检测文献，并确定了八个不同的不平衡问题。我们将这些问题分类为四种主要类型：类别不平衡、规模不平衡、空间不平衡和目标不平衡（表1）。

表1：本文对不平衡问题进行了综述。我们声明，当输入属性的分布影响性能时，就会出现输入属性的不平衡问题。第一列显示了主要的不平衡类别。对于中间列中给出的每个不平衡问题，最后一列显示与不平衡问题的定义相关联的输入属性。

当与不同类别相关的示例数量存在显著不平等时，就会出现类别不平衡。虽然这方面的经典示例是前景背景不平衡，但前景（正）类之间也存在不平衡。当对象具有不同的比例和不同比例的示例数时，会出现比例不平衡。空间不平衡是指与边界框的空间属性相关的一组因素，如回归惩罚、位置和IoU。最后，当有多个损失函数需要最小化时，就会出现目标不平衡，就像OD中经常出现的情况一样（例如分类和回归损失）。

1.1 Scope and Aim

一般来说，不平衡问题在机器学习、计算机视觉和模式识别中有很大的应用范围。我们将本文的重点限制在目标检测中的不平衡问题上。由于当前的最新技术是由基于深度学习的方法形成的，因此我们在本文中讨论的问题和方法与深度对象检测器有关。虽然我们将注意力局限于静止图像中的目标检测，但我们简要讨论了其他领域中不平衡问题的异同。我们相信，这些讨论将为目标检测研究人员提供关于未来研究方向的见解。

给出一个全面的目标检测背景不是本文的目标之一;然而，要充分利用本文，还需要了解一些目标检测的背景知识。对于这个主题的全面背景，我们请读者参阅最近的全面的目标检测综述[31]，[32]，[33]。在第2.1节中，我们只提供关于最先进的目标检测的简要背景。

本文的主要目的是全面介绍和讨论目标检测中的不平衡问题。为了做到这一点：

我们确定并定义了不平衡问题，并提出了一个分类法来研究这些问题及其解决方案。
我们对现有的研究进行了批判性的文献综述，旨在系统地统一这些研究。我们的文献概述包括问题的定义、主要方法的总结、具体解决方案的深入研究以及解决方案的比较总结。
我们在问题层面和总体上提出和讨论公开问题。
我们还为除目标检测以外的领域中发现的不平衡问题保留了一个部分。本节对各种方法进行了仔细的检查，考虑到它们对目标检测管道的适应性。
最后，我们提供了一个附件网页：ObjectDetectionImbalance，它是一个动态更新的存储库，根据我们基于问题的分类法组织，存储了解决不平衡问题的论文。本网页将不断更新新的研究。

1.2 Comparison with Previous Reviews

最近的目标检测调查[31]、[32]、[33]旨在展示基于深度学习的通用目标检测的进展。为此，这些调查提出了目标检测方法的分类，并对一些影响很大的基础方法进行了详细分析。他们还提供了关于流行数据集和评估指标的讨论。从不平衡的角度来看，这些调查只考虑了类不平衡的问题，有一个有限的规定。此外，Zou等人[32]对处理规模不平衡的方法进行了综述。与这些调查不同，在这里，我们重点对与目标检测相关的不平衡问题进行分类，并对处理这些不平衡问题的方法进行全面回顾。

也有针对特定类别目标检测的调查（例如行人检测、车辆检测、人脸检测）[34]、[35]、[36]、[37]。尽管Zehang Sun等人[34]和Dollar等人[35]介绍了当前深度学习时代之前提出的方法，但从不平衡的角度来看，它们是有益的，因为它们全面分析了处理规模不平衡的特征提取方法。Zafeiriou等人[36]和Yin等人[38]提出了非深度和深度方法的比较分析。Litjens等人[39]讨论了基于深度神经网络的分类、检测、分割方法在医学图像分析中的应用。他们提出了挑战和可能的解决方案，其中包括对类不平衡问题的有限探索。这些类别特定的对象检测器专注于单个类，而没有从通用对象检测的角度全面地考虑不平衡问题。

另一组相关工作包括专门针对机器学习中不平衡问题的研究[40]、[41]、[42]、[43]。这些研究仅限于我们的背景下的前景类不平衡问题（即没有背景类）。通常，它们包括数据集级方法，如欠采样和过采样，以及算法级方法，包括特征选择、核修改和加权方法。与此类研究相比，我们确定了我们工作的三个主要差异。首先，这类工作的主要范围是分类问题，仍然与目标检测相关；然而，除了识别方面外，目标检测还有一个“搜索”方面，它将背景（即负片）类引入到图片中。其次，除了约翰逊等人（43），他们一般都考虑机器学习方法，而没有特别关注基于深度学习的方法。最后，更重要的是，这些工作只考虑前景类不平衡问题，这只是我们在这里提出和讨论的八个不同的不平衡问题之一（表1）。

1.3 A Guide to Reading This Review

论文的结构如下：
第2节简要介绍了目标检测的背景，以及本文中经常使用的术语和符号列表。
第3节介绍了不平衡问题的分类。
第4-7节详细介绍了每个不平衡问题，并对建议的解决方案进行了批判性审查，包括每个不平衡问题的未决问题。每一节都专门讨论一个特定的不平衡问题，它被设计成可自读的，包含定义和对所建议的方法的回顾。
第8节中，我们介绍了解决其他但密切相关领域不平衡的解决方案。
第9节讨论与所有不平衡问题相关的未决问题。
最后，第10节总结了本文。

熟悉当前最先进的对象检测方法的读者可以直接跳到第3节，并使用图1浏览不平衡问题和根据分类法专门针对不同问题的部分。对于缺乏最先进的目标检测背景的读者，我们建议从第2节开始。如果这个简短的背景还不够，我们会让读者参考第1.1节中提到的更深入的综述。

2 BACKGROUND, DEFINITIONS ANDNOTATION

在下文中，我们首先简要介绍了最先进的目标检测方法的背景，然后介绍了本文中使用的定义和符号。

2.1 State of the Art in Object Detection

现在有两种主要的目标检测方法：自顶向下和自下而上。虽然自顶向下和自下而上的方法在深度学习时代之前都很流行，但今天大多数的目标检测方法都遵循自顶向下的方法；自底向上的方法是最近才提出的。自上而下和自下而上方法之间的主要区别在于，在自上而下的方法中，整体对象假设(即锚点、兴趣区域/提议)在检测管道的早期生成和评估，而在自下而上的方法中，整体对象通过分组子对象实体(如关键点或部件)出现，在处理管道的后期。

采用自上而下方法的方法分为两个阶段：两阶段法和一阶段法。两阶段方法[16],[17],[18],[21]的目标是减少产生的大量的负面例子预定义,密集的滑动窗口,称为锚,在可控的范围内通过使用一个提案机制[21],[44],[45]决定了地区最有可能出现的对象,称为Region of Interests (RoIs).。检测网络将目标检测结果以边界框和相关的目标类别概率的形式输出，对这些roi进行进一步处理。最后，对目标检测结果采用非极大值抑制(NMS)方法消除重复或高度重叠的结果。NMS是所有最先进的目标探测器使用的通用后处理步骤。

单阶段自上而下方法，包括SSD变体[19]、[46]、YOLO变体[15]、[20]、[47]和RetinaNet [22]，旨在从输入图像提取特征后，直接从锚预测检测结果，而无需任何建议消除阶段。我们在图1（a）中展示了一个典型的单级目标检测管道。管道首先将输入图像送入特征提取网络，该网络通常是一个深卷积神经网络。生成一组密集的对象假设（称为锚），然后通过将它们与地面真相框匹配来对其进行采样和标记。最后，将标记锚（其特征从特征提取网络的输出中获得）馈送到分类和回归网络进行训练。在两阶段方法中，对象建议（或感兴趣的区域）首先通过单独的网络（因此是两个阶段）使用锚生成。

图1：（a）通用检测网络的公共训练管道。该流程分为3个阶段（即特征提取、检测和BB匹配、标记和采样），以不同的背景颜色表示。（b）通过训练管道进行目标检测的每个类别的示例不平衡问题的说明。背景色指定发生不平衡问题的阶段。

另一方面，自底向上的对象检测方法[23]、[48]、[49]首先预测对象上的重要关键点（如角点、中心点等），然后使用分组方法（如关联嵌入[50]和暴力搜索[49]）将其分组，形成整个对象实例。

2.2 Frequently Used Terms and Notation

表2显示了本文中使用的符号，下面是常用术语列表。

特征提取网络/主干网Backbone：这是从输入图像到检测网络的目标检测管道的一部分。
分类网络/Classifier分类器：这是目标检测管道的一部分，从主干提取的特征到分类结果，由置信度分数表示。
回归网络/Regressor回归器：这是从主干提取的特征到回归输出的对象检测管道的一部分，由两个边界框坐标表示，每个边界框坐标由x轴和y轴值组成。
检测网络/Detector检测器：它是目标检测管道的一部分，包括分类器和回归器。
区域建议网络（RPN）：它是从主干提取的特征到生成的建议的两阶段目标检测管道的一部分，建议还具有置信度分数和边界框坐标。
Bounding Box：图像上限制某些特征的矩形。形式上 [ x 1 , y 1 , x 2 , y 2 ] [x_1,y_1,x_2,y_2] [x1,y1,x2,y2] 确定一个左上角 ( x 1 , y 1 ) (x_1,y_1) (x1,y1)和右下角 ( x 2 , y 2 ) (x_2,y_2) (x2,y2)满足 x 2 > x 1 x_2>x_1 x2>x1和 y 2 > y 1 y_2>y_1 y2>y1的边界框。
锚Anchor：一组预定义的边界框，在这些边界框上应用两级目标检测器中的RPN和一级检测器中的检测网络。
感兴趣区域（RoI）/提议Proposal：由提议机制（如RPN）生成的一组边界框，检测网络应用于两个状态对象检测器。
输入边界框：用于训练检测网络或RPN的采样锚点或RoI。
Ground Truth：它是元组 ( B , u ) (B,u) (B,u)， B B B是边界框， u u u是类标签， u ∈ C u∈C u∈C, C是数据集中类的枚举。
Detection：它是一个元组 ( B ‾ , p ) (\overline{B} ,p) (B,p)，使得 B ‾ \overline{B} B是边界框，p是每个类和边界框的置信度得分上的向量。
Intersection Over Union(IoU)：For a ground truth boxBand a detection box B ‾ \overline{B} B we can formally define Intersection over Union(IoU) denoted by IoU ( B , B ‾ ) (B,\overline{B}) (B,B), as:

such that A ( B ) A(B) A(B) is the area of a bounding box B B B.
Under-represented Class:在类不平衡的情况下，在训练期间数据集或小批量中样本较少的类。
Over-represented Class: 在类不平衡的情况下，在训练期间，数据集中或小批量中有更多样本的类。
Backbone Features: 在主干网应用过程中获得的一组特征。
金字塔特征/特征金字塔 Pyramidal Features/Feature Pyramid：通过对主干特征应用某些变换而获得的特征集。
回归目标输入Regression Objective Input:一些方法通过应用一些变换在对数域中进行预测，这些变换也可能因方法而异（比较Fast R-CNN[17]和KL loss[53]中平滑L1损失的变换），而一些方法直接预测边界框坐标[23]。为了清楚起见，我们使用 x ^ \widehat{x} x 表示任何方法的回归损失输入。

3 对象检测中的不平衡问题及其解决方案的分类

在第1节中，我们将不平衡问题定义为目标检测训练管道中输入属性的分布偏差。在公共目标检测管道的不同阶段可以观察到几种不同类型的这种不平衡（图1）。为了系统地研究这些问题，我们提出了一种基于相关输入属性的分类法。

我们确定了八种不同的失衡问题，并将其分为四大类：class imbalance, scale imbalance, spatial imbalance and objective imbalance.。表1给出了完整的分类法以及每个问题的简要定义。在图2中，我们展示了相同的分类法以及针对每个问题提出的解决方案列表。最后，在图1中，我们展示了一个通用的对象检测管道，其中每个阶段都用其典型的观察到的不平衡问题进行了注释。在下文中，我们将详细阐述前面提供的简要定义，并说明每个不平衡问题发生的典型阶段。

图2：基于问题的分类方法用于不平衡问题。请注意，如果一个方法解决了多个不平衡的问题，它可能会出现在多个位置，例如Libra R-CNN [29]

类别不平衡(Class imbalance)（第4节；图2中的蓝色分支）当某个类过度表示(over-represented )时发生。这个问题可以表现为“前景-背景不平衡”，即背景实例的数量明显多于正面实例；或者“前景-前景不平衡”，其中通常只有一小部分类控制着数据集（如图5中的长尾分布所示）。类不平衡通常在对象检测管道中的“采样”阶段处理（图1）。

比例不平衡(Scale imbalance) （第5节；图2中的绿色分支）当对象实例具有不同的比例以及与不同比例相关的示例数量不同时，可以观察到比例不平衡。这个问题是物体在自然界中具有不同维度这一事实的自然结果。规模还可能导致特性类别的不平衡（通常在图1中的“特性提取”阶段处理），其中来自不同抽象层（即高和低级别）的贡献不平衡。尺度不平衡问题表明，单一尺度的视觉处理不足以检测不同尺度的物体。然而，正如我们将在第5节中看到的，所提出的方法在解决规模不平衡方面存在不足，特别是对于小对象，即使数据集中的小对象数量惊人。

空间不平衡(Spatial imbalance)（第6节；图2中的橙色分支）指的是一组与边界框的空间属性相关的因素。由于这些空间特性，我们确定了三种空间不平衡的子类型：

（i）“回归损失中的不平衡”是关于个别示例对回归损失的贡献，自然问题与损失函数设计有关
（ii）“IoU分布不平衡”与IoU分布中的偏差有关（在地面真值框与锚或检测框之间），通常在目标检测管道的边界框匹配和标记阶段观察（图1）
（iii）“目标位置不平衡”是关于对象实例在图像中的位置分布，这与锚的设计和用于训练检测网络的采样子集有关。

目标不平衡(objective imbalance)（第7节；图2中的紫色分支）发生在有多个目标（损失函数）要最小化时（每个目标都用于特定任务，例如分类和框回归）。由于不同的目标在其范围以及最佳解决方案方面可能不兼容，因此必须制定一项平衡的战略，以找到所有目标都可接受的解决方案。

图2给出了研究界对不同类型的不平衡问题所给予关注的总体情况。例如，虽然针对前景-背景类不平衡问题设计了许多方法，但目标不平衡和对象位置不平衡问题(objective imbalance and object location imbalance)是受到相对较少关注的问题的示例。然而，最近人们对这些不平衡问题的兴趣也在迅速增加（图3），这就需要对这些问题以及本文提出的解决方案有一个结构化的观点和视角。

图3：多年来每个不平衡问题类别的论文数量。

请注意，有些不平衡问题是由数据直接造成的，而有些是所用特定方法的副产品。例如，类不平衡、对象位置不平衡等是现实世界中类分布的自然结果。另一方面 objective 不平衡、特征水平不平衡和回归损失不平衡是由所选方法造成的，并且可能通过一组不同的方法来避免；例如，通过遵循自下而上的方法（通常IoU不是标签标准），可以完全避免IoU分布不平衡

4 IMBALANCE1: CLASSIMBALANCE

当一个类的代表性过高，在数据集中比其他类有更多的示例时，就会观察到类的不平衡。从对象检测的角度来看，这可能以两种不同的方式发生：前景-背景不平衡和前景-前景不平衡。

图4说明了类不平衡的存在。为了生成图表，我们在MS-COCO数据集上应用RetinaNet[22]的默认锚集[90]，并计算了具有地面真值边界框的锚的IoU超过0.5和小于0.4的情况下的频率(即它是一个背景框)，遵循RetinaNet[22]的标记规则。当锚点与前景类重叠时(IoU>0.5)，我们分别为每个类保留一个计数，并将产生的频率与数据集中图像的数量归一化。

这两种类型的类不平衡有不同的特征，已经使用不同类型的解决方案来解决。因此，在下面，我们将分别讨论它们。然而，一些解决方案(例如生成建模)可以用于这两种问题类型。

4.1 Foreground-Background Class Imbalance

Definition: 在前景-背景类不平衡中，过度表示类和欠表示类分别是背景类和前景类。这种类型的问题是不可避免的，因为大多数边界框被边界框匹配和标记模块标记为背景（即负）类，如图4（a）所示。前景-背景不平衡问题发生在训练期间，它不取决于数据集中每个类的示例数，因为它们不包含任何背景annotation。

图4：类别不平衡问题的说明。在MS-COCO[90]上绘制了前景-背景(a)和前景(b)的RetinaNet[22]锚的数量。这些值与数据集中的图像总数进行归一化。这些数字显示了某些阶层的严重失衡。

Solutions：我们可以将前背景类不平衡的解决方案分为四种：（i）硬采样方法，（ii）软采样方法，（iii）无采样方法（iv）生成方法。下面的小节详细解释了每一组方法。

在采样方法中，边界框 ( B B i ) (BB_i) (BBi)对损失函数的贡献 ( w i ) (w_i) (wi)调整如下：

其中 C E ( ) CE() CE()是交叉熵损失。硬采样和软采样方法在 w i w_i wi的可能值上有所不同。对于硬采样方法， w i ∈ { 0 , 1 } w_i∈ \{0,1\} wi∈{0,1}，因此选择或丢弃BB。对于软采样方法， w i ∈ [ 0 , 1 ] w_i∈[0,1] wi∈[0,1]，样本的贡献通过权重进行调整，每个BB以某种方式包括在训练中。

4.1.1 Hard Sampling Methods

硬采样是解决目标检测中不平衡问题的常用方法。它限制为二进制0或1。换句话说，它通过从一组给定的带标签的BB中选择一组正反示例（具有所需数量）来解决不平衡问题。此选择使用启发式方法执行，当前迭代忽略未选择的示例。因此，每个采样示例对损失的贡献相等（即wi=1），而未选择的示例（wi=0）对当前迭代的训练没有贡献。主要方法的总结见表3。

表3：一个玩具示例，描述了常用硬采样和软采样方法的选择方法。从六个边界框（右上角绘制）中选择一个正示例和两个负示例。这些特性是采样方法的基础。预测的地面真实概率（即正面BBs的正类概率和负面BBs的背景概率）。如果我们为本例设置了一个属性或hyperparameter，它将显示在表中。对于软抽样方法，数字是每个盒子的权重（即wi）。我们假设PISA有一个前景类。

一种简单的硬采样方法是随机采样。尽管它很简单，但在R-CNN系列检测器[16]，[21]中使用了它，其中，为了训练RPN，随机均匀地（在所有正示例中）采样128个正示例，并以类似方式采样128个负锚；从批次中的每幅图像中，从其各自集合内随机均匀地采样16个正示例和48个负ROI，用于训练检测网络[17]。在任何情况下，如果正输入边界框的数量小于所需值，则使用随机抽样的负片填充小批次。另一方面，据报道，当考虑输入框的属性（如其损耗值或IoU）时，其他采样策略可能会表现更好[24]、[29]、[30]。

第一组方法考虑采样实例的属性，而不是随机采样，是硬示例挖掘方法。这些方法基于这样一个假设，即使用硬示例（即具有高损耗的示例）对检测器进行更多的训练会导致更好的性能。这一假设的起源可以追溯到早期关于人脸检测[55]、[94]、[95]、人类检测[96]和物体检测[13]的著作中的自举思想。该思想基于使用一组否定示例训练初始模型，然后使用分类器失败的否定示例（即硬示例），训练一个新的分类器。通过迭代应用相同的过程获得多个分类器。目前基于深度学习的方法也采用了一些版本的硬示例挖掘，以便利用示例的损失值提供更多有用的示例。第一个在训练中使用硬示例的深度对象检测器是单次激发检测器[19]，它只选择损失值最高的负面示例。在线硬示例挖掘（OHEM）[24]中提出了一种考虑正负样本损失值的更系统的方法。然而，OHEM需要额外的记忆，导致训练速度降低。考虑到OHEM的效率和内存问题，提出了基于IoU的采样[29]，以将示例的硬度与其IoU关联起来，并再次使用采样方法仅对负面示例进行采样，而不是计算整个集合的损失函数。在基于IoU的采样中，将负样本的IoU间隔划分为kbin，并在每个bin内随机采样相同数量的负样本，以提升IoU较高的样本，预计IoU较高的损失值。

为了提高挖掘性能，一些研究建议限制搜索空间，以便使难挖掘的示例易于挖掘。两级对象检测器[18]、[21]是这些方法中的一种，因为它们的目标是找到给定锚的最可能的边界框（即ROI），然后选择对象性得分最高的前N个ROI，并对其应用额外的采样方法。Fast R-CNN[17]将负roi的IoU下界设为0.1而不是0，以促进hard negatives，然后进行随机抽样。 Kong等人[56]提出了一种在端到端环境中学习对象优先性的方法，以指导在何处搜索对象。在训练过程中，使用所有对象性优先于阈值的正面示例，而选择负面示例，以便在正面类和负面类之间保持所需的平衡（即1:3）。Zhang等人[57]提出在一级检测管道中使用锚定细化模块确定锚定的置信度得分，并再次采用阈值来消除容易出现的负锚定。作者将他们的方法称为负锚过滤。Nie等人[58]在SSD管道中使用了级联检测方案，该方案在每个预测模块之前包含一个对象模块。这些对象性模块是二进制分类器，用于过滤掉简单的锚。

(太多了不想弄了)

推荐：
《Imbalance problems in object detection: A review》笔记
Imbalance Problems in Object Detection: A Review
《Imbalance Problems in Object Detection：A Review》论文笔记
Imbalance Problems in Object Detection: A Review