Confluence: A Robust Non-IoU Alternative to Non-Maxima Suppression in Object Detection

文章目录

Confluence: A Robust Non-IoU Alternative to Non-Maxima Suppression in Object Detection
- 一、Abstract
- 二、INTRODUCTION
- 三、METHODOLOGY
- - 3.1 Manhattan Distance
  - 3.2 Normalization
  - 3.3 Intra-Cluster Retention and Removal
  - 3.4 Confidence Score Weighting
  - 3.5 Implementation
- Experiments

初步翻译，后续细化…
论文下载地址：点击此链接跳转.
这是博主自己在github整理的目标检测方向论文的合集，应该算比较全，2020ECCV(细分版), 2020NIPS已更新完毕，欢迎下载…

一、Abstract

本文提出了一种用来替代贪婪NMS用于目标检测边界框选择和抑制的算法，confulence。该算法不仅依赖于个体置信度分数来选择最优边界框，也不依赖IoU来消除误报。使用曼哈顿距离，选择离聚类中每一个边界框最近的边界框，并去除高度重合的相邻框。因此，Confluence代表了边界框选择和抑制的一个新范式，因为其基于与NMS及其变体完全不同的理论原理。Confluence在RetinaNet, YOLOv3和Mask-RCNN上进行了实验验证，使用MS COCO和PASCAL VOC 2007数据集，Confluence在两个数据集上当使用0.50 : 0.95mAP评价指标时，其mAP和Recall都优于NMS。在各个检测器和数据集上，mAP提升了0.3-0.7%，recall提升了1.4-2.5%。作者对NMS和Confulence算法进行了比较，并通过大量的定性结果分析支持了定量结果。此外，跨mAP阈值的敏感分析实验也验证了Confluence比NMS更健壮。

二、INTRODUCTION

主流的DCNN目标检测器，包括RetinaNet, fast - rcnn和Mask R-CNN会生成不同大小和尺度的类别独立区域建议。分类网络会给每一个proposal分配特定类的置信度分数。定位则是通过proposal回归改进。这些通常都会汇集到相同的RoI中，特别是当检测器高度确信RoI中存在目标时。这会导致提出的边界框会围绕着图像中的感兴趣区域聚集。
YOLOv3基于不同的范例。它没有使用不同大小和尺度的滑动窗口，而是将图像划分为多个部分，对每个部分都分配特定类别的置信度值。消除低置信度的部分，从高置信度部分生成边界框，并利用NMS选择最优的边界框。与RPN网络相比，这样产生的边界框要少得多，因此效率更高。
非极大值抑制(NMS)的作用是通过选择最佳边界框代表每个目标，同时抑制false positive来细化检测。在这个过程中，最重要的是不去掉true positive。图1演示了此步骤的必要性。它举例说明了在使用NMS前后RetinaNet的输出。NMS普遍认为是解决这一问题的首选方案，用于最先进的目标检测器。

三、METHODOLOGY

作者提出的方法叫Confluence。方法得名于在检测目标时，检测结果为目标检测器返回的边界框的整合。Confluence并不是将过多的proposal视为问题，而是将其作为识别最优化边界框的一种方式。这是通过确定与其他边界框最合流的边界框实现的。即最能代表集合中其他边界框的集体相交的边界框。
Confluence是一种两阶段算法，可保留最佳边界框并消除false positive。保留是通过使用置信度加权的曼哈顿距离来激励临近性度量以评估边界框一致性来实现。第二阶段涉及删除所有与保留的边界框汇合的边界框。

3.1 Manhattan Distance

曼哈顿距离又叫L1范式，是两点间垂直距离和水平距离之和。u=(x1x_1x1,y1y_1y1)和v=(x2x_2x2, y2y_2y2)之间的MH可以表示为：

       传统和现代基于DCNN的目标检测器的显著特征是返回大量置信度检测，从而在图像的感兴趣位置周围形成连贯的边界框簇。
       作者提出任意两个边界框之间的接近度P可以用左上角u=(x1x_1x1, y1y_1y1); v=(x2x_2x2, y2y_2y2)和右下角m=(p1p_1p1, q1q_1q1) n=(p2p_2p2, q2q_2q2)坐标对的MH之和表示：

       图2为距离度量的图示：

       P值较小表示两个编辑框高度融合，而高P值则表示两框不是检测的同一目标，它们可能有点重叠或完全不相交。因此可以推断出如果针对某一给定框相对于一组边界框中的每个其他框计算P值，则会得到其与每个框的融合度的度量。当边界框融合较密集时，这种计算会涉及到大量的比较。
       因此，一个被边界框密集包围的框的特征是P值非常低，改边界框可被分为离群值。实际上，这提供了给定位置存在目标时目标检测器的置信度的度量。在此基础上，作者提出集群内p值最低的边界框b代表对给定目标的最可靠的检测。
值得注意的是，该理论克服了NMS及其替代方案所面临的问题，即在得分最高的边界框与另一个较低得分边界框相比是次优框的情况下，NMS会返回次优边界框。这种P度量允许对与分配给给定目标的其他所有边界框最相合的边界框进行偏爱，使其更加健壮。

3.2 Normalization

曼哈顿距离只在边界框大小相似的情况下能够有效作用。但实际上目标及其相应的边界框有不同的大小。当使用基于置信度加权P的超参数来调节边界框的保留或去除时会带来一个问题，需要权衡是移除大的false positive还是保留小的true positive。
       为克服这个问题，作者使用归一化算法在0，1之间缩放边界框坐标，同时保留它们之间的关系。归一化算法会对每个坐标（xix_ixi，yiy_iyi）进行转换：

       归一化允许任意两个大的目标内边界框间的关系与任意两个小的目标边界框之间的关系可比来区分目标内外的边界框，如图3所示。

       从图3中可看出，右侧两个大边界框表示同一对象。左侧的两个小边界框则表示的两个单独的对象。但是在计算P时，将获得相同的值。如下：

       也就是存在区分属于相同或不同目标的边界框的问题。规一化通过保留边界框之间的重叠关系来解决此问题，同时确保任何两个边界框之间的关系是可比较的。归一化能够放大目标内外边界框间的差异，使其更易区分。

3.3 Intra-Cluster Retention and Removal

由于所有坐标对都归一化至0，1之间，任意一对相交边界框的临近值都将低于2。因此如果任意两个边界框间的P值低于2，则假定它们属于同一簇，并且指同一物体或一个或多个高密度目标。一旦识别出集群。对P的值进行升序排序，找到集群内的最佳边界框。在第n个位置具有最小邻近值的边界框被视为最聚合的边界框，保留此边界框。
通过分析集群内的P值的梯度可以选择最聚合的边界框。可视化P值图，使目标内外边界框间的差异由于聚类的斑点性质更加明显，如图4和5所示。每个水平斑点代表一个目标，Confluence会选择边界最能代表给定Blob中其他所有框的框。也就是在以梯度接近零为特征的数据范围内选择了一个框。即使在高密度图像中，这种关系也很明显，在高密度图像中，不同的目标将表示为不同的斑点。
一旦选择了最聚合的边界框，就将所有临近度的值低于预定义阈值的集群内的边界框删除。递归重复此过程，直到处理完所有边界框。

3.4 Confidence Score Weighting

NMS使用目标检测器返回的单个置信度作分数作为唯一标准来选择最佳边界框。相反Confluence通过考虑置信度分数c及和竞争边界框的P值来评估最优边界框b。加权距离WP通过将b的P值除以其置信度分数得到：

由于c的值在0.05到1之间。通过人为地降低WP的值使更偏向于高置信度的框（所有置信度得分低于0.05的边界框不考虑）。相反，低置信度的框的WP值会更大，这增加了选择高置信度框的可能性，因为我们会选择WP值小的边界框。
这个算法基于以下原理：通过使用较弱的单个分类器的和来构建强大的分类器。每个单独的WP值本身就是一个弱分类器，当对这些弱分类器进行集体解释时，它们提供了一种强大的方法将边界框分类为确信的（高confluence）或不确信的（通过相对于其他边界框的不同定位）。本质上是通过目标检测器进行了置信度投票，选择最能代表分配给当前目标的每个其他边界框的边界框。表1表明该方法能够准确识别ture positive，同时可以有效减少false positive，实现最佳map和recall。

3.5 Implementation

Confluence算法的主要步骤是:
1）第1行：创建集合BrB_rBr，SpS_pSp和CpC_pCp以存储边界框及对应的分数和类标签。
2）第2行：分别遍历每个类，使能够处理多类目标检测。对于每个类选择n个边界框，每个表示一个目标。
3）第4行：定义变量bsb_sbs，SsS_sSs为临时存储的当在选择被处理类时的最优框及它们对应的分数。
4）第5行：将变量optimalConfluence初始化为图像大小
5）第6-18行：算法通过循环将边界框bib_ibi与集合B中的其他所有框进行比较
6）第9-10行：归一化坐标关系，然后进行邻近度计算
7）第11行：如果临近度值小于2，则边界框不相交，将被视为单独的目标。这样将b的P值限制为小于2的值。
8）第12-16行：通过收敛由confluence值加权的最小置信度来选择最佳边界框
9）第19-20行：选择了最佳边界框后，将其添加到Bf，连同其对应的类别和置信度作为最终检测结果返回，并从集合B,S中删除
10）第21-24行：随后删除B中所有与最佳边界框邻近度值低于预定义超参MD的边界框。
11）递归执行步骤3-10，直到处理完所有边界框

Confluence每个步骤的计算复杂度为O(N)，边界框输入集合为N。这是由对邻近度分数归一化计算得到。因为次度量是针对每个边界框对其他边界框进行计算，Confluence总体的计算开销为O(N²)，与Greedy NMS相同。由于递归减少了边界框集合的大小，因此计算时间并不重要。

Experiments