Confluence: A Robust Non-IoU Alternative to Non-Maxima Suppression in Object Detection

文章目录

  • Confluence: A Robust Non-IoU Alternative to Non-Maxima Suppression in Object Detection
    • 一、Abstract
    • 二、INTRODUCTION
    • 三、METHODOLOGY
      • 3.1 Manhattan Distance
      • 3.2 Normalization
      • 3.3 Intra-Cluster Retention and Removal
      • 3.4 Confidence Score Weighting
      • 3.5 Implementation
    • Experiments

初步翻译,后续细化…
论文下载地址:点击此链接跳转.
这是博主自己在github整理的目标检测方向论文的合集,应该算比较全,2020ECCV(细分版), 2020NIPS已更新完毕,欢迎下载…

一、Abstract

本文提出了一种用来替代贪婪NMS用于目标检测边界框选择和抑制的算法,confulence。该算法不仅依赖于个体置信度分数来选择最优边界框,也不依赖IoU来消除误报。使用曼哈顿距离,选择离聚类中每一个边界框最近的边界框,并去除高度重合的相邻框。因此,Confluence代表了边界框选择和抑制的一个新范式,因为其基于与NMS及其变体完全不同的理论原理。Confluence在RetinaNet, YOLOv3和Mask-RCNN上进行了实验验证,使用MS COCO和PASCAL VOC 2007数据集,Confluence在两个数据集上当使用0.50 : 0.95mAP评价指标时,其mAP和Recall都优于NMS。在各个检测器和数据集上,mAP提升了0.3-0.7%,recall提升了1.4-2.5%。作者对NMS和Confulence算法进行了比较,并通过大量的定性结果分析支持了定量结果。此外,跨mAP阈值的敏感分析实验也验证了Confluence比NMS更健壮。

二、INTRODUCTION

主流的DCNN目标检测器,包括RetinaNet, fast - rcnn和Mask R-CNN会生成不同大小和尺度的类别独立区域建议。分类网络会给每一个proposal分配特定类的置信度分数。定位则是通过proposal回归改进。这些通常都会汇集到相同的RoI中,特别是当检测器高度确信RoI中存在目标时。这会导致提出的边界框会围绕着图像中的感兴趣区域聚集。
       YOLOv3基于不同的范例。它没有使用不同大小和尺度的滑动窗口,而是将图像划分为多个部分,对每个部分都分配特定类别的置信度值。消除低置信度的部分,从高置信度部分生成边界框,并利用NMS选择最优的边界框。与RPN网络相比,这样产生的边界框要少得多,因此效率更高。
       非极大值抑制(NMS)的作用是通过选择最佳边界框代表每个目标,同时抑制false positive来细化检测。在这个过程中,最重要的是不去掉true positive。图1演示了此步骤的必要性。它举例说明了在使用NMS前后RetinaNet的输出。NMS普遍认为是解决这一问题的首选方案,用于最先进的目标检测器。

三、METHODOLOGY

作者提出的方法叫Confluence。方法得名于在检测目标时,检测结果为目标检测器返回的边界框的整合。Confluence并不是将过多的proposal视为问题,而是将其作为识别最优化边界框的一种方式。这是通过确定与其他边界框最合流的边界框实现的。即最能代表集合中其他边界框的集体相交的边界框。
       Confluence是一种两阶段算法,可保留最佳边界框并消除false positive。保留是通过使用置信度加权的曼哈顿距离来激励临近性度量以评估边界框一致性来实现。第二阶段涉及删除所有与保留的边界框汇合的边界框。

3.1 Manhattan Distance

曼哈顿距离又叫L1范式,是两点间垂直距离和水平距离之和。u=(x1x_1x1​,y1y_1y1​)和v=(x2x_2x2​, y2y_2y2​)之间的MH可以表示为:

       传统和现代基于DCNN的目标检测器的显著特征是返回大量置信度检测,从而在图像的感兴趣位置周围形成连贯的边界框簇。
       作者提出任意两个边界框之间的接近度P可以用左上角u=(x1x_1x1​, y1y_1y1​); v=(x2x_2x2​, y2y_2y2​)和右下角m=(p1p_1p1​, q1q_1q1​) n=(p2p_2p2​, q2q_2q2​)坐标对的MH之和表示:

       图2为距离度量的图示:

       P值较小表示两个编辑框高度融合,而高P值则表示两框不是检测的同一目标,它们可能有点重叠或完全不相交。因此可以推断出如果针对某一给定框相对于一组边界框中的每个其他框计算P值,则会得到其与每个框的融合度的度量。当边界框融合较密集时,这种计算会涉及到大量的比较。
       因此,一个被边界框密集包围的框的特征是P值非常低,改边界框可被分为离群值。实际上,这提供了给定位置存在目标时目标检测器的置信度的度量。在此基础上,作者提出集群内p值最低的边界框b代表对给定目标的最可靠的检测。
值得注意的是,该理论克服了NMS及其替代方案所面临的问题,即在得分最高的边界框与另一个较低得分边界框相比是次优框的情况下,NMS会返回次优边界框。这种P度量允许对与分配给给定目标的其他所有边界框最相合的边界框进行偏爱,使其更加健壮。

3.2 Normalization

曼哈顿距离只在边界框大小相似的情况下能够有效作用。但实际上目标及其相应的边界框有不同的大小。当使用基于置信度加权P的超参数来调节边界框的保留或去除时会带来一个问题,需要权衡是移除大的false positive还是保留小的true positive。
       为克服这个问题,作者使用归一化算法在0,1之间缩放边界框坐标,同时保留它们之间的关系。归一化算法会对每个坐标(xix_ixi​,yiy_iyi​)进行转换:

       归一化允许任意两个大的目标内边界框间的关系与任意两个小的目标边界框之间的关系可比来区分目标内外的边界框,如图3所示。

       从图3中可看出,右侧两个大边界框表示同一对象。左侧的两个小边界框则表示的两个单独的对象。但是在计算P时,将获得相同的值。如下:

       也就是存在区分属于相同或不同目标的边界框的问题。规一化通过保留边界框之间的重叠关系来解决此问题,同时确保任何两个边界框之间的关系是可比较的。归一化能够放大目标内外边界框间的差异,使其更易区分。

3.3 Intra-Cluster Retention and Removal

由于所有坐标对都归一化至0,1之间,任意一对相交边界框的临近值都将低于2。因此如果任意两个边界框间的P值低于2,则假定它们属于同一簇,并且指同一物体或一个或多个高密度目标。一旦识别出集群。对P的值进行升序排序,找到集群内的最佳边界框。在第n个位置具有最小邻近值的边界框被视为最聚合的边界框,保留此边界框。
       通过分析集群内的P值的梯度可以选择最聚合的边界框。 可视化P值图,使目标内外边界框间的差异由于聚类的斑点性质更加明显,如图4和5所示。每个水平斑点代表一个目标,Confluence会选择边界最能代表给定Blob中其他所有框的框。也就是在以梯度接近零为特征的数据范围内选择了一个框。即使在高密度图像中,这种关系也很明显,在高密度图像中,不同的目标将表示为不同的斑点。
       一旦选择了最聚合的边界框,就将所有临近度的值低于预定义阈值的集群内的边界框删除。递归重复此过程,直到处理完所有边界框。

3.4 Confidence Score Weighting

NMS使用目标检测器返回的单个置信度作分数作为唯一标准来选择最佳边界框。相反Confluence通过考虑置信度分数c及和竞争边界框的P值来评估最优边界框b。加权距离WP通过将b的P值除以其置信度分数得到:

       由于c的值在0.05到1之间。通过人为地降低WP的值使更偏向于高置信度的框(所有置信度得分低于0.05的边界框不考虑)。相反,低置信度的框的WP值会更大,这增加了选择高置信度框的可能性,因为我们会选择WP值小的边界框。
       这个算法基于以下原理:通过使用较弱的单个分类器的和来构建强大的分类器。每个单独的WP值本身就是一个弱分类器,当对这些弱分类器进行集体解释时,它们提供了一种强大的方法将边界框分类为确信的(高confluence)或不确信的(通过相对于其他边界框的不同定位)。本质上是通过目标检测器进行了置信度投票,选择最能代表分配给当前目标的每个其他边界框的边界框。表1表明该方法能够准确识别ture positive,同时可以有效减少false positive,实现最佳map和recall。

3.5 Implementation

Confluence算法的主要步骤是:
1)第1行:创建集合BrB_rBr​,SpS_pSp​和CpC_pCp​以存储边界框及对应的分数和类标签。
2)第2行:分别遍历每个类,使能够处理多类目标检测。对于每个类选择n个边界框,每个表示一个目标。
3)第4行:定义变量bsb_sbs​,SsS_sSs​为临时存储的当在选择被处理类时的最优框及它们对应的分数。
4)第5行:将变量optimalConfluence初始化为图像大小
5)第6-18行:算法通过循环将边界框bib_ibi​与集合B中的其他所有框进行比较
6)第9-10行:归一化坐标关系,然后进行邻近度计算
7)第11行:如果临近度值小于2,则边界框不相交,将被视为单独的目标。这样将b的P值限制为小于2的值。
8)第12-16行:通过收敛由confluence值加权的最小置信度来选择最佳边界框
9)第19-20行:选择了最佳边界框后,将其添加到Bf,连同其对应的类别和置信度作为最终检测结果返回,并从集合B,S中删除
10)第21-24行:随后删除B中所有与最佳边界框邻近度值低于预定义超参MD的边界框。
11)递归执行步骤3-10,直到处理完所有边界框


       Confluence每个步骤的计算复杂度为O(N),边界框输入集合为N。这是由对邻近度分数归一化计算得到。因为次度量是针对每个边界框对其他边界框进行计算,Confluence总体的计算开销为O(N2),与Greedy NMS相同。由于递归减少了边界框集合的大小,因此计算时间并不重要。

Experiments





Confluence: A Robust Non-IoU Alternative to Non-Maxima Suppression in Object Detection 论文阅读翻译相关推荐

  1. Confluence: A Robust Non-IoU Alternative toNon-Maxima Suppression in Object Detection 论文学习

    Abstract 针对目标检测边框选取和抑制问题,本文提出了一个可以替代NMS的新方法.该方法 Confluence 不依赖于边框的置信度得分来选取最佳边框,它也不需要 IOU 来去掉错误的候选框.它 ...

  2. Class-Aware Robust Adversarial Training for Object Detection论文阅读笔记

    针对目标检测的类感知对抗训练 2021年的CVPR,哥伦比亚大学和中心研究院合作的工作. 摘要:    目的通过对抗训练增强目标检测的鲁棒性,对于一张给定的图像,本文提出的方法产生一个通用的对抗性攻击 ...

  3. 【论文阅读】SCRDet:Towards More Robust Detection for Small, Cluttered and Rotated Objects

    SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects SCRDet:为小的.杂乱的和旋转的物体提 ...

  4. 【论文阅读5】BoT-SORT:Robust Associations Multi-Pedestrian Tracking

    [论文阅读5]BoT-SORT:Robust Associations Multi-Pedestrian Tracking 和OC-SORT类似,BoT-SORT也是对Kalman滤波进行改进.OCS ...

  5. 对比学习系列论文SimROD(二): A Simple Adaptation Method for Robust Object Detection

    0.Abstract 0.1逐句翻译 This paper presents a Simple and effective unsupervised adaptation method for Rob ...

  6. 论文阅读——《Robust Superpixel Tracking》

    论文阅读--<Robust Superpixel Tracking> 论文阅读--<Robust Superpixel Tracking> <Robust Superpi ...

  7. LiDAR Snowfall Simulation for Robust 3D Object Detection

    LiDAR Snowfall Simulation for Robust 3D Object Detection 物理模拟的创新(关注)点: 考虑激光束反射受到角度遮挡的影响 考虑雪天的路面反射影响 ...

  8. 【论文阅读】RAPTOR: Robust and Perception-Aware Trajectory Replanning for Quadrotor Fast Flight

    [论文阅读]<RAPTOR: Robust and Perception-Aware Trajectory Replanning for Quadrotor Fast Flight> 发表 ...

  9. 论文阅读 [CVPR-2022] BatchFormer: Learning to Explore Sample Relationships for Robust Representation Lea

    论文阅读 [CVPR-2022] BatchFormer: Learning to Explore Sample Relationships for Robust Representation Lea ...

  10. 【论文阅读】Realtime Robust Malicious Traffic Detection via Frequency DomainAnalysis

    [论文阅读]Realtime Robust Malicious Traffic Detection via Frequency DomainAnalysis 原文标题:Realtime Robust ...

最新文章

  1. digitalocean如何还原出厂设置
  2. 豆瓣评分9.4!这一部纪录片,探秘中国的未至之境!
  3. matlab二元一次方程求解_高中化学二元混合物的十字交叉法解法
  4. java 生成二维码
  5. 2021-09-03101. 对称二叉树
  6. 【深度学习】U-Net简介
  7. kubeedge集群搭建
  8. 简单聊聊为什么说外包不好?
  9. 机房重构总结之步履蹒跚
  10. 国内各省市有关中小学少儿编程进展(节选)
  11. Unity 中遮挡层级
  12. Centos7 源码安装 Apache
  13. 网站怎么备案?如何快速通过网站备案?网站快速备案攻略请查收!
  14. ML之ME:Best-KS分箱/KS值(分类预测问题中评价指标、数据分箱方法)的简介(KS与ROC的关系)、使用方法、案例应用之详细攻略
  15. 验厂中首当其冲的BSCI是什么
  16. httpd服务的简介
  17. 009 PFA: Privacy-preserving Federated Adaptation for Effective Model Personalization(联邦个性化 自适应)
  18. 相机光学(零)——分辨率测试
  19. Python : 深度学习DIGITS
  20. 【渗透实战】日常挖洞第二期_旁站注入“花式”漏洞拿下大型服务器

热门文章

  1. 浅析游戏音乐的风格特点—欧美风
  2. 微信公众号盈利模式_微信公众号的盈利方式有哪些?
  3. JavaScript编写答题评分功能页面
  4. 设置view 的MarginTop
  5. 创业者两大特征:喜欢折腾与坚持不懈
  6. 《岛》让伤口暴露在空气里吧
  7. macOS上如何通过.crash文件定位崩溃地址
  8. nginx转发百度地图内网化
  9. Hypervisor 技术的演进
  10. 我的世界刷猪人塔java版_我的世界猪人塔怎么做 5款猪人塔详解教程