2020年发表在CVPR
原文链接:https://arxiv.org/pdf/2003.09163v2.pdf
使用本文方法进行目标检测的效果:

后面被遮挡着的人也被完全检测了出来!

1 目的

检测拥挤场景中高度重叠的实例。

2 关键

让一个提议(proposal)预测一组实例,而不是单个实例。

3 为什么在密集或遮挡情况下容易检测失败

主要有两个原因:
(1)高度重叠的实例(以及它们相关的提议)可能具有非常相似的特性。因此,检测器很难分别对每个提议产生有区别的预测。
(2)由于实例之间可能严重重叠,因此预测很可能被NMS错误地抑制。
(前面写过的DETR,即检测transformer,是一个预测框对应一个实例,且一个实例只对应一个预测框,所以就没有NMS后处理。)

4 我们的方案:一种思想三种技术

思想:
对于每个提议框,预测一组可能高度重叠的实例,而不是像往常一样预测单个实例。
技术:
(1)提出了一种EMD损耗来监督实例集预测的学习。
(2)提出了一种新的后处理方法Set NMS来抑制来自不同提议的重复。
(3)设计了一个可选的优化模块(RM)来处理潜在的误报。

4.1 多实例预测

对于每个提议框bib_ibi​,预测gt实例的相关集合G(bi)G(b_i)G(bi​):

  • GGG:所有gt框的集合。
  • bib_ibi​:一个提议框。
  • gjg_jgj​:某个实例的真实框。
  • θ\thetaθ:给定的交并比阈值。


上图中(a)(a)(a)是之前的预测方法,每个提议预测一个实例,而在重叠情况下,想要产生有区别的预测,是非常困难的;(b)(b)(b)是我们的预测方法,红绿蓝三个框预测的都是刀子和叉子这两个实例。
实例集预测:

  • (ci(x),li(x))(c_i^{(x)},l_i^{(x)})(ci(x)​,li(x)​):代表一个相关实例。
  • cic_ici​:有置信度的类标签。
  • lil_ili​:相对坐标。
  • KKK:给定的常数,是数据集中G(bi)G(b_i)G(bi​)的最大基数,即一个提议框最多预测的真实框数量。

P(bi)P(b_i)P(bi​)可以通过引入额外的预测分支在大多数现有的框架中被实现。如果一个提议框没有对应足够KKK个实例,则多余的预测为背景类。

4.2 EMD loss

目标:最小化P(bi)P(b_i)P(bi​)与G(bi)G(b_i)G(bi​)之间的差距。可归为集合距离测量问题。
EMD损失:最小化两个集合之间的Earth Mover’s
Distance:

  • π\piπ:表示一个特定的排列(1,2,...,K)(1,2,...,K)(1,2,...,K),第kkk项就是πk\pi_kπk​。
  • gπkg_{\pi_k}gπk​​:是G(bi)G(b_i)G(bi​)中的一个元素,表示第πk\pi_kπk​个真实框。
  • Lcls(⋅)L_{cls}(·)Lcls​(⋅):分类损失。
  • Lreg(⋅)L_{reg}(·)Lreg​(⋅):回归损失。

背景类无回归损失。当K=1K = 1K=1时,Eq. 3等价于传统单实例预测框架中的损失。

4.3 Set NMS

每次在NMS算法中的一个框压制另一个框之前,插入一个额外的测试,以检查这两个框是否来自同一个提议。如果是,则跳过抑制。

4.4 Refinement module

减少误报情况。该模块简单地将预测作为输入,结合proposal feature,进行第二轮预测。我们希望优化模块纠正可能的错误预测。

5 网络体系结构

本文中,选择具有RoIAlign的FPN(特征金字塔网络)作为基线检测器。在FPN中,区域提议网络(RPN)分支负责生成提议,RCNN(或称为RoI)分支用于预测RoI提议对应的实例。我们的方法附加到后面的分支。在本文中超参数KKK(即一个提议最多对应的实例)设为了2。

上图是总体结构。(a)(a)(a)中的boxAbox_AboxA​和boxBbox_BboxB​是被一个提议预测的两个实例。优化模块是可选的。(b)(b)(b)中优化模块将特征和框信息进行拼接,对结果进行优化。

6 结论

在本文中,提出了一种非常简单但有效的基于提议的目标检测器,专门为拥挤实例检测而设计。该方法利用了多实例预测的概念,引入了EMD损耗、Set NMS和优化模块等新技术。该方法不仅有效,而且灵活地与最先进的基于提议的检测框架结合;此外,还可以很好地推广到人群较少的场景。

Detection in Crowded Scenes: One Proposal, Multiple Predictions(拥挤场景下的检测:一个提议,多个预测)相关推荐

  1. 【密集人群检测】Detection in Crowded Scenes: One Proposal, Multiple Predictions例程实现

    1.简介 旷世研究院在CVPR2020上发表的论文<Detection in Crowded Scenes: One Proposal, Multiple Predictions>,提出了 ...

  2. 【CVPR2020】Detection in Crowded Scenes One Proposal Multiple Predictions 翻译

    Detection in Crowded Scenes One Proposal Multiple Predictions翻译 一个候选框 多个预测结果 Abstract 不管是一阶方法还是二/多阶方 ...

  3. 【目标检测】Detection in Crowded Scenes: One Proposal, Multiple Predictions

    文章目录 一.介绍 1.1 目标检测存在的问题 1.2 拥挤场景检测失败的原因 1.3 之前解决拥挤场景检测的方法 1.4 本文解决拥挤场景检测的方法 二.背景 2.1 改进NMS 2.2 改进损失函 ...

  4. 【CVPR2020】Detection in Crowded Scenes: One Proposal, Multiple Predictions笔记

    原文链接:https://openaccess.thecvf.com/content_CVPR_2020/html/Chu_Detection_in_Crowded_Scenes_One_Propos ...

  5. 《CrowdDetection:Detection in Crowded Scenes: One Proposal, Multiple Predictions》论文笔记

    参考代码:CrowdDetection 1. 概述 导读:在一些密集场景下检测算法由于算法自身问题导致其对密集场景检测存在问题,整篇文章正是解决这样的场景下的检测问题.这篇文章主要的思想就是将原来单个 ...

  6. End-to-end people detection in crowded scenes

    End-to-end people detection in crowded scenes 将图像分成网格, 用LSTM在每个网格中单独预测物体, 产生一个序列化的输出预测结果 decoding an ...

  7. 【论文笔记】End-to-end people detection in crowded scenes

    论文地址: http://arxiv.org/abs/1506.04878 Github:https://github.com/Russell91/ReInspect tensorflow版本:htt ...

  8. 《Generative Neural Networks for Anomaly Detection in Crowded Scenes》解读

    本文的创新: 1.本文提到了一个新的架构,使用两个VAE组合进行异常事件检测,两个VAE均为生成模型,第一个VAE称为SF-VAE,是一个全连接的编码器,输入为低分辨率的图片,目的是将显而易见的正常个 ...

  9. Robust Pose Estimation in Crowded Scenes with Direct Pose-Level Inference 阅读笔记

    基于直接姿态级推理的拥挤场景鲁棒姿态估计 NeurIPS 2021 论文链接 代码链接 摘要:拥挤场景下的多人姿态估计具有挑战性,因为重叠和遮挡使得难以检测人体边界框并从单个关键点推断姿态线索(关键点 ...

最新文章

  1. 机器学习之XGBoosting
  2. 微型计算机原理及应用李干林,微机原理及接口技术李干林习题参考解答-20210415154329.docx-原创力文档...
  3. eeglab教程系列(14)-Working with ICA Components
  4. hbase coprocessor的分析
  5. JDBC(九)DatabaseMetaData 数据库元数据
  6. ubuntu16.04安装opencv3.1.0(包含opencv_contrib模块)
  7. isis network-entity 49含义_电影《狮子王》真人版上映,经典英语台词背后的含义你看懂了吗...
  8. 找出出现次数最多的字母
  9. TreeView 之间节点拖动 /移动
  10. WannaCry反思:传统安全理念遭遇马奇诺防线式溃败
  11. 搜狗输入法语音转文字的体验点
  12. Ubuntu下安装Hadoop
  13. [leetcode]5-Longest Palindromic Substring
  14. java中的构造函数
  15. HTML5/CSS3动画应用
  16. 【系】微信小程序云开发实战坚果商城-前端之分类实现
  17. 申论该怎么学?申论作文如何提高
  18. 【预测模型】人口结构可持续发展模型构建
  19. 计算机网络八大性能指标
  20. android编译成功闪退,编译调试-android-app闪退定位

热门文章

  1. 决胜经典算法之选择排序
  2. 安杰思在科创板IPO过会:拟募资约8亿元,达安基因为其主要股东
  3. 前端唯一标识那些事儿
  4. 关于电视机中DTV码流对android的Timer的影响
  5. 物理科普读物推荐:《物理精神》——人类文明创新的原动力
  6. Labview移位寄存器理解(例子说明)
  7. springmvc常用5种注解_5种常用补气中成药
  8. 冬季吃山药能防什么病如何挑选
  9. iPhone12全面曝光10月上市 iPhone12是5g双卡双待手机
  10. 搬:90 个名企笔试题和算法题