摘要

过去的目标检测都严重依赖设置密集的目标候选框(如Faster R-CNN),比如对特征图(HW)每个像素设置k个anchor boxes,这样就会有成千上万个acnhors(HW*k),这样过于低效。因此作者提出一种稀疏的anchor设置方法,设置N个可学习的object proposals,用于检测头的分类和位置检测。Sparse RCNN避免了人工设置候选框的大量超参数以及多对一的正负样本分配。更重要的是,最终的预测结果可以直接输出而不需要NMS(非极大抑制)。
论文地址:Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

方法

网络结构

图1

输入包括一个图像、一组建议框和建议功能,其中后两个是可学习的参数。主干提取特征图,将每个建议框和建议特征输入到其唯一的动态头部,生成目标特征,最后输出分类和定位。
网络公式:
image + proposal boxes – (融合) --> ROIs
RoIs + proposal features – (融合) --(全连接层)–> predictions

骨干网络Backbone

使用基于ResNet的FPN网络。

可学习的建议框 learnable proposal box

使用一种固定的可学习的建议框(N×4)(N\times4)(N×4) 提供区域建议,替代RPN网络。
由0到1的四维参数表示,表示标准化的中心坐标(x,y)(x,y)(x,y)、高度和宽度,使用反向传播算法进行更新。
是训练集中潜在对象位置的统计信息,可以看作是,除开输入的内容的影响,对图像中最可能包含对象的区域的初始猜测。

可学习的建议特征learnable proposal feature

建议框只提供了对对象的粗略定位,并丢失了许多细节的信息,如对象姿势和形状。因此引入建议特征(N×d)(N\times d)(N×d) ,是一个高维向量(如256),对实例特征进行编码。
数量和建议框相同。

动态实例交互头Dynamic instance interactive head

给定N个提议框,稀疏R-CNN首先利用RoI Align操作为每个框提取特征。然后,每个框特征将用于使用预测头,生成最终预测。

图2 过滤器因不同实例而异,即,第k个建议特征为相应的第k个RoI生成动态参数。

每个RoI特征输入到自己专用的头部,用于对象定位和分类,每个头部以特定的建议特征作为条件。
建议特征和建议框是一一对应的,n个建议框有n个建议特征。
每个RoI特征fi(S×C×C)f_i(S\times C\times C)fi​(S×C×C)与相应的建议特征pi(C)p_i( C)pi​(C)交互,过滤无效的建议框,并输出最终的对象特征(C)( C)(C)。

实验

主要结果

两个版本的稀疏R-CNN:

  • 采用100个可学习的建议框,无需随机裁剪数据扩充,并用于与主流对象检测器进行比较,例如faster R-CNN和RetinaNet。
  • 利用300个可学习的建议框,随机增加作物数据,并用于与DETR系列模型进行比较。

    可以看出稀疏R-CNN有很大的优势。

对模块的分析

在faster R-CNN中将FPN替换成稀疏的可学习建议框,性能下降。
迭代架构:由于一个提议框的目标对象通常是一致的。因此,可以重用前一阶段中的对象特征,为下一阶段提供对象特征编码丰富的信息,如对象姿势和位置。在原有级联架构的基础上,这一特性重用的微小变化导致了11.7AP的巨大收益。最后,迭代架构带来了13.7AP的改进。
动态结构:使用自注意力模块进行处理,作为建议特征来实现当前阶段的实例交互,用于推理对象之间的关系,提高了精度性能。


建议框的初始化:

建议的数量:

迭代体系结构中的阶段数:

动态头部和多头注意力:

建议特征和对象查询:

可视化结果

图3 可视化迭代体系结构中每个阶段的预测框,包括学习到的建议框。显示分类得分高于0.2的方框

Sparse R-CNN: End-to-End Object Detection with Learnable Proposals相关推荐

  1. Sparse R-CNN: End-to-End Object Detection with Learnable Proposals论文翻译

    Sparse R-CNN: End-to-End Object Detection with Learnable Proposals论文翻译 摘要 1.介绍 2.相关工作 3.Sparse R-CNN ...

  2. Sparse R-CNN: End-to-End Object Detection with Learnable Proposals - 论文阅读翻译

    Sparse R-CNN: End-to-End Object Detection with Learnable Proposals - 论文阅读翻译 文章目录 Sparse R-CNN: End-t ...

  3. 【Sparse R-CNN】《Sparse R-CNN:End-to-End Object Detection with Learnable Proposals》

    arXiv-2020 作者的博客:Sparse R-CNN 文章目录 1 Background and Motivation 2 Related Work 3 Advantages / Contrib ...

  4. [论文翻译]Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

    Sparse R-CNN:具有可学习提案的端到端目标检测 摘要 我们提出稀疏R-CNN,一个纯稀疏检测图像物体的方法.现有目标检测的工作严重依赖于密集候选对象,比如在H×WH×WH×W大小的图像特征图 ...

  5. 【目标检测】cvpr21_Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

    文章目录 一.背景 二.动机 三.方法 3.1 Backbone 3.2 Learnable proposal box 3.3 Learnable proposal feature 3.4 Dynam ...

  6. QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small Object Detection

    文章链接:: https://arxiv.org/pdf/2103.09136.pdf code: https://github.com/ChenhongyiYang/QueryDet-PyTorch ...

  7. 【CVPR 2022】高分辨率小目标检测:Cascaded Sparse Query for Accelerating High-Resolution Smal Object Detection

    QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small Object Detection 摘要: 动机: 实现: ...

  8. 【目标检测论文阅读笔记】QueryDet: Cascaded Sparse Query for Accelerating High-Resolution Small Object Detection

    Abstract 虽然深度学习的通用目标检测在过去几年取得了巨大成功,但检测小目标的性能和效率却远不尽如人意.促进小目标检测的最常见和有效的方法是使用高分辨率图像或特征图.然而,这两种方法都会导致昂贵 ...

  9. CVPR 2021 Object Detection

    一. 关于3D有26篇: 3DIoUMatch: Leveraging IoU Prediction for Semi-Supervised 3D Object Detection ST3D: Sel ...

最新文章

  1. Hadoop机架感知与balancer
  2. android前台进程视频教程,Android Twilio视频通话,唤醒应用程序并进入前台
  3. 内是不是半包围结构_轻钢别墅的体系结构
  4. 【转】30分钟学会UML类图
  5. MySQL + MyBatis 批量插入时存在则忽略或更新记录
  6. CSS多行文字垂直居中的两种方法
  7. Spring : spring的aware
  8. Java中的泛型使用
  9. VoLTE技术中的会话持续性-eSRVCC
  10. 饿了么美团外卖源码php_从零搭建外卖CPS平台小程序开发
  11. linux不同版本编译,嵌入式ARM+Linux 多个不同版本的交叉编译器的切换方法
  12. 获取ZoneId 收录的时区和偏移量
  13. VMware虚拟机安装macos Big Sur 11.1.0 (20C69)镜像CDR/ISO下载
  14. 反转字符串(Java实现)
  15. c#黑白棋算法_黑白棋C#源代码
  16. 【解决】JSONDecodeError: Expecting property name enclosed in double quotes
  17. VIM源生linux代码编辑器使用
  18. 使用nginx结合nginx-rtmp-module搭建rtmp流媒体服务器
  19. 深度学习——卷积神经网络的应用——目标检测
  20. 信念就是一种观念对不对_信念是一种指导原则和信仰,让人们明了人生的意义和方向...

热门文章

  1. GD25Qxxx使用笔记
  2. 【wireshark】如何获取一个设备的IP地址
  3. 几个简单好用的APP分享给你
  4. 计算机爱好特长范文,【介绍个人性格爱好特长】_自我介绍(特长爱好)概述范文...
  5. mysql 表别名_MySQL 表别名(Alias)
  6. docker安装和基础使用
  7. 一个二维码实现苹果和安卓两个市场安装包自动分发
  8. Codeforces 416C Booking System
  9. ROS基础(13)——机器人建模之运动仿真
  10. Systemback使用精简教程