计算机视觉研究院专栏

作者:Edison_G

目标检测模型在定位和分类训练期间显示目标时表现良好,然而,由于创建和注释检测数据集的难度和成本,训练过的模型检测到数量有限的目标类型,未知目标被视为背景内容。这阻碍了传统检测器在现实应用中的采用,如大规模物体匹配、visual grounding、视觉关系预测、障碍检测(确定物体的存在和位置比找到特定类型更重要)等。

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

论文下载| 回复“CA”获取论文下载

一、简要

目标检测模型在定位和分类训练期间显示目标时表现良好,然而,由于创建和注释检测数据集的难度和成本,训练过的模型检测到数量有限的目标类型,未知目标被视为背景内容。这阻碍了传统检测器在现实应用中的采用,如大规模物体匹配、visual grounding、视觉关系预测、障碍检测(确定物体的存在和位置比找到特定类型更重要)等。

有研究者提出类不可知目标检测作为一个新问题,专注于检测对象的对象类。具体地说,其目标是预测图像中所有对象的边界框,而不是预测它们的对象类。预测的框可以被另一个系统使用,以执行特定于应用程序的分类、检索等。

提出了针对类不可知检测器的基准测试的训练和评估协议,以推进该领域的未来研究。最后,研究者提出了:(1)基线方法和(2)一个新的用于类无关检测的对抗性学习框架,它迫使模型从用于预测的特征中排除特定于类的信息。实验结果表明,对抗性学习方法提高了类不可知性的检测效率。

二、背景介绍

会有同学会问“目标检测中bbox回归中class-agnostic和class-specific的区别在哪?”。今天我们简单说一下,然后开始今天主框架的分析。

  • class-specific 方式:很多地方也称作class-aware的检测,是早期Faster RCNN等众多算法采用的方式。它利用每一个RoI特征回归出所有类别的bbox坐标,最后根据classification 结果索引到对应类别的box输出。这种方式对于ms coco有80类前景的数据集来说,并不算效率高的做法。

  • class-agnostic 方式:只回归2类bounding box,即前景和背景,结合每个box在classification 网络中对应着所有类别的得分,以及检测阈值条件,就可以得到图片中所有类别的检测结果。当然,这种方式最终不同类别的检测结果,可能包含同一个前景框,但实际对精度的影响不算很大,最重要的是大幅减少了bbox回归参数量。具体细节,自己参考目前一些开源算法源码会理解的更好。(摘自于知乎包文韬)

Class-agnostic目标检测器使用object proposal methods (OPMs), conventional class-aware detectors和提出的adversarially trained class-agnostic detectors。如下图:

绿色和紫红色分别是真值和检测结果。
三、新框架

  • General Framework

传统的类感知检测侧重于检测“感兴趣的对象”,这本质上要求模型能够区分封闭已知集合中的对象类型。直观地说,模型通过编码区分对象类型的特征来实现这一点。然而,为了使类不可知的检测和模型能够检测到以前看不见的对象类型,检测器应该编码能够更有效地区分对象与背景内容、单个对象与图像中的其他对象的特征,而不区分对象类型。

训练传统的目标检测器的二元分类任务以及边界框回归不足以确保模型关注类无关特征,更重要的是,忽略类型区分特征,以便更好地推广到看不见的目标类型。为了克服这个问题,研究者建议以一种对抗性的方式训练类不可知的目标检测器,以便模型因编码包含目标类型信息的编码特征而受到惩罚。

研究者提议用对抗性鉴别器分支来增强类不可知的检测器,这些分支试图从检测网络上游输出的特征中分类对象类型(在训练数据中注释),如果模型训练成功,则对其进行惩罚。模型以交替的方式训练,这样当模型的其余部分更新时,鉴别器被冻结,反之亦然。在更新鉴别器时,研究者使用标准的分类交叉熵损失的目标类型作为预测目标。另一方面,在训练模型的其余部分时,最小化(a)目标与否分类的交叉熵损失,(b)边界框回归的平滑L1损失,以及(c)鉴别器预测的负熵。这种熵最大化迫使检测模型的上游部分从其输出的特征中排除目标类型信息。对于模型的每次更新,鉴别器被更新五次,在整个目标中使用乘子α(调整{0.1,1})对负熵进行加权。上图总结了完整的框架。

四、实验

Generalization results for FRCNN models trained on the seen VOC dataset. The top row shows macro-level AR@kfor seen and unseen classes in VOC and their harmonic mean (AR-HM). FRCNN-agnostic-adv performs the best overall. The second row shows micro-level results for the easy, medium, and hard unseen classes. FRCNN-agnostic-adv performs the best on the hard and easy classes with recall drop for the medium class. The last row provides results of evaluation on the COCO data of 60 unseen classes. FRCNN-agnostic-adv achieves the best AR@k for objects of all sizes.

Generalization results for SSD models trained on the seen VOC dataset. The top row shows macro-level AR@kfor seen and unseen classes in VOC as well as their harmonic mean (AR-HM). SSD-agnostic-adv performs the best on AR- Unseen and AR-HM, with a drop in AR-Seen, but the models that outperform SSD-agnostic-adv on AR-Seen do significantly worse on AR-Unseen and AR-HM. The second row shows micro-level results for the easy, medium, and hard unseen classes. SSD-agnostic-adv performs the best in all categories. The last row provides results of evaluation on the COCO data of 60 unseen classes. SSD-agnostic-adv achieves the best AR@k with a slight reduction for small-sized objects.

© THE END 

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

扫码关注

计算机视觉研究院

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

论文下载| 回复“CA”获取论文下载

目标检测新方式 | class-agnostic检测器用于目标检测(附论文下载链接)相关推荐

  1. ICML 2019 | 强化学习用于推荐系统,蚂蚁金服提出生成对抗用户模型(附论文下载链接)...

    选自arXiv 作者:Xinshi Chen.Shuang Li.Hui Li.Shaohua Jiang.Yuan Qi.Le Song 机器之心编译 参与:李诗萌.shooting 将强化学习用于 ...

  2. CVPR21小目标检测:上下文和注意力机制提升小目标检测(附论文下载)

    计算机视觉研究院专栏 作者:Edison_G CVPR21文章我们也分享了很多最佳的框架,在现实场景中,目标检测依然是最基础最热门的研究课题,尤其目前针对小目标的检测,更加吸引了更多的研究员和企业去研 ...

  3. 海康研究院出品:具有场景自适应概念学习的无监督目标检测(附论文下载)...

    关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 论文地址:http://www.jzus.zju.edu.cn/article ...

  4. ICCV2021最佳检测之一:主动学习框架较大提升目标检测精度(附论文下载)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨Edison_G 来源丨计算机视觉研究院 新框架优于基于单模型的方法,并且以一小部分计算成本与基 ...

  5. 无人机下的目标检测研究(附论文下载)

    关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 论文信息:冷佳旭,莫梦竟成,周应华,叶永明,高陈强,高新波*. 无人机视角下的 ...

  6. CVPR小目标检测:上下文和注意力机制提升小目标检测(附论文下载)

    计算机视觉研究院专栏 作者:Edison_G CVPR21文章我们也分享了很多最佳的框架,在现实场景中,目标检测依然是最基础最热门的研究课题,尤其目前针对小目标的检测,更加吸引了更多的研究员和企业去研 ...

  7. 用于吸烟行为检测的可解释特征学习框架(附论文下载)

    关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 论文获取|回复"IAYOLO"获取paper 源代码:ht ...

  8. 一种基于注意力的Few-Shot目标检测统一框架(附论文下载)

    关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 论文地址:https://arxiv.org/pdf/2201.02052.p ...

  9. 涨点明显 | 全面刷新COCO检测和分割Top-1(附论文下载)

    刷新COCO目标检测和实例分割新记录!复制-粘贴是用于实例分割的强大数据增广方法拿下COCO目标检测和实例分割双料第1名!目标检测数据刷到57.3AP:实例分割刷到49.1AP! 作者单位:谷歌大脑, ...

最新文章

  1. selenium之定位以及切换frame
  2. 【Flask项目】sqlalchemy原生sql查询,返回字典形式数据
  3. struts2注解json 配置文件json
  4. mysql存储表情测试_Mysql正确的储存处emoji表情
  5. eclipse连接mysql_专题一、flask构建mysql数据库正确姿势
  6. android webView 与 JS交互方式
  7. 国内首家,腾讯云云开发“全家桶”来了
  8. 如何对RTSP播放器做功能和性能评估
  9. centos安装 node.js
  10. 使用live555制作rtsp客户端,捕获h264等解码
  11. Python 学习 DAY1
  12. 强化学习算法在京东广告序列推荐场景的应用实践
  13. 2020年研究生入学考试991考试大纲
  14. Java学习:多线程
  15. python复杂非线性方程_python – 如何解决Sympy中的非线性方程?
  16. MT6261芯片处理器性能特点资料介绍
  17. 题目 给定一个字符串所表示的括号序列,包含以下字符: '(', ')', '{', '}', '[' and ']', 判定是否是有效的括号序列。 样例 括号必须依照 ()顺序表示, ()[]
  18. maya api 初接触
  19. 在java中如何对数组实现添加、删除和插入操作呢?
  20. 华为、苹果、高通,谁在领跑?全面解读清华AI芯片报告

热门文章

  1. python学习笔记-ipc机制 (进程间通信)及其代码实现
  2. HTML+CSS登录注册界面
  3. C语言基础的一些细枝末节
  4. 《Linux多线程服务端编程:使用muduoC++网络库》学习笔记
  5. 七夕|愿天下IT人事业,爱情两不误!
  6. 如何评估机器学习模型的商业价值
  7. JS 实现别踩白块功能
  8. javascript-彩票游戏
  9. IBM中国武汉全球服务执行中心正式落成
  10. Android的证书验证过程