目标检测一卷到底之后,终于有人为它挖了个新坑|CVPR2021 Oral
点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
作者丨二玖
审稿|邓富城
报道丨极市平台
导读
本文解决了两个挑战:一是在没有明确监督的情况下,将尚未引入的目标识别为“未知”,二是让网络进行N+1式增量学习。
虽然目标检测技术目前已经发展得较为成熟,但如果要真正能实现让计算机像人眼一样进行识别,有项功能一直尚未达成——那就是像人一样能识别现实世界中的所有物体,并且能够逐渐学习认知新的未知物体。
来自澳大利亚国立大学和瑞典林雪平⼤学的学者发现并解决了这个问题。他们提出了一种新颖的方案:Open World Object Detector,简称ORE,即开放世界的目标检测。目前,作者已经将这项技术开源。
ORE主要包含两个任务:
Open Set Learning,即在没有明确监督的情况下,将尚未引入的目标识别为“未知”;
Incremental Learning,即让网络进行N+1式增量学习,接收相应标签以学习其识别到的未知类别,同时不会忘记之前已经学到的类别。
检测效果如下所示:
上图(左)是ORE在学习后产生的结果。由于尚未引入“苹果“、”橘子“这些种类,ORE将其识别并正确标记为“未知“。而上图(右)是学习了新的种类的ORE,它成功的识别了新的目标种类,并将仍未引入的种类标记为“未知”。
在上图中,ORE再次展示了它作为开放世界检测器的真正特征:ORE在经过训练后成功识别左图的未知目标,即在右图中识别了牙刷和书籍等新引入的类别,同时没有忘记如何识别已知的目标。
下面,我们将更详细的介绍这篇论文。
提出背景
深度学习加快了目标检测的研究进展,但目前现有方法都在一个强假设下进行:所有要被检测的种类都需要在训练阶段提供。那么当我们放宽这一假设时,就会出现两个具有挑战性的问题:
(1)测试图像可能包含未知类的目标,这些未知目标也需要被归类;
(2)当被识别为未知类别的标签已经可用时,模型需要进一步学习新的类别。
而与开放世界存在的无数类别相比,在Pascal VOC和MS-COCO等视觉数据集中标注的类数非常少。因此,将未知目标识别为未知类别需要强大的概括性。从下图也可以看出,开放世界的目标检测尚未得到解决。
论文方法
开放世界的目标检测
首先对“开放世界的目标检测”进行定义。在任何时间 ,我们都将已知的目标类别集合视为 ,其中 表示正整数集合。
为了更真实的模拟现实世界,作者假设存在一组未知类别 。
假定已知目标类别 在数据集 中被标记,其中 和 分别表示输入图像和标签。
输入图像集包括 个训练图像 ,每个图像的相关对象标签形成标签集 。
每个 编码一组带有其类别标签和位置的 个对象实例,即 , ,其中 和 分别表示边界框的中心坐标,宽度和高度。
开放世界的目标检测设置考虑了目标检测模型 ,该模型经过训练可以检测所有先前遇到的 对象类。重要的是,模型 能识别属于任意已知 类的测试实例,并能通过将其分类为未知类来识别新的或不可见的类别实例。未知的实例集 将反馈给可以定义 个新类别的使用者,并为此提供训练实例。因而逐渐添加 个新类别并进行迭代,以生成新模型 。
ORE:Open World Object Detecor
成功的开放世界目标检测方法应能够在没有明确监督的情况下进行未知实例的识别,并能将识别出的新实例标签提供给模型进行知识升级,同时不会忘记之前的实例,且无需从头开始重新训练。本文提出的ORE便能一并应对这两个挑战。
对于每个已知类 ,保留原型向量 . 。令 是由目标检测器中间层对 类对象生成的特征向量。我们将对比损失定义如下:
在用上述等式计算聚类损失时,我们将输入特征向量 与原型向量进行对比。这需要用未知的地面真实等级标记未知的对象实例,而在已标注的大规模数据集中重新标注每个图像的所有实例显然是不切实际的。作为替代,作者建议自动将图像中的一些对象标记为潜在的未知对象。为此,作者基于RPN(区域候选网络)与类无关的事实,将那些具有较高客观性评分但不与ground-truth对象重叠的propasal标记为潜在的未知对象。
给定潜在空间 中的特征 及其对应的标签 ,我们试图学习一个能量函数 。使用亥姆霍兹自由能公式将 中所有值的能量组合在一起:
其中T是温度参数。在softmax层之后的输出与类特定能量值的吉布斯分布之间存在简单关联:
利用这种对应关系,将分类模型的自由能定义如下:
实验与结果
作者提出了一项全面的评估标准来探讨开放世界的目标检测器的性能,包含对未知对象的识别,检测已知类别,以及对未知物提供以标签时逐渐学习新类别。下表显示了开放世界评估标准中的任务组成:
下表展示了ORE在开放世界目标检测中的表现。WI和A-OSE量化评估了ORE如何处理未知类(灰色背景),而mAP衡量了它如何很好地检测已知类(白色背景)。可以看到在所有指标上,ORE都始终优于基于Faster R-CNN的baseline。
同时,作者在三种不同的设置下将ORE与最新的增量式目标检测器进行了比较。如下表所示,ORE在所有设置中都表现十分出色。
论文传递门
论文链接:
https://arxiv.org/abs/2103.02603
代码:
https://github.com/JosephKJ/OWOD
本文仅做学术分享,如有侵权,请联系删文。
下载1
在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。
下载2
在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。
下载3
在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近3000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~
目标检测一卷到底之后,终于有人为它挖了个新坑|CVPR2021 Oral相关推荐
- 【论文解读】目标检测一卷到底之后,终于有人为它挖了个新坑|CVPR2021 Oral
作者丨二玖 审稿|邓富城 报道丨极市平台 极市导读 本文解决了两个挑战:一是在没有明确监督的情况下,将尚未引入的目标识别为"未知",二是让网络进行N+1式增量学习. 虽然目标检测技 ...
- 目标检测一卷到底之后,终于又有人给它挖了个新坑|CVPR2021 Oral
目标检测技术虽然已经发展得较为成熟,但是如果要说让计算机能够像人眼一样进行识别,有个特征一直没有被解锁--识别现实世界中的所有物体,并且能够逐渐学习认知新的未知物体. 来自澳大利亚国立大学和瑞典林雪平 ...
- 深度学习目标检测指南:如何过滤不感兴趣的分类及添加新分类?
编译 | 庞佳 责编 | Leo 出品 | AI 科技大本营(公众号ID:rgznai100) AI 科技大本营按:本文编译自 Adrian Rosebrock 发表在 PyImageSearch 上 ...
- 一文看尽 27 篇 CVPR 2021 2D 目标检测论文
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨二玖 编辑丨极市平台 导读 本文对我们汇总的 CVPR 2021 检测大类中的2D目标检测领域的 ...
- CVPR2021 | 2D目标检测论文解读
CVPR2021 | 2D目标检测论文解读 1. UP-DETR:--<UP-DETR: Unsupervised Pre-training for Object Detection with ...
- 一文看尽 27 篇 CVPR2021 2D 目标检测论文
6月25日,CVPR 2021 大会结束,共接收了 7039 篇有效投稿,最终有 1366 篇被接收为 poster,295 篇被接收为 oral,其中录用率大致为 23.6%,略高于去年的 22.1 ...
- 增量学习不只有finetune,三星AI提增量式少样本目标检测算法 | CVPR 2020
作者 | VincentLee 来源 | 晓飞的算法工程笔记 该论文研究了非常有意义的增量式少样本目标检测场景iFSD(Incremental Few-Shot Detection),场景设置如下: ...
- Complexer-YOLO:基于语义点云的实时三维目标检测与跟踪
泡泡点云时空,带你精读点云领域顶级会议文章 标题:Complexer-YOLO: Real-Time 3D Object Detection and Tracking on Semantic Poin ...
- 【深度学习】ICCV2021|性能优于何恺明团队MoCo v2,DetCo:为目标检测定制任务的对比学习...
作者丨小马 编辑丨极市平台 导读 作者专为目标检测任务"量身定制"了对比学习框架DetCo,在PASCAL VOC数据集上,DetCo在100个epoch时的性能就与MoCo V2 ...
最新文章
- 用 Git 和 Github 提高效率的 10 个技巧!
- linux eth0 device not found,mini2440的nfs文件系统挂不上问题“IP-Config: Device `eth0' not found”...
- springboot 问题总结
- wxWidgets:wxApp概览
- Linux进程管理之ps的使用
- 打开文件对话框控件的演示 c# 1614993940
- swf文件关键字查找_牛鹭学院:学员笔记|文件(夹)的出生、成长到死亡
- 95-136-041-源码-Operator-TwoInputStreamOperator
- Java 的内存分类
- 字符设备驱动(四)按键中断
- 三大运营商发5G白皮书:传统短信迎大升级 推出5G消息
- EasyUI前端框架
- w10计算机右键管理,电脑右键新建菜单管理,win10右键新建菜单管理-
- 模板类继承后找不到父类函数的问题
- 关于博客的自定义皮肤
- android平板 跑分软件,安卓平板拿啥比?M1 iPad Pro跑分公布:差距实在太大
- windows10LTSC下载与安装
- 移动拼图游戏(八数码问题) BFS版
- 单片机什么叫位寻址?/不可位寻址?
- STM32/CPU总线的由来和地址映射概念