目标检测一卷到底之后，终于有人为它挖了个新坑

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

作者丨二玖

审稿｜邓富城

报道丨极市平台

导读

本文解决了两个挑战：一是在没有明确监督的情况下，将尚未引入的目标识别为“未知”，二是让网络进行N+1式增量学习。

虽然目标检测技术目前已经发展得较为成熟，但如果要真正能实现让计算机像人眼一样进行识别，有项功能一直尚未达成——那就是像人一样能识别现实世界中的所有物体，并且能够逐渐学习认知新的未知物体。

来自澳大利亚国立大学和瑞典林雪平⼤学的学者发现并解决了这个问题。他们提出了一种新颖的方案：Open World Object Detector，简称ORE，即开放世界的目标检测。目前，作者已经将这项技术开源。

ORE主要包含两个任务：

Open Set Learning，即在没有明确监督的情况下，将尚未引入的目标识别为“未知”；
Incremental Learning，即让网络进行N+1式增量学习，接收相应标签以学习其识别到的未知类别，同时不会忘记之前已经学到的类别。

检测效果如下所示：

上图（左）是ORE在学习后产生的结果。由于尚未引入“苹果“、”橘子“这些种类，ORE将其识别并正确标记为“未知“。而上图（右）是学习了新的种类的ORE，它成功的识别了新的目标种类，并将仍未引入的种类标记为“未知”。

在上图中，ORE再次展示了它作为开放世界检测器的真正特征：ORE在经过训练后成功识别左图的未知目标，即在右图中识别了牙刷和书籍等新引入的类别，同时没有忘记如何识别已知的目标。

下面，我们将更详细的介绍这篇论文。

提出背景

深度学习加快了目标检测的研究进展，但目前现有方法都在一个强假设下进行：所有要被检测的种类都需要在训练阶段提供。那么当我们放宽这一假设时，就会出现两个具有挑战性的问题：

（1）测试图像可能包含未知类的目标，这些未知目标也需要被归类；

（2）当被识别为未知类别的标签已经可用时，模型需要进一步学习新的类别。

而与开放世界存在的无数类别相比，在Pascal VOC和MS-COCO等视觉数据集中标注的类数非常少。因此，将未知目标识别为未知类别需要强大的概括性。从下图也可以看出，开放世界的目标检测尚未得到解决。

论文方法

开放世界的目标检测

首先对“开放世界的目标检测”进行定义。在任何时间，我们都将已知的目标类别集合视为，其中表示正整数集合。

为了更真实的模拟现实世界，作者假设存在一组未知类别。

假定已知目标类别在数据集中被标记，其中和分别表示输入图像和标签。

输入图像集包括个训练图像，每个图像的相关对象标签形成标签集。

每个编码一组带有其类别标签和位置的个对象实例，即 , ，其中和分别表示边界框的中心坐标，宽度和高度。

开放世界的目标检测设置考虑了目标检测模型，该模型经过训练可以检测所有先前遇到的对象类。重要的是，模型能识别属于任意已知类的测试实例，并能通过将其分类为未知类来识别新的或不可见的类别实例。未知的实例集将反馈给可以定义个新类别的使用者，并为此提供训练实例。因而逐渐添加个新类别并进行迭代，以生成新模型。

ORE：Open World Object Detecor

成功的开放世界目标检测方法应能够在没有明确监督的情况下进行未知实例的识别，并能将识别出的新实例标签提供给模型进行知识升级，同时不会忘记之前的实例，且无需从头开始重新训练。本文提出的ORE便能一并应对这两个挑战。

对于每个已知类，保留原型向量 . 。令是由目标检测器中间层对类对象生成的特征向量。我们将对比损失定义如下：

在用上述等式计算聚类损失时，我们将输入特征向量与原型向量进行对比。这需要用未知的地面真实等级标记未知的对象实例，而在已标注的大规模数据集中重新标注每个图像的所有实例显然是不切实际的。作为替代，作者建议自动将图像中的一些对象标记为潜在的未知对象。为此，作者基于RPN（区域候选网络)与类无关的事实，将那些具有较高客观性评分但不与ground-truth对象重叠的propasal标记为潜在的未知对象。

给定潜在空间中的特征及其对应的标签，我们试图学习一个能量函数。使用亥姆霍兹自由能公式将中所有值的能量组合在一起：

其中T是温度参数。在softmax层之后的输出与类特定能量值的吉布斯分布之间存在简单关联：

利用这种对应关系，将分类模型的自由能定义如下：

实验与结果

作者提出了一项全面的评估标准来探讨开放世界的目标检测器的性能，包含对未知对象的识别，检测已知类别，以及对未知物提供以标签时逐渐学习新类别。下表显示了开放世界评估标准中的任务组成：

下表展示了ORE在开放世界目标检测中的表现。WI和A-OSE量化评估了ORE如何处理未知类（灰色背景），而mAP衡量了它如何很好地检测已知类（白色背景）。可以看到在所有指标上，ORE都始终优于基于Faster R-CNN的baseline。

同时，作者在三种不同的设置下将ORE与最新的增量式目标检测器进行了比较。如下表所示，ORE在所有设置中都表现十分出色。

论文传递门

论文链接：
https://arxiv.org/abs/2103.02603

代码：
https://github.com/JosephKJ/OWOD

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近3000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~