点击上方“计算机视觉工坊”,选择“星标”

干货第一时间送达

  不同于以往在固定数据集上测试性能,论文提出了一个更符合实际的全新检测场景Open World Object Detection,需要同时识别出未知类别和已知类别,并不断地进行增量学习。论文还给出了ORE解决方案,通过对比聚类和基于能量的分类器来进行开放开放世界的检测训练

来源:晓飞的算法工程笔记 公众号

论文: Towards Open World Object Detection

  • 论文地址:https://arxiv.org/abs/2103.02603

  • 论文代码:https://github.com/JosephKJ/OWOD

Introduction


  常见的目标检测算法都针对特定的数据集进行训练,学习固定数量的类别,用于特定的场景。而论文则讨论一个更现实的场景,开放世界目标检测(Open World Object Detection)。在这个场景中,算法需要解决非目标误识别问题以及具备增量学习的能力。

  将检测模型应用到开放世界中,除了识别指定类别的目标,还要将非目标类别区别为Unknow,称为Open Set Learning,这需要很强的泛化能力。而Open World Object Detection场景的要求会比Open Set Learning更进一步,当Unknow样本足够时,可随时将Unknow样本打上标签加入到目标类别中,即增量学习。这样的场景设定更为现实,更有助于算法落地,比如机器人、自动驾驶以及监控等需要在运行中不断进行优化的应用。
  论文的主要贡献如下:

  • 定义了Open World Object Detection问题,更贴近现实生活。

  • 提出ORE算法,基于对比聚类(contrastive clustering)、可框出未知类别的检测网络(unknown-aware proposal network)、能量分类器(energy based unknown identification)来解决Open World Object Detection上的问题。

  • 设计了完备的实验,用于衡量算法在Open World Object Detection上的性能。

  • 作为论文的副产品,ORE在增量学习任务上达到了SOTA,而且还有很大的提升空间。

Open World Object Detection


  首先定义Open World Object Detection的环境,在时刻,已知的目标类别为,其中为所有正整数,未知的类别为。的训练集为,和分别为图片和标注信息,其中每张图片的包含了多个目标实例,每个实例都有其标签和位置信息。
  在Open World Object Detection的设定中,模型用于检测所有的个已知类别,同时可以将为未知的目标标记为未知(0),未知的实例集合经过专人筛选后得出个样本足够的新类别,然后通过增量学习地获取模型,已知类别更新为。不停地循环执行上述的步骤,模型就可以不停地迭代其类别。

ORE: Open World Object Detector


  Open World Object Detection的关键在于能够无监督地识别未知类别,以及加入新类别时不会遗忘先前的类别。为了解决上述问题,论文提出了ORE解决方案。

  图2为ORE的高层抽象,以两阶段检测器Faster R-CNN作为基础检测器。在第一阶段,检测器可通过类不可知的RPN给出可能存在物体的所有区域,而在第二阶段,将上述的每个区域进行分类和位置调整。为了更好的适应Open World Object Detection,ORE对RPN和分类器都进行了相应的改进,适应自动打标签和识别未知类的需求。

Contrastive Clustering

  将Open World中区分未知类问题转化为对比聚类问题是个不错的选择,在特征空间上进行类别分割,同类别的实例会尽量的靠近,而不相似的类别则会尽量的远离。对于每个已知类,维护一个原型向量,假设为类别的中间层特征,对应图2的ROI Head中的蓝色2048维特征,定义对比损失为:

  为距离函数,为相似阈值,不同类别实例间的距离要大于该阈值。在训练时,通过最小化对比损失来保证特征空间上的类别分割。需要注意的是,对比聚类的关键步骤是维护各类别的原型向量集合,一般取该类别的特征向量的均值。但由于整个网络是端到端训练的,特征向量也在不断地变化,原型向量也会跟着不断变化。为了适应这个特性,ORE为每个类维护了一个固定大小的特征队列,用来存储最新的特征向量。

  对比损失的计算过程如算法1所示,为了保证原型向量有相对的准确性,仅当超过一定迭代次数之后才开始计算损失值,之后每次迭代就以动量的形式更新一次原型向量。这样可以避免原型向量变化过大的问题,得到的损失值添加到检测损失值中进行端到端的学习。

Auto-labelling Unknowns with RPN

  在对比聚类中,未知类别也有其对应的原型向量,按正常的流程,需要对图片中的所有未知类别进行标注,以便归类特征,显然这是不现实的。所以论文采用RPN的预测框输出作为一个未知目标标注的折衷选择,将预测框中objectness分数高且与GT无重叠的top-K部分直接归类为未知目标,将其特征加入到未知列表的特征队列中。

Energy Based Unknown Identifier

  由于Opern World Detection场景包含未知类别的特性,传统的softmax分类器可能会给出不可控的结果,所以论文采用了基于能量的分类器(EBM),能够学习输入特征与标签之间的匹配程度,用来识别未知目标。给定特征与标签,学习一个能量函数,能够通过得到一个能用于描述特征与标签之间的匹配程度的标量(即能量)。这里,论文采用了Helmholtz free energy公式计算所有标签的结果之和:

  是温度参数。通过Gibbs分布,可以将各标签的能量转化成类似softmax那样的效果:

  为标签的概率密度函数,为分类头的第个分类单元。根据公式3的对应关系,论文得到了用于分类模型的free energy公式:

  由于ORE用了对比聚类对特征进行分割,已知类别的能量值和未知类别的能量值也有明显的差别。对已知类别和未知类别的能量值分布进行shifted Weibull distributions建模,得到和,如图3所示。当时,可认为该目标属于未知类别。

Alleviating Forgetting

  在对识别出来的未知目标进行标注后,得到了新的数据集,如果将所有数据集混合重新训练会很耗时且不够灵活,所以只能使用新数据集进行增量学习,这就需要解决新类别训练对旧类别识别效果的影响。
  论文参照了增量学习的SOTA方法,使用简单的样本回放策略来保证旧类别的效果,先构造一个小的样本集(exemplar set),包含每个类别的个样本,每次使用全量新数据集进行增量学习后,都使用小样本集进行一次finetune训练,这样就能很好地保证旧类别的效果而且不耗时。

Experiment


Open World Evaluation Protocol

  由于是一个全新的任务场景,论文也对实验进行了一些描述。

Data split

  将所有类别分成多个任务,具体的类别来源如表1所示。在特定的时间将特定的任务投放到场景中,类别作为已知类别,而类别则作为未知类别。

Evaluation metrics

  由于未知目标容易识别成已知类别,使用Wilderness Impact(WI)指标来衡量这种表现:

  为在已知类别的验证集上的准确率,为在已知类别和未知类别的验证集上的准确率,上述的准确率都是在0.8召回率下对应的值。理想情况下,WI的值越小越好,表明未知类别对准确率的干扰很少。此外,还使用Absolute Open-Set Error(A-OSE)来表示未知类别识别成已知类别的绝对数量,再加上目标检测常用的map指标。

Open World Object Detection Results

  上述是一个主要的实验结果,论文还有很多对比实验,有兴趣的可以去看看。

Conclusion


  不同于以往在固定数据集上测试性能,论文提出了一个更符合实际的全新检测场景Open World Object Detection,需要同时识别出未知类别和已知类别,并不断地进行增量学习。论文还给出了ORE解决方案,通过对比聚类和基于能量的分类器来进行开放开放世界的检测训练。

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「计算机视觉工坊」公众号后台回复:深度学习,即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。

下载2

在「计算机视觉工坊」公众号后台回复:计算机视觉,即可下载计算机视觉相关17本pdf书籍,包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。

下载3

在「计算机视觉工坊」公众号后台回复:SLAM,即可下载独家SLAM相关视频课程,包含视觉SLAM、激光SLAM精品课程。

重磅!计算机视觉工坊-学习交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

OWOD:开放世界目标检测,更贴近现实的检测场景 | CVPR 2021 Oral相关推荐

  1. CVPR 2021 Oral | OWOD:面向开放世界的目标检测 Towards Open World Object Detection

    Towards Open World Object Detection 论文:https://arxiv.org/abs/2103.02603 代码:https://github.com/Joseph ...

  2. 新视觉任务!CVPR 2021 Oral | OWOD:面向开放世界的目标检测

    转载自 机器之心, 关注公众号"迈微AI研习社",获取更多前沿内容 新视觉任务OWOD:Open World目标检测,可识别未知物体!更紧密地模拟现实世界!并提出一种解决方案:OR ...

  3. 迈向多模态AGI之开放世界目标检测 | 人工智能

    作者:王斌 谢春宇 冷大炜 引言 目标检测是计算机视觉中的一个非常重要的基础任务,与常见的的图像分类/识别任务不同,目标检测需要模型在给出目标的类别之上,进一步给出目标的位置和大小信息,在CV三大任务 ...

  4. OW-DETR | 基于 Transformer 的开放世界目标检测器

      欢迎关注我的公众号 [极智视界],获取我的更多笔记分享   大家好,我是极智视界,本文解读一下 基于 Transformer 的开放世界目标检测器 OW-DETR.   开放世界目标检测 (OWO ...

  5. 开放世界下的混合域适应 ——面向真实自然场景下的全新迁移学习范式

    Ziwei Liu*, Zhongqi Miao*, Xingang Pan, Xiaohang Zhan, Dahua Lin, Stella X. Yu, Boqing Gong, Open Co ...

  6. CVPR 2021 Oral | 55.1 AP!VFNet:全面提升密集目标检测性能

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文转载自:AI人工智能初学者 VarifocalNet: An IoU-aware Dense Objec ...

  7. CVPR 2021 | 论文大盘点:3D目标检测

    作者丨我爱计算机视觉@知乎 来源丨https://zhuanlan.zhihu.com/p/389319123 编辑丨3D视觉工坊 本篇汇总 3D 目标检测相关论文,包含基于单目.基于深度图.基于激光 ...

  8. 华人占大半壁江山!CVPR 2021 目标检测论文大盘点(65篇论文)

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:Amusi  |  来源:CVer 前言 CVer 正式盘点CVPR 2021上各个方向的工作,本篇是 ...

  9. 过程化技术:打造「开放世界」的秘密

    如果你经常接触开放世界游戏,应该不难发现在这些作品中,并不是每个角落都经过了精雕细琢.一张硕大的地图里,往往充斥着诸多相同的物件.地形和建筑.某种程度上,这些都是使用过"过程化技术" ...

  10. CVPR 2021 论文大盘点-人脸造假检测篇

    随着图像合成技术的成熟,利用一张人脸照片合成假视频/不良视频现象越来越多,严重侵犯个人隐私.妨碍司法公正,所以人脸造假检测越来越重要,学术界的论文也越来越多. 本文总结CVPR 2021 中相关技术论 ...

最新文章

  1. native2ascii用法
  2. 谈一谈git和SVN两大版本管理工具。
  3. python画正方形-用Python Turtle画一个正方形
  4. 【软考】2017年11月软件设计师上午真题9-12题答案解析
  5. 判断当前时间是否在某个时间范围内
  6. sqlserver大数据表操作慢_架构师必看!操作日志系统搭建秘技
  7. phpcmsV9留言板 - 提交后提示页UI自定义效果
  8. C#中的主从Datagridview
  9. 浅析vue的双向数据绑定
  10. 火币网交易所架构演进
  11. 曲线积分和曲面积分及其几何应用、物理应用
  12. 手机掌控汽车远程一键启动 预冷预热
  13. Matlab SVPWM仿真模型
  14. matlab 图片生成mif文件,使用MATLAB一鍵制作mif文件
  15. MySql存储含有特殊符号的微信昵称
  16. 计算机公式mode,强大的 Org mode(3): 表格的基本操作及公式、绘图 · ZMonster's Blog...
  17. Ansible介绍、安装、远程执行命令、拷贝文件或者目录、远程执行脚本
  18. 驾图车联网:区块链重塑汽车大数据的价值链和生态链
  19. 使用hibernate通过修改实体类文件更新数据库失效解决办法
  20. linux应用程序开发题库,Linux应用程序开发练习题ppt课件

热门文章

  1. 0/1背包总结(持续更新...)
  2. JQuery中使用cookie记住背景颜色
  3. Ajax 读取.ashx 返回404
  4. js中eval的用法
  5. 修改Code Blocks默认代码格式
  6. 借助Sigar API获取磁盘信息
  7. docker部署aliyundrive-webdav实现阿里云盘WebDAV服务
  8. 服务器监视Zabbix 5.0 - 安装部署
  9. php 修改文件所有者,PHP 改变文件的所有者
  10. mysql in 临时表_什么时候会用到临时表?MySQL临时表的使用总结