作者丨Jaraxxus@知乎(已授权)

来源丨https://zhuanlan.zhihu.com/p/545249730

编辑丨极市平台

导读

本文提出无需微调的小样本目标检测方法AirDet,针对机器人自主探索任务设计。基训练后,未经微调的AirDet表现甚至优于部分微调后的方法。论文、项目代码、ROS部署接口均已开源。

AirDet

项目网站:https://jaraxxus-me.github.io/ECCV2022_AirDet/

开源论文:https://arxiv.org/pdf/2112.01740.pdf

开源代码:https://github.com/Jaraxxus-Me/AirDet

ROS部署:https://github.com/Jaraxxus-Me/AirDet_ROS

引言

小样本目标检测(FSOD)是近年兴起的一项计算机视觉任务,其基本设定是,仅提供少量(通常少于等于10个)新类样本情况下,方法即需检测基训练集之外类别的目标。

由于其在自主探索中的重要作用,FSOD受到了机器人界越来越多的关注。这是因为我们通常期望机器人在未知环境中检测到(模型训练过程中未见过的)新物体,然而在线探索的过程中,用户只能在线标注提供少量的新类样本。譬如图一(a)中,用户提供少量标注后,方法需要检测钻孔机、头盔等未见过的新颖类别目标。

尽管FSOD最近有了很显著的发展,但是大多数现有的方法在应用前都遵循基训练、小样本微调两阶段范式。然而微调阶段并不适用于机器人在线探索的应用场合,因为:

  1. 探索过程中待检测的新类别是可以动态变化的(如不断增加的)。如果每次改变类别都重新微调模型,一方面对于时间紧迫的探索任务而言效率极低,另一方面也会为有限的机器人机载算力带来过高负荷。

  2. 微调阶段的许多超参数都需要验证集进行调节,如微调学习率、模型收敛epoch等。然而对于在线探索任务而言,验证集是不存在的,超参调节自然也就难以进行。

为此,我们提出了一种无需微调的小样本目标检测方法AirDet。如图一(b)所示,未经微调的AirDet甚至能取得比一些微调后的方法更好的结果。

图一. 来自机器人探索(DARPA Subt 挑战赛)的代表性图像和性能比较。实线表示没有微调的结果,虚线表示在少样本数据上微调后的结果。

贡献

  1. 本文提出在机器人自主探索任务中可行的,无需微调的小样本检测模型,AirDet。

  2. 本文提出“与类别无关的关联性(class-agnostic relation)”,包含空间关联性与通道关联性,这是AirDet的模型设计核心。

  3. 在COCO,VOC,LVIS数据集与DARPA Subt挑战赛真实数据中的详尽实验评估证明了AirDet的优越性与可行性。

  4. 我们也提供了AirDet的ROS接口与AGX上的部署指南。

方法介绍

图二. 自主探索任务的流程和 AirDet 的算法框架。

图二展示了机器人自主探索任务的流程和AirDet的宏观模型结构。

任务流程

在探索未知环境过程中,机器人首先将可能包含重要物体(如头盔)的原始图片发送给用户。用户会在线给出标注并提供少量样本。此后,机器人便可_立即_ 通过对后续环境的感知检测这些新类样本。

宏观结构

AirDet宏观上包含四个模块

  1. 共享的骨干网络,用于特征提取

  2. 由支持样本引导的多层特征融合的区域建议网络,用于在测试图片上生成候选框

  3. 基于全局-局部联系的样本融合网络,用于生成更具表征能力,更可靠的类原型特征

  4. 基于关联性的检测头,分为分类分支和检测框回归分支

核心理念

AirDet的模块设计理念均基于“与类别无关的关联性(class-agnostic relation)”。

具体而言,我们定义了如下两种关联性:空间尺度关联性  和特征通道关联性

空间尺度关联性: 目标的类别与其外观紧密相关, 而目标的外观由特征的空间维度描述。因此, 两 个特征的空间关联性可以很大程度上反映两个特征的相关程度(如相似性)。我们定义  如下:

402 Payment Required

其中,  是两个任意张量。Flatten 意味着将特征在空间尺度下展平。MLP 是常用的多层感知机, 故而  可以生成带有  的空间 信息的核, 此后使用逐通道卷积  便可计算  间的空间关联性  。

特征通道关联性: 在以往的研究中表明, 图片的类别信息通常存于特征通道中。譬如, 考虑两辆汽 车的深度特征, 其沿通道的分布是相似的。受此启发, 我们提出特征通道关联性模块  :

其中,  代表沿通道维度串联两个特征。

与类别无关的关联性贯穿AirDet每个子模块的设计,这使得AirDet无需微调即可工作。每个子模块的设计细节请有兴趣的读者参阅我们的原文或代码。

实验

条件设定

基训练集:

COCO2017 train数据集中非VOC的60类数据(等价于COCO2014 trainval中剔除5k测试图片)

测试集:

  • COCO2017 val数据集中属于VOC的20个新类数据(提供1,2,3,5shot 支持样本)

  • Pascal VOC2012 val数据集

  • LVIS 数据集中四组非常规类别

  • DARPA Subt 挑战赛中的真实数据

值得一提的是,由于AirDet无需微调,在所有测试数据不同shot的设定中,我们都可采用同一个基训练出来的模型(而不需要针对不同的场景调整不同的微调超参数)。

COCO

COCO数据集上的结果比较。

COCO上的结果显示,无需微调的AirDet已经比肩,甚至优于许多微调后的方案,微调后,AirDet的性能更加可观。无需微调的条件下,方法的结果对支持样本较敏感,故而我们随机采样了3-5组样本,展示了其平均结果和标准差,表中由 \dagger\dagger 表示。

COCO数据集上不同尺度的目标检测结果比较

得益于AirDet中由支持样本引导,可学习多层特征联系的SCS模块(详见原文),AirDet在多尺度目标检测中也比已有的方案更优(优于采纳FPN的方案)。

值得一提的是,对于多尺度目标的检测,微调后的模型表现不一定更好。

COCO 10-shot 结果比较

大多现有方案对于COCO数据集采纳10-shot场景,我们也给出AirDet 10-shot的结果如上表。(不过最新的CVPR2022中,COCO 10-shot已经能达到17-18 AP,不得不感慨CV发展的迅猛)

VOC

VOC 跨领域结果比较

通常机器人的工作环境与训练集有较大差别,我们展示的跨领域性能(COCO训练,VOC测试)如上表。

Subt 挑战赛

图三. DARPA SubT挑战赛中的定性结果

感觉放了好多表,SUBT就放一些定性图。左侧是提供给AirDet的新类样本,右侧是AirDet的检测结果,可见AirDet对真实探索环境中的尺度变化、照度变化等挑战因素较为鲁棒。

局限性

无需微调的小样本目标检测研究甚少,目前可以不微调直接工作的仅有A-RPN和AirDet两个方法,而这个任务对机器人在位置环境中的探索感知又比较重要。为了这个领域未来能得到关注并发展的更好,我们也真诚摆出AirDet的局限性:

  1. AirDet目前模型参数较多,运行速度不快,我们在AGX Xavier上如果不做TensorRT加速,运行速度仅有1~2FPS。更轻量化的模型是可优化的方向。

  2. 我们观察到AirDet的failure case主要是由分类导致的,具体问题有两个。第一,类间variance大,有些类AP高达30,有些类低至0.5。第二,AirDet对正样本分类不够好。举例来说,如果给猫(新类)的支持样本,AirDet在测试图片上:在猫的区域生成候选框,和将含有猫的候选框分类为猫,这两个任务表现不佳(体现为loss大)。所以设计更有效地分类策略是提升AirDet性能的可观方向。

  3. AirDet对于多类检测的效率较低。AirDet的SCS和检测头内部会对支持类跑循环,最后在所有类下找到得分最高的,这种跑法会导致类别过多时推理速度变慢。(这应该也是大多数基于元学习(meta-learning)的FSOD的局限性)

  4. 最后坦白的说,未经微调的AirDet与微调的方法在某些情况下仍有一些差距,这也说明AirDet的性能仍有较大提升空间。

致谢

本文是我参加CMU RISS2021暑研期间的工作,从第一次讨论这个方向,到至今论文中稿已逾一年。非常感谢期间王晨博士和Scherer教授对我的指导帮助,也非常感谢pranay和Seungchan学长的协助合作。本文主要受A-RPN与《learning to compare》两篇文章启发,在此向文章的作者们致以真挚的谢意(代码基于FewX)。

本文仅做学术分享,如有侵权,请联系删文。

干货下载与学习

后台回复:巴塞罗自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件

后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf

后台回复:3D视觉课程,即可学习3D视觉领域精品课程

计算机视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

16.基于Open3D的点云处理入门与实战教程

重磅!计算机视觉工坊-学习交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

ECCV 2022 | AirDet: 无需微调的小样本目标检测方法相关推荐

  1. LVC | 一种简单的小样本目标检测方法

      欢迎关注我的公众号 [极智视界],获取我的更多笔记分享   大家好,我是极智视界,本文解读一下 Label, Verify, Correct (LVC):一种简单的小样本目标检测方法.   本文的 ...

  2. ECCV 2022 Oral | 无需微调即可泛化!RegAD:少样本异常检测新框架

    作者丨王延峰.张娅 来源丨机器之心 编辑丨极市平台 导读 本文介绍了一种少样本异常检测框架 RegAD,用于学习多个异常检测任务之间共享的通用模型.RegAD 无需模型参数调整,仅利用少量正常样本,就 ...

  3. (翻译)Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector具有注意力RPN和多关系检测器的小样本目标检测

    文章目录 前言 一.背景 二.相关工作--Related Works 2.1 通用目标检测 2.2 小样本学习 三. FSOD数据集--A Highly-Diverse Few-Shot Object ...

  4. 干货!基于语义关系推理的小样本目标检测

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 本文探究了利用语义关系和视觉信息,并将显式的关系推理引入到新型物体检测的学习中.所提出基于语义关系推理的小样本目标检测器--SRR-FS ...

  5. CVPR2022:使用完全交叉Transformer的小样本目标检测

    关注并星标 从此不迷路 计算机视觉研究院 公众号ID|ComputerVisionGzq 学习群|扫码在主页获取加入方式 论文地址: https://openaccess.thecvf.com/con ...

  6. 【小样本目标检测实践VOC格式】Frustratingly Simple Few-Shot Object Detection

    文章目录 数据准备 数据来源 数据预处理 FSDet step1.配置环境,跑通demo.py step2.准备base model step3.制作自己的few-shot数据集 builtin.py ...

  7. 重庆邮电大学发布2021年最新小样本目标检测综述

    论文:A Comparative Review of Recent Few-Shot Object Detection Algorithms 作者:Leng Jiaxu, Chen Taiyue, G ...

  8. 遥感图像中的小样本目标检测:Few-shot Object Detection on Remote SensingImages

    论文下载:https://arxiv.org/pdf/2006.07826v2.pdf Abstract 在本文中,我们处理遥感图像上的目标检测问题.以前的方法已经发展了许多基于深度卷积的遥感图像目标 ...

  9. 深度学习目标检测方法

    转自:http://blog.csdn.net/yimingsilence/article/details/53995721 这里搜集了一些关于物体检测的方法分析和介绍,看好哪个可以去详细研究一下,基 ...

  10. 基于CNN目标检测方法(RCNN,Fast-RCNN,Faster-RCNN,Mask-RCNN,YOLO,SSD)行人检测,目标追踪,卷积神经网络

    一.研究意义 卷积神经网络(CNN)由于其强大的特征提取能力,近年来被广泛用于计算机视觉领域.1998年Yann LeCun等提出的LeNet-5网络结构,该结构使得卷积神经网络可以端到端的训练,并应 ...

最新文章

  1. android 定位服务 耗电吗,关于Android的定位服务
  2. python json库函数_python基础之JSON标准库
  3. 用c语言编程计算10,计算方法c语言编程.doc
  4. 【Java】MapReduce 程序五步走的思想详细描述
  5. 自动化运维工具SaltStack
  6. 工业互联网网络安全防护亟待提高
  7. 支付宝授权登陆php,php实现支付宝授权登录
  8. win10不自带扫雷,想玩扫雷怎么办?自己造一个扫雷
  9. Linux 用户账号安全管理,文件系统和日志
  10. 博客园申请理由写这1句话,居然12分钟就能开通成功!
  11. 计算机系统建模_包图
  12. 【建站笔记】:在wordpress博客文章中插入代码段并高亮显示
  13. java rdt_使用 Eclipse 和 RDT 开发Ruby应用程序
  14. 国外计算机课程lab,计算机系统实验之bomblab
  15. 自己撸一个Wordcount
  16. camera中文版软件 ip_911 S5使用教程动态IP代理配置VMlogin中文版反指纹浏览器Multilogin浏览器教程...
  17. 【数据结构】直接插入排序以及时间复杂度的分析
  18. 一键搭建网站(网站源码)
  19. 【Linux】物理CPU、CPU核数、逻辑CPU、超线程
  20. 卡车界“特斯拉”Nikola不符合上市标准:市值跌至4亿美元

热门文章

  1. 格雷码与二进制转换的verilog实现
  2. win10虚拟打印服务器,win10系统安装虚拟打印机的图文方法
  3. 8位单片机003兼容替换意法半导体STM8S003F3P6
  4. movielens数据集简述
  5. 走在技术的前沿 创造一代名品
  6. 电脑录音软件哪个好?六款常见的录音软件介绍
  7. mappedby 详解
  8. 新版谷歌浏览器开启Flash支持,开启flash方法
  9. MATLAB中的单相与三相dq变换模块
  10. GB/T19001—2008质量管理体系要求、标准、贯标(贯彻标准)