前言 论文提出了一种在多个大规模数据集上训练统一检测器的通用方法。使用特定于数据集的训练协议和损失,但与特定于数据集中的输出共享公共检测架构。与之前的工作相比,该方法不需要手动分类协调。
实验表明,本文学习的分类法在所有数据集中都优于专家设计的分类法。并且多数据集检测器在每个训练域上的性能与特定于数据集的模型一样好,并且可以推广到新的不可见数据集,而无需对它们进行微调。

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。目前公众号正在征稿中,可以获取对应的稿费哦。

QQ交流群: 444129970。群内有大佬负责解答大家的日常学习、科研、代码问题。

论文:https://arxiv.org/abs/2102.13086

代码:https://github.com/xingyizhou/UniDet

创新思路

单个数据集在图像域和标签表中都受到限制,不能产生通用识别系统。那么是否可以通过统一不同的检测数据集来缓解这种限制吗?

一般来说,不同的数据集通常在不同的训练损失、数据采样策略和调度下进行训练,每个数据集训练具有单独输出的单个检测器,并对每个数据集应用特定于数据集的监督,训练模拟使用公共网络训练并行数据集特定模型。
本文的一个核心挑战是将不同的数据集集成到一个通用的分类法中,并训练一个检测器,该检测器可以对一般目标而不是特定于数据集的类进行推理。

为此,作者提出了一种仅使用视觉数据的全自动方法来统一多数据集检测系统的输出空间。利用来自不同数据集的类似概念的目标检测器对类似的新目标进行检测。这使得可以定义跨数据集合并概念的成本,并完全自动地优化通用分类法。本文的优化使用新的0-1整数规划公式,联合发现了统一分类法、从该分类法到每个数据集的映射以及统一分类法上的检测器。基于该统一分类法训练的目标检测器具有来自所有训练数据集的大量自动构建的概念标签表。

本文的主要贡献

1、提出了一种仅使用视觉数据的全自动方法来统一多数据集检测系统的输出空间。

2、证明了在不同的训练集上训练的模型在无需再训练的情况下推广到新的领域,并优于单数据集模型。

方法

训练多数据集检测器

本文旨在具有标签空间的K个数据集上训练单个检测器M,以及数据集特定的训练目标。只要不尝试合并不同数据集之间的标签空间,就可以像单独训练多个数据集特定检测器一样训练统一检测器。

这可以被认为是并行训练K个数据集特定检测器,同时共享它们的主干架构。每个数据集特定架构与公共主干共享除最后一层之外的所有层。每个数据集最后都使用自己的分类层。称之为分区检测器。通过最小化K个数据集的特定损失,在所有数据集上训练分区检测器:

虽然分区检测器学习检测所有类,但它仍产生不同的数据集特定输出。

学习统一标签空间

考虑多个数据集,每个数据集都有自己的标签空间,目标是共同学习一个用于所有数据集的公共标签空间L,并定义这个公共标签空间与数据集特定标签Tk之间的映射。每个关节标签c最多映射到一个数据集特定标签ˆc。此外,每个数据集特定的标签精确匹配一个关节标签:Tk1。

然后,给定一组分块检测器输出,对于边界框,通过简单平均常见类的输出来构建联合检测得分di:

从这个联合检测器,恢复特定于数据集的输出。目的是找到一组映射T ,并隐式定义一个联合标签空间L,使联合分类器的性能不下降。

对于特定的输出类c,让Lc是一个损失函数,衡量合并标签空间di及其重投影ˆdki与单个盒子i上原始不相交的标签空间dki的质量。目的是在给定映射上的布尔约束条件下,在所有检测器输出上优化这种损失:

公式6混合了L上的组合优化和T上的0-1整数程序。但是,有一种简单的重新参数化方法可以实现高效的优化。不直接对标签集L和变换T进行优化,而是对T的潜在列值进行组合优化。优化的目标简化为

损失函数

失真度衡量的是分区检测器和统一检测器之间检测得分的差异:

给定一个重投影的特定于数据集的输出,可以测量每个输出类c在Dk的验证集上的平均精度:

这两个损失函数允许训练一个分区检测器,并在训练后合并其输出空间。

实验

表1。多数据集训练策略的有效性。

图3。对学习到的统一标签空间进行采样。

表2.特定于数据集的检测器vs分区检测器。

表3.统一标签空间的评估。

表5所示。统一检测器与分区检测器。

表6所示。Cross-dataset评估。

结论

论文提出了一个简单的方法来训练跨多个数据集的单一目标检测器,以及一个公式来自动构建一个统一的分类法。得到的检测器可以部署在新的领域,而无需额外的知识。

本文的标签空间学习算法目前只使用视觉线索,结合语言线索作为辅助信息可以进一步提高性能。


搞了个QQ交流群,打算往5000人的规模扩展,还专门找了大佬维护群内交流氛围,大家有啥问题可以直接问,主要用于算法、技术、学习、工作、求职等方面的交流,征稿、公众号或星球招聘、一些福利也会优先往群里发。感兴趣的请搜索群号:444129970

加微信群加知识星球方式:关注公众号CV技术指南,获取编辑微信,邀请加入。

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。目前公众号正在征稿中,可以获取对应的稿费哦。

其它文章

ECCV 2022 | MorphMLP:一种有效的用于视频建模的MLP类架构

CVPR 2022 | BatchFormerV2:新的即插即用的用于学习样本关系的模块

CVPR 2022|RINet:弱监督旋转不变的航空目标检测网络

ECCV 2022 | 新方案: 先剪枝再蒸馏

ECCV 2022 | FPN:You Should Look at All Objects

ECCV 2022 | ScalableViT:重新思考视觉Transformer面向上下文的泛化

ECCV 2022 | RFLA:基于高斯感受野的微小目标检测标签分配

Pytorch转onnx详解

Pytorch 加速数据读取

各种神经网络层和模块的计算量和参数量估计总结

迁移科技-工业机器人3D视觉方向2023校招-C++、算法、方案等岗位

文末赠书 |【经验】深度学习中从基础综述、论文笔记到工程经验、训练技巧

ECCV 2022 | 通往数据高效的Transformer目标检测器

ECCV 2022 Oral | 基于配准的少样本异常检测框架

CVPR 2022 | 网络中批处理归一化估计偏移的深入研究

CVPR2022 | 自注意力和卷积的融合

CVPR2022 | 重新审视池化:你的感受野不是最理想的

CVPR2022 | A ConvNet for the 2020s & 如何设计神经网络总结

计算机视觉中的论文常见单词总结

计算机视觉中的高效阅读论文的方法总结

CVPR 2022 | UniDet:通用的多数据集目标检测相关推荐

  1. coco数据集目标检测论文_做目标检测,这6篇就够了:CVPR 2020目标检测论文盘点...

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 选自heartbeat 作者:Derrick Mwiti 转载:机 ...

  2. 【CVPR 2021】基于解耦特征的目标检测知识蒸馏:Distilling Object Detectors via Decoupled Features

    [CVPR 2021]基于解耦特征的目标检测知识蒸馏:Distilling Object Detectors via Decoupled Features 论文地址: 主要问题: 主要思路: 具体实现 ...

  3. [数据集][目标检测]篮球数据集VOC格式7398张

    数据集格式:Pascal VOC格式(不包含分割路径的txt文件和yolo格式的txt文件,仅仅包含jpg图片和对应的xml) 图片数量(jpg文件个数):7398 标注数量(xml文件个数):739 ...

  4. CVPR 2021 | 论文大盘点:3D目标检测

    作者丨我爱计算机视觉@知乎 来源丨https://zhuanlan.zhihu.com/p/389319123 编辑丨3D视觉工坊 本篇汇总 3D 目标检测相关论文,包含基于单目.基于深度图.基于激光 ...

  5. CVPR 2020丨更精准的视频目标检测:基于记忆增强的全局-局部整合网络的方法

    编者按:在视频物体检测任务中,由于相机失焦.物体遮挡等问题,仅基于图像的目标检测器很可能达不到令人满意的效果.针对此类问题,微软亚洲研究院提出了基于记忆增强的全局-局部整合网络(Memory Enha ...

  6. 基于SSD的CCTSDB交通标识数据集目标检测

    先看下整体效果: 项目整体如下所示: 一般做目标检测类的项目,实现自己的个性化数据集上面的检测功能,一般我都会选择基于预训练的模型权重来进行后续的微调,这样收敛会更快,模型的检测效果也会更好,这里也不 ...

  7. [数据集][VOC][目标检测]河道垃圾水面漂浮物数据集目标检测可用yolo训练-1304张介绍

    数据集格式:Pascal VOC格式(不包含分割路径的txt文件和yolo格式的txt文件,仅仅包含jpg图片和对应的xml) 图片数量(jpg文件个数):1304 标注数量(xml文件个数):130 ...

  8. [深度学习][数据集][目标检测]工程车辆数据集16881张15种类别车辆介绍

    数据集格式:Pascal VOC格式(不包含分割路径的txt文件和yolo格式的txt文件,仅仅包含jpg图片和对应的xml) 图片数量(jpg文件个数):16881 标注数量(xml文件个数):16 ...

  9. [数据集][VOC][目标检测]西瓜数据集目标检测可用yolo训练-1702张介绍

    数据集名称:高质量西瓜目标检测数据集 数据集地址:数据集VOC格式目标检测数据集西瓜数据集-1702张-数据集文档类资源-CSDN下载 数据集介绍: 数据集格式:Pascal VOC格式(不包含分割路 ...

  10. coco数据集目标检测论文_目标检测coco数据集点滴介绍

    目标检测coco数据集点滴介绍 1.  COCO数据集介绍 MS COCO 是google 开源的大型数据集, 分为目标检测.分割.关键点检测三大任务, 数据集主要由图片和json 标签文件组成. c ...

最新文章

  1. 【原创】用J-LINK烧写ARM开发板的Nor Flash
  2. 你需要知道的12个Git高级命令
  3. PHP5魔术函数与魔术常量
  4. sqlserver oracle对比,sqlserver和oracle常用函数对比
  5. pytorch学习笔记(6):GPU和如何保存加载模型
  6. LINQ学习之旅——准备(C#3.0新特性补充)
  7. 【链表】剑指offer:反转链表
  8. 都是以父元素的width为参照物的
  9. CodeIgniter框架中的多语言
  10. 怎样找回xp调整分区后盘符不见的文件
  11. 2021计算机考研复试攻略(2020复试经验总结)
  12. 探索性测试--极限测试法
  13. 软件工程笔记:SQA组织与职责
  14. 数据链路层(一、二)——差错控制
  15. 9.4 网易互娱客户端笔试
  16. 赛迪视点 | 新冠疫情下的中国集成电路产业发展
  17. 城市空气质量分析与预测
  18. android手机进入fastboot,安卓手机进入Fastboot模式的多种操作方法
  19. Linux C++ libdl.so dlfcn.h使用方法(dlopen()、dlsym()、dlclose()、dlerror())(用于动态链接库操作)(懒加载、立即加载)共享库符号、动态库
  20. 计算机教室英语手抄报图片,英语知识总结手抄报

热门文章

  1. kodi资源_安装Kodi展示播放NAS电影
  2. 苹果手机如何深度清理_手机应用 | 推荐5款深度清理手机内存的软件
  3. 阿里云无影云桌面分配用户是什么?
  4. 2017年第八届蓝桥杯真题解析JavaB组
  5. word行首空格下划线_word空格处加下划线 word空格处下划线
  6. 移动端天气系统--【下雨】效果之【雷电】的实现和分析
  7. 办公室计算机网络使用情况,办公室中有多台电脑上网需求的解决方法
  8. PC端后台项目的总结
  9. 计算机word设置斜框线,Word绘制多线斜线表头技巧-word技巧-电脑技巧收藏家
  10. 关于微信各名词的英文翻译