计算机视觉研究院专栏

作者:Edison_G

目标检测现在的框架越来越多,我们“计算机视觉研究院”最近也分享了众多的目标检测框架!今天我们继续分享一个最新的检测框架——YOLOR

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

论文:https://arxiv.org/pdf/2103.17115.pdf

开源代码: https://github.com/hzhupku/DCNet

1

前言

传统的基于深度学习的目标检测方法需要大量的边界框标注数据进行训练,获得如此高质量的标注数据成本很高。少样本目标检测,学习适应只有少数带注释的例子的新类,非常具有挑战性,因为新目标的细粒度特征很容易被忽略,而只有少数可用数据。

为了充分利用带注释的新目标的特征并捕获查询对象的细粒度特征,研究者提出了具有稠密关系蒸馏与上下文感知聚合来解决Few-Shot检测问题。Dense Relation Distillation 模块建立在基于元学习的框架之上,旨在充分利用支持特征,其中支持特征和查询特征密集匹配,以前向传播方式覆盖所有空间位置。引导信息大量使用赋予了模型处理常见挑战(例如外观变化和遮挡)的能力。此外,为了更好地捕捉尺度感知特征,上下文感知聚合模块自适应地利用来自不同尺度的特征以获得更全面的特征表示

2

背景

先前对Few-Shot物体检测的研究主要由两组组成。他们中的大多数采用基于元学习的框架来为特定于类的预测执行特征重新加权。而【Frustratingly simple few-shot object detection】采用两阶段微调方法,仅微调最后一层检测器并实现最先进的性能。【Multi-scale positive sample refinement for few-shot object detection】也使用类似的策略并专注于小样本检测中的尺度变化问题。

然而,由于小样本对象检测的挑战性,上述方法通常存在一些缺点。首先,在之前的小样本检测工作中,支持特征和查询特征之间的关系几乎没有被充分探索,其中支持特征的全局池化操作主要用于调制查询分支,这容易丢失详细的局部上下文。具体来说,物体的外观变化和遮挡很常见,如上图所示。如果没有提供足够的判别信息,模型就无法学习类别和边界框预测的关键特征。其次,尽管尺度变化问题在之前的工作中得到了广泛的研究,但它仍然是小样本检测任务中的一个严重障碍。在少样本设置下,具有尺度感知改变的特征提取器倾向于过度拟合,导致基类和新类的性能下降。

Few-Shot Object Detection

小样本目标检测旨在仅提供一些带注释的训练示例,从新类别中检测目标。LSTD和RepMet采用通用的迁移学习框架,通过将预训练的检测器适应少数场景来减少过度拟合。

Meta YOLO

最近,Meta YOLO使用YOLO v2设计了一种新颖的小样本检测模型,该模型学习可泛化的元特征,并通过从支持示例中生成特定于类的激活系数来自动重新加权新类的特征。

Meta R-CNN

Meta R-CNN和FsDetView使用基础检测器执行与Faster RCNN类似的过程。TFA通过仅在第二阶段微调分类器来简单地执行两阶段微调方法,并获得更好的性能。MPSR提出了多尺度正样本细化来处理尺度方差问题。CoAE提出了非局部RPN,并通过与其他跟踪方法进行比较,从跟踪的角度专注于单次检测。

而今天分享的方法以更直接的方式对主干提取的特征进行交叉注意,目标在Few-Shot检测任务。FSOD提出了注意力RPN、多关系检测器和对比训练策略来检测新对象。在新框架工作中,采用了与Meta R-CNN类似的基于元学习的框架,并进一步提高了性能。此外,使用提出的方法,可以成功删除特定于类的预测过程,从而简化整个过程。

3

新框架

DCNet

如下图所示,展示了具有上下文感知特征聚合 (CFA) 模块的密集关系蒸馏 (DRD) 模块,以充分利用支持特征并捕获必要的上下文信息。这两个提出的组件构成了最终模型DCNet。研究者将首先描述所提出的DRD模块的架构。然后将带出CFA模块的细节。

Dense Relation Distillation Module

给定查询图像和支持集,通过将它们输入共享特征提取器来生成查询和支持特征。密集关系蒸馏(DRD)模块的输入是查询特征和支持特征。这两个部分首先通过专用的深度编码器编码成键和值映射对。查询编码器和支持编码器采用相同的结构,但不共享参数。

Relation Distillation。在获取查询和支持特征的键/值映射后,进行关系蒸馏。如上图所示,支持特征值映射的软权重是通过测量查询特征的关键映射和支持特征之间的相似性来计算的。

Context-aware Feature Aggregation

如上图所示,研究者为每个由两个块组成的特征添加一个注意力分支。第一个块包含全局平均池化。第二个包含两个连续的fc层。之后,向生成的权重添加softmax归一化,以平衡每个特征的贡献。那么聚合特征的最终输出就是三个特征的加权求和。

 Learning Strategy

4

实验及可视化

Few-shot object detection performance on VOC 2007 test set of PASCAL VOC dataset

(a). Visualizations of features before and after dense relation distillation module. (b). Visualizations of effect of context-aware feature aggregation module.

消融研究以评估提出的方法中不同组件的有效性

Few-shot object detection performance on COCO minival of MS COCO dataset

在coco中筛选了少量的数据集,基于源码训练10个epoch,效果还是不行啊!可能我数据集选的太少了还有就是训练啥都没有改,主要想快速看下具体效果及检测精度。有兴趣的同学自行去操作实践下!

© THE END 

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入!

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

扫码关注

计算机视觉研究院

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

往期推荐

CVPR小样本检测:蒸馏上下文助力小样本检测(代码已开源)相关推荐

  1. CVPR21小样本检测:蒸馏上下文助力小样本检测(代码已开源)

    计算机视觉研究院专栏 作者:Edison_G 目标检测现在的框架越来越多,我们"计算机视觉研究院"最近也分享了众多的目标检测框架!今天我们继续分享一个最新的检测框架--YOLOR. ...

  2. 目标检测的稀疏对抗攻击,代码已开源

    题目:Sparse Adversarial Attack to Object Detection 论文:https://arxiv.org/pdf/2012.13692v1.pdf 代码:https: ...

  3. 国科大提出FreeAnchor,新一代通用目标检测方法,代码已开源

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自新智元(ID:AI_era),请勿二次转载.   新智元专栏   作者:张小松 (中国科学院大学) [新智元导读]中国科学院大学联合厦门大学和 ...

  4. CVPR 2019 | 国防科大提出双目超分辨算法,效果优异代码已开源

    点击我爱计算机视觉标星,更快获取CVML新技术 近年来,双摄像头成像系统在智能手机.自动驾驶等领域取得了广泛的应用. 近日,来自国防科技大学等单位的学者提出了新型双目超分辨算法,充分利用了左右图的信息 ...

  5. CVPR 2019 Oral 亮风台提出端到端投影光学补偿算法,代码已开源

    点击我爱计算机视觉置顶,更快获取CVML新技术 导读:图像增强是一个历久弥新的研究方向,大多数计算机视觉学习者最开始接触的图像平滑.去噪.锐化是增强,现在研究比较多的去雾.去雨雪.暗光图像恢复也是增强 ...

  6. 深度学习实战 | 智慧工地安全帽和危险区域检测系统(代码已开源!)

    文章目录 原创声明 前言 Smart_Construction 指标 yolov5s 为基础训练,`epoch = 50` yolov5m 为基础训练,`epoch = 100` yolov5l 为基 ...

  7. ICLR 2021 | 基于自监督学习的小样本分类,代码已开源

    作者 | 张曼黎 编辑 | 陈大鑫 深度神经网络往往要求为每个新任务收集大量标记训练数据,实用性也因此受到限制.给定来自一组源任务的数据,有两种迁移学习方法可以克服这种限制:小样本学习 (FSL) 和 ...

  8. 扫描式SSD用于公式检测,代码已开源

    SSD是大家常见的目标检测器,在类似COCO的日常生活类物体检测,或者人脸.行人检测上都有应用,不过是否可以用于文本领域的检测呢? 今天跟大家介绍一篇新出的论文 ScanSSD: Scanning S ...

  9. 快速精准的人头检测,代码已开源

    点击我爱计算机视觉标星,更快获取CVML新技术 昨天arXiv一篇新上论文<FCHD: A fast and accurate head detector >,来自江森自控(Johnson ...

最新文章

  1. 前端如何获取联通积分_怎么利用定制的小程序来获取流量
  2. SAP B1在添加物料主数据时,出现错误提示‘xxxx代码已存在’的解决方法
  3. Java 重定向 无法写入_java IO 文件读入,写入,重定向
  4. elaselasticsearch节点类型
  5. linux那些事之中断与异常(AMD64架构)_2
  6. 接口带声音输出吗_智能化时代,你的功放跟得上科技的脚步吗?
  7. 极限运动:街头极限单车,不只是牛逼!
  8. vue 中引入使用jquery
  9. greensock 框架
  10. 如何快速注册一个谷歌gmail邮箱(2021)
  11. 第一季 停课模拟考试整理(完结)
  12. 有道云脑图 mindmap文件必须会员才能导出
  13. .Net Entity Framework Core 设置浮点数精度
  14. python画猫hellokitty_如何用铅笔画HelloKitty? 原来是这样的
  15. vue 实现 tooltips的效果
  16. 设计模式GOF23之-------------------结构型模式(适配器模式、代理模式、桥接模式、装饰模式、组合模式、外观模式、享元模式)
  17. 锐龙7000PBO温度墙设置
  18. 发现一个舔狗神器,Python真的太厉害了,自动下载妹子视频...
  19. 大学计算机实验二报告表答案,北理大学计算机实验基础实验二实验报告表答案...
  20. 用matlab画多普勒加宽线性函数,洛伦兹线性函数

热门文章

  1. [625]Git +TortoiseGit安装配置详细步骤
  2. windows 提示缺少VCRUNTIME140.dll错误
  3. NKOJ 2770 难度系数(最小生成树)
  4. Codeforces Round #649 D. Ehab‘s Last Corollary 【思维,二分图,环】
  5. AI智能曲谱识别|乐谱识别识音SDK|人声数拍SDK|智能钢琴、MIDI音乐、打谱、曲谱乐谱播放识别SDK、音序器、合成器、播放器软件
  6. strcpy_s与strcpy
  7. js实现video视频标签试看6分钟
  8. 【AIML系列-1】人工智能标记语言——基本内容教学
  9. 如何去掉html中input的边框
  10. ps去水印教程_【PS教程】超实用6大去水印去除方法!