Background & Motivation

文中认为在此之前的 Few-shot 目标检测方法中的两类存在着不足:

  • 采用元学习的训练策略,同时 reweight 每一类的表征。

  • fine-tune 的方法,用 Novel 类数据微调模型的 Head 或者采用辅助分支来 refine 模型的 RPN 和 Head。

首先,support set 和 query set 之间的关系很难完全的表征出来,很多此前的方法采用的 global pooling 的方法会导致局部细节信息的丢失,模型无法学习各类和边界预测的关键特征。其次,Few-shot 目标检测领域的多尺度问题,也一直没有好的办法来应对。文章的 Motivation 就是为了解决上述不足。

Dense Relation Distillation with Context-aware Aggregation(DCNet)

文章提出了两个模块 Dense relation distillation 和 Context-aware Feature Aggregation,分别来应对上述问题。

第一个模块判断 query image 中的物体与 support set 中的物体是否属于同一个类别,可以看作是《Non-local Neural Networks》的扩展,只不过这篇文章里的方法是 self-attention。文章认为当发生遮挡等现象时,对于细节信息的 distillation 就变得尤为重要。经过这个模块,query 和 support 中相同的特征会被 further activated。

第二个模块用来应对多尺度问题,同时关注局部和全局特征可以保留不同尺度物体的上下文信息。采用了三个尺度,并且通过 attention mechanism 来聚合这三个尺度的特征。

模型的输入是一个 support set 及对应的 mask 和一张 query image 及其标注。跟 Matching Net 的设定一样,目标是找到 query image 在 support set 与之对应的类别并定位。具体的架构基于 Meta-Rcnn,包含两个共享权重的特征提取模块,输出 query image 和 support set 对应的特征图。

Dense relation distillation(DRD)

query 和 support 的每一张特征图都各自经过一个3*3的卷积被编码为 key 和 value,这两个部分的卷积不共享权重(key 的通道域变为特征图的1/8,value 的通道域变为特征图的 1/2)。这两个部分的 key 用来度量 query 和 support 特征的相似度,value 则存放了具体的信息。

Specifically, key and value maps are produced from features, which serve as encoding visual semantics for matching and containing detailed appearance information for decoding respectively.

之后将 key 和 value 输入到 DRD 中,度量相似度的具体做法是将 query 和 support 的 key 逐像素的输入经过两个不同的线性变换,这两个线性变换的参数通过梯度下降更新。

再将算出的每个像素的相似度输入到 softmax 中,将各个位置的相似度归一化,得到最后的相似度度量 W。最后的特征图输出为

对于 support set 中输入的 N 张图像,将得出的 y 直接相加,得到最后的 refined query feature。

Context-aware Feature Aggregation(CFA)

之后 refined query feature 被送入 RPN,产生的 proposal 经过 RoIAlign 后输出尺度分别为4*4、8*8和12*12的特征图。大尺度的特征图用来检测小物体,小尺度的特征图用了来检测物体。

The RoI pooling layer uses max pooling to convert the features inside any valid region of interest into a small feature map with a fixed spatial extent of H×W (e.g., 7 × 7), where H and W are layer hyper-parameters that are independent of any particular RoI.

用下图所示的方法来整合多尺度的特征图:

图中 GAP 代表全局平均池化,Linear 代表全连接层。每个尺度中的两个分支经过 softmax 归一化到0和1之间,最后的输出是这三个尺度输出的加权求和。

Experiment

采用元学习的训练方法:

训练和测试都是单尺度的,query image 最短边是800像素,最长边是1333像素且保持这个比例。微调阶段将最后的全连接层随机初始化,并且不冻结网络的任何部分。

We train our model with a mini-batch size as 4 with 2 GPUs.

PASCAL VOC 数据集上的结果:

各个模块的消融实验:

表中第一和第二行说明了 DRD 的效果。

* denotes CFA module with attention aggregation fashion.

Based on the plain CFA module, we further propose an attention-based aggregation mechanism to adaptively fuse different RoI features.

对 RoIAlign 的尺度也进行了消融实验:

对 DRD 和 CFA 的效果进行了可视化:

Moreover, different from former meta-learning based methods which performs prediction in a class-wise manner, our proposed DRD module can model relations between query and support features in all classes at the same time.

CFA 可以用来缓解误分类和漏检。

COCO 数据集上的结果:

Conclusion

key 和 value 的区别仅仅是通道域的大小不同,就发挥了不同的作用。

Transformer 的方法整合到 Faster Rcnn 里似乎有很多种方法。

CFA 缓解了误分类和漏检,这一点特性值得关注。

附加

  • RoI Align

详解 Mask-RCNN 中的 “RoIAlign” 作用 / 双线性插值的方法_暖仔会飞的博客-CSDN博客

【温故知新】RoI Pooling、RoI Align、ROI Warping pooling、PS-ROI Pooling、PS-ROI Align、PrROI Pooling_linkstack的博客-CSDN博客

论文阅读《Dense Relation Distillation with Context-aware Aggregation for Few-Shot Object Detection》相关推荐

  1. 《基于卷积神经网络的深度迁移学习,用于燃气轮机燃烧室的故障检测》论文阅读

    目录 突出 抽象 引言 1.1动机 1.2文献综述获得的结论 1.3贡献 1.4组织 2方法 2.1燃汽轮机组故障知识共享 2.2迁移学习 2.3 基于卷积神经网络的深度迁移学习 2.4用于燃气轮机燃 ...

  2. 基于卷积神经网络和投票机制的三维模型分类与检索 2019 论文笔记

    作者:白静 计算机辅助设计与图形学学报 1.解决的问题 由于三维模型投影得到的视图是由不同视点得到,具有相对独立性,这种像素级的融合运算并没有直接的物理或者几何意义,更有可能造成图像有益信息淹没和混淆 ...

  3. TextCNN——基于卷积神经网络的文本分类学习

    1.CNN基础内容 CNN的全称是Convolutional Neural Network,是一种前馈神经网络.由一个或多个卷积层.池化层以及顶部的全连接层组成,在图像处理领域表现出色. 本文主要学习 ...

  4. 读懂深度迁移学习,看这文就够了 | 赠书

    百度前首席科学家.斯坦福大学副教授吴恩达(Andrew Ng)曾经说过:迁移学习将是继监督学习之后的下一个促使机器学习成功商业化的驱动力. 本文选自<深度学习500问:AI工程师面试宝典> ...

  5. 一种基于卷积神经网络的图像去雾研究-含matlab代码

    目录 一.绪论 二.去雾卷积网络 2.1 特征提取 2.2 多尺度映射 2.3 局部均值 2.4 非线性回归 三.实验与分析 四.Matlab代码获取 一.绪论 雾是一种常见的大气现象,空气中悬浮的水 ...

  6. 机械臂论文笔记(一)【基于卷积神经网络的二指机械手 抓取姿态生成研究 】

    基于卷积神经网络的二指机械手 抓取姿态生成研究 论文下载 摘要 第1章 绪论 1.1 抓取生成国内外研究现状 1.1.1已知物体抓取生成 1.1.2相似物体抓取生成 1.1.3 未知物体抓取生成 1. ...

  7. 毕业设计 - 基于卷积神经网络的乳腺癌分类 深度学习 医学图像

    文章目录 1 前言 2 前言 3 数据集 3.1 良性样本 3.2 病变样本 4 开发环境 5 代码实现 5.1 实现流程 5.2 部分代码实现 5.2.1 导入库 5.2.2 图像加载 5.2.3 ...

  8. 基于卷积神经网络与迁移学习的油茶病害图像识别

    基于卷积神经网络与迁移学习的油茶病害图像识别 1.研究思路 利用深度卷积神经网络强大的特征学习和特征表达能力来自动学习油茶病害特征,并借助迁移学习方法将AlexNet模型在ImageNet图像数据集上 ...

  9. Python深度学习实例--基于卷积神经网络的小型数据处理(猫狗分类)

    Python深度学习实例--基于卷积神经网络的小型数据处理(猫狗分类) 1.卷积神经网络 1.1卷积神经网络简介 1.2卷积运算 1.3 深度学习与小数据问题的相关性 2.下载数据 2.1下载原始数据 ...

  10. 基于卷积神经网络实现图片风格的迁移 1

    卷积神经网络详解 一.实验介绍 1.1 实验内容 Prisma 是最近很火的一款APP,它能够将一张普通的图像转换成各种艺术风格的图像.本课程基于卷积神经网络,使用Caffe框架,探讨图片风格迁移背后 ...

最新文章

  1. 利用pmap查看进程的地址空间
  2. 五个项目管理学习笔记.沟通技巧II
  3. GB50174-2017新旧对比
  4. CV:基于face库利用cv2调用摄像头(或视频)根据人脸图片实现找人(先指定要识别已知人脸的文件夹转为numpy_array+输入新图片遍历已有numpy_array)
  5. php tinyme_黄聪:TinyMCE 4 增强 添加样式、按钮、字体、下拉菜单和弹出式窗口
  6. 读“NoSQL注入的分析和缓解”之摘录
  7. 设置数字范围的html语言,JavaScript奇技淫巧44招【实用】
  8. Linux学习总结(四十四)lnmp之php-fpm相关配置
  9. C++生成随机数:几何分布(geometric distribution)
  10. Async注解使用及源码分析
  11. android react混合开发框架,7个混合式移动开发框架
  12. excel 公式 单引号 concat_Excel制作倒计时、抽签器你见过没?
  13. 简易版双人对战五子棋
  14. 离散分布的分布函数_条件分布与条件期望
  15. 稳压二极管和TVS管知识点总结
  16. 算法:(1)确定字符互异
  17. 【稳定性day2】当当网的高可用之道
  18. 我的世界java凋零_我的世界:玩家还原Java版已“消失”的三个结构,造型让人难忘?...
  19. 七段数码管显示原理研究
  20. php短链接api,PHP实现短网址还原API接口

热门文章

  1. 《C算法.第1卷,基础、数据结构、排序和搜索(第三版)》电子书下载 -(百度网盘 高清版PDF格式)
  2. [导入]第11届世界计算机桥牌软件锦标赛
  3. java clone 源码_Java Clone方法之懒人实现
  4. 暗黑游戏服务器列表为空,暗黑3战网错误代码大全 游戏出错童鞋看过来
  5. ABAQUS的错误提示(The desired vendor daemon is down)解决措施
  6. 使用shp数据批量裁剪栅格数据并统计均值
  7. Android Linux指令集
  8. 空调噪音测试软件,检测空调噪音的四种方法
  9. Python主要用来做什么?
  10. cs231n-2022-assignment2#Q1:多层全连接神经网络