论文题目: Context-Transformer: Tackling Object Confusion for Few-Shot Detection
论文地址:https://arxiv.org/pdf/2003.07304.pdf

在anchor和从textural field之间操作的注意力模块,自动的发现当前anchor box的重要的contextual field,然后聚合这种关系到anchor,增强OBJ以进行few-shot检测。和之前的《a syntax-guided edit decoder for neural program repair》中的注意力机制(整合错误语句的上下文)有些些区别。

目录

  • 目标检测器\目标混淆
  • Context-Transformer
  • Model
  • 实验部分
  • 结论

目标检测器\目标混淆

目标检测器通过bounding box regressor进行定位,通过object + background classifier进行分类

bounding box regressor定位不依赖于特定的物体类别,background classifier也不依赖于特定的物体类别(相当于一个二分类,有物体再框内值为1,无物体为0,于这个物体是哪个类别的无关)。正是因为其不依赖于特定类别,所以可以使用源域的BBox作为目标域的初始化,然后争对目标域进行微调,background classifier也同理。
而object classifier是特定于类被的,所以其必须为目标域中的新类别进行随机初始化,但在目标域中,可训练的图像少,数据多样性(data diversity)低,增加了训练难度,且导致目标混淆问题 。(object confusion caused by annotation scarcity)

争对目标混淆这个问题,作者提出了Context-Transformer
设计灵感:在对一个物体不确定的时候,通过物体周围的环境(contextual fields)来进一步确定这个物体

Context-Transformer

分为Affinity discovery和Context aggregation部分
图来自论文中

Affinity discovery:根据anchor box(先验框)构造一组上下文域,然后自适应利用先验框与上下文的关系。
具体做法见后面的推导。
Context aggregation:以affinity discovery得出的关系做为参考,将关键的上下文集成到每个先验框中。

通过集成上下文关系,减少检测的混淆。


拆分BG+OBJ
BBOX微调
BG微调
OBJ 保留源域,并在其之上新增一个目标域的OBJ。
文中解释了原因,简单描述如下:在传统做法中,卸载源域OBJ,引入新的目标域OBJ会引入大量随机初始化的参数(在高维特征上),然后目标域中能只有少数几个带有注释的图像,训练困难。而通过保留源域,在源域之上添加新的OBJ,引入的额外参数会更少(源域OBJ的预测分数的维度【物体类别】小于卷积层的特征通道数),从而减小过拟合。

源和目标OBJ之间的Context-Transformer。保留源域OBJ在一定程度上可以降低目标域OBJ的训练难度。然而,简单的转移不足以解决few-shot目标检测的根本问题,即目标域中由于标注稀缺而导致的目标混淆。仍然有必要进一步有效地从仅有的几个标注的训练图像中挖掘目标领域的知识。自动利用上下文。然后,集成这些关系线索来增强目标OBJ。

Model

M表示该层中anchor数量,K表示空间尺度数量(K=6)。
SSD每个特征层的输出:H x W x (M x (classes+4))
对于anchor的表示如下式:

通过池化构造contextual field:
spatial pool(比如max pooling)
使得同等感受野的数据特征维度减低,减少计算开销(相比于直接将anchor box用作contextual field)
reshape操作后接全连接层(增强非线性表示能力)

相似度(余弦相似度),论文中采用点乘(越“相似”,点乘越大)

softmax归一化

与h(Q)点乘,值大的表示该上下文对于当前这个anchor重要性高(相关性强)。

将加权上下文矩阵聚集到原始的矩阵P中


实验部分

重点关注了下消融实验
baseline:traditional fine-tuning with target-domain OBJ
论文中结果:

保留源OBJ可以缓解few-shot学习的过拟合问题。其次,通过将目标OBJ添加到上下文转换器之上,性能优于基线。实验结果表明,Conext-Transformer通过上下文学习可以有效地减少混淆。上下文转换器可以充分利用源域知识来增强目标OBJ。


上下文转换器更适合区分由于数据多样性较低而导致的对象混淆。当目标领域中的训练样本数量增加时,混淆将被缓解。

结论

context-transformer。通过在一个简洁的转换框架内利用多尺度的contextual field,可以有效地缓解由于标注稀缺而导致的对象混淆。大量的实验结果证明了该方法的有效性。

Context-Transformer 迁移学习 few-shot目标混淆问题相关推荐

  1. 读懂深度迁移学习,看这文就够了 | 赠书

    百度前首席科学家.斯坦福大学副教授吴恩达(Andrew Ng)曾经说过:迁移学习将是继监督学习之后的下一个促使机器学习成功商业化的驱动力. 本文选自<深度学习500问:AI工程师面试宝典> ...

  2. T5,一个探索迁移学习边界的模型

    作者 | Ajit Rajasekharan 译者 | 夕颜 出品 | AI科技大本营(ID:rgznai100) [导读]10月,Google 在<Exploring the Limits o ...

  3. 联邦学习 OR 迁移学习?No,我们需要联邦迁移学习

    2020-11-18 13:40:43 机器之心分析师网络 作者:仵冀颖 编辑:H4O 在这篇文章中,作者通过 4 篇论文详细介绍了联邦学习中的联邦迁移学习问题,并探讨了向经典联邦学习中引入迁移学习的 ...

  4. Python 迁移学习实用指南:1~5

    原文:Hands-On Transfer Learning with Python 协议:CC BY-NC-SA 4.0 译者:飞龙 本文来自[ApacheCN 深度学习 译文集],采用译后编辑(MT ...

  5. 迁移学习与跨域推荐,以及解决跨域推荐的方法

    本文主要是详细介绍一下跨域推荐,包含但不局限于以下几个部分: 迁移学习 跨域推荐 跨域推荐可以怎么做 冷启动的其他一些方法 可以参考的论文有哪些 1. 迁移学习 以下内容参考[推荐系统中的多任务学习- ...

  6. 迁移学习---迁移学习基础概念、分类

    迁移学习提出背景 在机器学习.深度学习和数据挖掘的大多数任务中,我们都会假设training和inference时,采用的数据服从相同的分布(distribution).来源于相同的特征空间(feat ...

  7. 迁移学习笔记4:ACML-Sinno Jialin Pan

    潘嘉林Sinno (Sinno Jialin Pan)在会议ACML最新一届上做了一个讲座 OAMLS -- Transfer Learning -- Sinno Jialin Pan The 13t ...

  8. 《A Survey on Transfer Learning》迁移学习研究综述 翻译

    迁移学习研究综述 Sinno Jialin Pan and Qiang Yang,Fellow, IEEE 摘要:   在许多机器学习和数据挖掘算法中,一个重要的假设就是目前的训练数据和将来的训练数据 ...

  9. 《A Survey on Transfer Learning》中文版翻译《迁移学习研究综述》

    首先感谢(http://blog.csdn.net/magic_leg/article/details/73957331)这篇博客首次将<A Survey on Transfer Learnin ...

  10. 用迁移学习创造的通用语言模型ULMFiT,达到了文本分类的最佳水平

    https://www.jqr.com/article/000225 这篇文章的目的是帮助新手和外行人更好地了解我们新论文,我们的论文展示了如何用更少的数据自动将文本分类,同时精确度还比原来的方法高. ...

最新文章

  1. 说AI没有创造性?现在它都能创作鬼畜音乐了
  2. Java :BufferedWriter类和BufferedReader类的构造方法、主要方法
  3. Android 开发包括哪些方面?如何提升?
  4. Expo大作战(十九)--expo打包后,发布分用程序到商店的注意事项
  5. etrace 跟踪程序函数动态执行流程
  6. Lync Server 2010的部署系列_第七章 部署边缘服务器(上)
  7. C#枚举、值、字符串的相互转换
  8. 开源分享 Unity3d客户端与C#分布式服务端游戏框架
  9. 【OFDM系列3】AWGN下基于循环前缀(CP)OFDM调制解调原理、信噪比计算及仿真(H Harada经典OFDM书籍中代码详解及更正)
  10. 基于 Bootstrap 的响应式后台管理面板
  11. nlp2-数学基础(信息论,概率论、词义消歧)
  12. Bootstrap3 横向表单/水平表单
  13. ELK和EFK的区别
  14. c语言语句大全ppt,C语言基本语句.ppt
  15. 4章 关键的“构建”决策
  16. 360 回应安全云盘出现交易异常;苹果官网陆续限购 iPhone;GitHub 屏蔽微软工程师的开源项目 | 极客头条...
  17. zabbix 监控percona
  18. 《代码大全2》读书笔记 Week9
  19. 软件观念革命:交互设计精髓_交互设计基础知识整理
  20. 证明矩阵的秩=行秩=列秩

热门文章

  1. 亚马逊买家秀视频位置该如何利用红人视频?
  2. Cannot load Counter Name data because an invalid index
  3. 数字集成电路设计-4-工具之ic compiler
  4. 应用间跳转/友盟统计/支付宝
  5. 计算机网络-谢希仁版
  6. python程序员现状_天才Python程序员身价上亿却被说挫,6个月减90斤,逆袭成文艺范男神!...
  7. JAVA版扫雷游戏,清晰易懂,注释多
  8. 从动态的角度分析DDR的时序结构
  9. GB2312字符集对应16进制ANSI、UNICODE、UTF-8编码 (4)
  10. source insight totalcmd 中文目录