「免费学习 60+ 节公开课:投票页面,点击讲师头像」

作者 | VincentLee

来源 | 晓飞的算法工程笔记(ID: gh_084c810bc839)

导读:论文提出CoAE少样本目标检测算法,该算法使用non-local block来提取目标图片与查询图片间的对应特征,使得RPN网络能够准确的获取对应类别对象的位置,另外使用类似SE block的squeeze and co-excitation模块来根据查询图片加强对应的特征纬度,最后结合margin based ranking loss达到了state-of-the-art,论文创新点满满。

  • 论文地址:https://arxiv.org/abs/1911.12529

  • 代码地址:https://github.com/timy90022/One-Shot-Object-Detection

  • 论文认为,人类能够在图片中找出模版对应的物体,是因为人类具备将像素分组,提取独特特征比对以及专注定位的能力。因此,论文希望提出一个具备人类视觉功能的网络来解决one-shot目标检测的问题,给予网络一张未见过的查询模版(query image),然后在目标图片(taget image)中找出其位置。论文提出的one-shot目标检测算法的特征主要来自两种上下文信息:
  • 目标图片能够提供空间上下文,对比其它前景物体和背景来找出特殊对象的位置

  • 目标图片和查询图片能够提供类别上下文,而确切的类别层次则是由模版和目标对象的相同属性(颜色,纹理,形状等)决定的

度量学习(Metric learning)是one-shot分类问题的关键,但不能直接简单地将学习到的度量方法应用到one-shot目标检测中,因为检测器需要先知道哪块区域最有可能包含目标才能进行比较。另外,目标追踪可以认为是少样本目标检测的一个特殊案例,区别在于,少样本目标检测的目标图片中不一定包含查询图片,并且允许图片之间存在明显的外观差异,只要他们有公共的特征进行归类即可。论文推出新的机制squeeze and co-excitation(CoAE)来同时强化新类别对象在查询图片和目标图片上的特征,实验证明,CoAE框架能更好地发掘空间和类别上下文信息,带来很好的性能提醒

方法

定义数据集的类别标签集合为,进一步将其分为,分别用于训练和测试。少样本目标检测的流程定义为,给予查询图片,为集合的一个类别对象,测试就是查找目标图片所有对应的对象,假设每张可用的图片包含至少一个查询对象。

论文的主要架构如1,主要包含4个部分,分别是前面的基础特征提取,然后是Non-local feature的提取,用于提取共同特征,接着是论文提出的squeeze and co-excitation(CoAE)模块,用于强化目标channel,最后是metric模块,用于最好的分类。

Non-local object proposals

定义训练集为,包含类别的bbox,论文采用Faster R-CNN架构进行检测,这会带来一个基础问题,即RPN能否检测出未训练过的类别()的bbox。由于类别与类别可能存在十分明显的区别,因此,RPN不一定能检测出的bbox。为了解决这个问题,论文引入non-local operation来优化卷积特征,non-local operation是一种类似attention的操作,能够根据参考输入来强化目标输入上的特征分布,具体可以看 Non-local neural networks

让为目标图片,为查询图片,目标图片的主干网络输出为,查询图片的输出为。将作为参考输入,的non-local block输出为,同样的,以作为参考输入,可以得到的,和之间的相互non-local operations可以认为进行co-attention机制

两个扩展的特征图可以表示为公式1和公式2,是element-wise sum。由于不仅包含了目标图片的特征,还包含了和加权特征,所以将RPN接在这层特征上能够发现更多关于查询图片的信息,从而获取更高质量的bbox,即non-local region proposals更适合少样本目标检测

Squeeze and co-excitation

除了关联region proposals和查询图片外,co-attention机制产生了channel数一样的两组特征 ,而这两组特征可以通过论文提出的squeeze-and-co-excitation(SCE)来根据查询图片对N个channel进行自适应重新加权。具体地,squeeze步骤通过GAP(global average pooling)概括了每一个特征图,而co-excitation则同时对和进行channel纬度的特征加强,重点加强对最后相似度度量有用的特征。在squeeze层和co-excitation层之间,放置了两个fc/MLP层,跟SE block设计一样

SCE operation如公式3,和为重新加强后的特征图,是co-excitation向量,而表示element-wise product

通过公式3,查询图片可以表示为公式4,同样RPN提取的区域特征可以同样得出,例如对的裁剪区域进行channel-wise的GAP

Proposal ranking

论文设计了一个两层MLP网络M,以二分类softmax结尾,RPN根据查询图片选出K个bbox,K一般为128。在训练阶段,K个bbox会根据IoU是否大于0.5分成前景(label 1)和背景(label 0),接着使用margin-based ranking loss来指导度量学习,使得最相关的bbox出现在bbox列表的前面。因此,论文将每个bbox的特征向量分别和查询图片特征进行concatenate,标记为,网络M的层输出分布

论文定义margin-based ranking loss为公式5,为前景的预测的置信度,为Iverson bracket,括号内为true则输出1,否则输出0,为前景的下限,为背景的上线,在实际中,一般分别设为0.7和0.3

margin-based loss分为两部分,前部分为限制前景和背景的置信度,前景必须大于0.7,背景必须小于0.3,否则产生loss。而另一部分则是ranking的loss,初始的顺序是根据RPN的置信度输出。这里可以看出,论文没有设定真正意义的先后顺序,而是限制了正负样本间的置信度差,同类别样本间置信度差要小于0.3,而不同类别样本间置信度差则要大于0.7

最后的总loss如公式7,前两个loss为交叉熵和Faster R-CNN的回归loss

实验


数据集和超参数

Table1展示了VOC上的seen和unseen类别,而在COCO上,则对80个类进行4等分,然后随机选取3个作为seen类别,剩下一个为unseen类别,如图2所示。训练使用SGD优化器,momentum为0.9,训练10个周期,batch size为128,使用8块v100,学习率为0.01,每4个周期下降10倍,margin-based ranking loss的

生成目标和查询对

对于VOC,直接裁剪gt bbox作为查询图片,而对于COCO,由于目标太小且对于人也太难辨认,不能直接裁剪,因此,使用预训练的Mask R-CNN去掉过小和过难的目标。另外,实验仅使用Mask R-CNN检测出来的GT。在训练时,对于目标图片,随机获取图片上的seen类别作为查询图片。而在测试时,先使用图片ID作为种子,随机打乱查询图片的顺序,然后选取前五个查询图片,最后计算mAP。打乱顺序能保证获取的5个查询图片上随机的,从而保证验证结果上准确的

ImageNet预训练

为了保证实验的严格性,使用缩减后的ImageNet对ResNet-50进行重新训练,将COCO-related ImageNet类别去掉,大约933052张图片,剩下725类,精度top-1 75.8%,完整的ImageNet包含1284168张图片,共1000类

性能

对于VOC,Table1中可以看到,使用缩减的数据集训练的模型依然优于baseline模型,而使用完整的数据集训练的模型则是性能有很明显地提升。unseen类别性能比seen类别好,这是由于部分类别的对象差异较大,比如plant, bottle, chair

对于COCO,Table2中可以看出,论文的模型在seen类别和unseen类别上优于Siamese Mask-RCNN

消融实验

  • Co-attention, co-excitation, and margin-based ranking loss

论文研究了不同的策略的共享,如Table3。首先,不使用Co-attention和Co-excitation的模型表现最差,而分别单独加入non-local RPN和SCE在VOC和COCO上能分别能带来6.3/4.4mAP和9.8/8.2AP(%)提升,同时加入则分别进一步带来0.9/1.8mAP(%)和0.3/1.9AP(%)提升,这意味着co-attention和co-exciation对性能表现都很关键,而margin-based ranking loss也是很重要的。

  • Visualizing the distribution of non-local object proposals

为了分析non-local bbox的性能,将bbox分布以heatmap方式可视化, 如Figure3,co-attention模块让RPN更专注于查询图片的相似区域。

  • Visualizing the characteristics of co-excitation

为了分析co-excitation机制是否学习到了不同类别的权重分布,论文收集了测试时不同类别的查询图片的co-excitation权重,最后对其求平均得到类别的单一向量,再用欧式距离计算类别单一向量间的距离。从图4的结果可以看出,co-excitation模块学习到了有意义的权重分布,相似的物体的向量距离比较近,而person类别则远离其它所有类别,表明person类别的权重与其它类别基本不同。

  • Analyzing the co-excitation mechanism

论文进行了两个相反的实验,首先对同一张目标图片使用不同的查询图片,从图5的结果可以看出,p1和p2的颜色与目标相似,而p3和p4则截然不同,从结果来看,结论是前两张图片更注重颜色,而后两张则更注重形状特征。另外一个则是对不同的目标图片使用同一张查询图片,从图6结果可以看出,I1和I2更注重纹理而I3和I4更注重形状特征。

结论

论文提出CoAE少样本目标检测算法能够根据查询图片提取对应的特征,不依赖于训练数据的标注信息,在COCO和VOC上达到state-of-the-art,未来的工作是将网络推广到k-shot(k0)目标检测中。

参考内容

  • Non-local neural networks

(*本文为AI科技大本营转载文章,转载请联系原作者)

精彩推荐

点击阅读原文,或扫描文首贴片二维码

所有CSDN 用户都可参与投票和抽奖活动

加入福利群,每周还有精选学习资料、技术图书等福利发送

推荐阅读

  • 微信9年:张小龙指明方向,微信AI全面开放NLP能力

  • 想知道与你最般配的伴侣长什么样?这个“夫妻相”生成器要火

  • 2020年趋势一览:AutoML、联邦学习、云寡头时代的终结

  • 达摩院 2020 预测:感知智能的“天花板”和认知智能的“野望”

  • 十大新兴前端框架大盘点

  • 联盟链走向何方

  • 拿下微软、Google、Adobe,印度为何盛产科技圈 CEO?

  • 你点的每个“在看”,我都认真当成了AI

基于Co-Attention和Co-Excitation的少样本目标检测 | NeurIPS 2019相关推荐

  1. 腾讯提超强少样本目标检测算法,公开1000类检测训练集FSOD | CVPR 2020

    作者 | VincentLee 来源 | 晓飞的算法工程笔记 不同于正常的目标检测任务,few-show目标检测任务需要通过几张新目标类别的图片在测试集中找出所有对应的前景.为了处理好这个任务,论文主 ...

  2. 增量学习不只有finetune,三星AI提增量式少样本目标检测算法 | CVPR 2020

    作者 | VincentLee 来源 | 晓飞的算法工程笔记 该论文研究了非常有意义的增量式少样本目标检测场景iFSD(Incremental Few-Shot Detection),场景设置如下: ...

  3. CVPR2018论文看点:基于度量学习分类与少镜头目标检测

    CVPR2018论文看点:基于度量学习分类与少镜头目标检测 简介 本文链接地址:https://arxiv.org/pdf/1806.04728.pdf 距离度量学习(DML)已成功地应用于目标分类, ...

  4. 目标检测论文解读复现之十一:基于特征融合与注意力的遥感图像小目标检测

    前言 此前出了目标改进算法专栏,但是对于应用于什么场景,需要什么改进方法对应与自己的应用场景有效果,并且多少改进点能发什么水平的文章,为解决大家的困惑,此系列文章旨在给大家解读最新目标检测算法论文,帮 ...

  5. 论文浅尝 | 利用常识知识图增强零样本和少样本立场检测

    笔记整理:张嘉芮,天津大学硕士 链接:https://aclanthology.org/2021.findings-acl.278.pd 动机 传统的数据驱动方法不适用于零样本和少样本的场景.对于人类 ...

  6. ECCV 2022 Oral | 无需微调即可泛化!RegAD:少样本异常检测新框架

    作者丨王延峰.张娅 来源丨机器之心 编辑丨极市平台 导读 本文介绍了一种少样本异常检测框架 RegAD,用于学习多个异常检测任务之间共享的通用模型.RegAD 无需模型参数调整,仅利用少量正常样本,就 ...

  7. 弱小目标检测跟踪算法研究(4) 基于双边滤波(BF)的红外弱小目标检测之背景抑制Opencv

    基于双边滤波(BF)的红外弱小目标检测之背景抑制Opencv 1. 前言 2. 双边滤波算法 3. Opencv实例 4. 小结 1. 前言 红外图像中的弱小目标,目标属性包涵"弱" ...

  8. 弱小目标检测跟踪算法研究(4) 基于双边滤波(BF)的红外弱小目标检测之背景抑制

    基于双边滤波(BF)的红外弱小目标检测之背景抑制 1. 前言 2. 双边滤波算法 3. Matlab仿真 4. 小结 1. 前言 红外图像中的弱小目标,目标属性包涵"弱"和&quo ...

  9. 弱小目标检测跟踪算法研究(3) 基于局部对比度(LCM)的红外弱小目标检测之背景抑制

    基于局部对比度(LCM)的红外弱小目标检测之背景抑制 1. 前言 2. 局部对比度(LCM)算法 3. Matlab仿真 4. 小结 1. 前言 红外图像中的弱小目标,目标属性包涵"弱&qu ...

最新文章

  1. python 测试linux dev文件,Linux测试开发人员要掌握的Linux命令有哪些?
  2. 祝师傅新婚快乐 :-)
  3. minio安装及特性原理介绍
  4. react前端显示图片_如何在react项目中引用图片?
  5. 关于C#编译器错误CS0685(VS2005)
  6. Ajax Session Timeout处理
  7. 数字电子技术基础阎石老师第五版课后习题解答-很抱歉,其实才写了两道题,大家不要误点进来耽误时间了。但是开始写了又不想删掉,希望日后能补起来吧。
  8. 任务栏管理器无法结束任务 taskkill也无法结束任务 pchunter加载驱动失败
  9. C语言平年闰年该月天数,2. 输入年月日,求它是该年的第几天。注:闰年的2月有29天,平年的2月有28天。(C语言编程题)...
  10. Qt:十六进制字符串和十六进制互转
  11. 暴走欧洲之旅行的经验杂记
  12. 【iOS】XCode14 iOS16适配 pod签名 12.1闪退
  13. NPOI导出Word并插入表格和图片
  14. 瞎扯:修仙文明VS科技文明发展潜力
  15. 一个玩游戏的失足青年,转行做软件开发的挣扎过程(1)
  16. 为什么说人生低谷期是最好的增值期?
  17. 基于时间片延长的轮转调度算法
  18. LED驱动电源EMI整改方案
  19. 前后端分离电商B2C模式之_后端_商品评论功能
  20. 某东MAOTAI秒杀软件的优化思路

热门文章

  1. JavaScript基础(一) 数据类型
  2. 资质申报 - 系统集成企业资质等级评定条件(2012年修定版)
  3. ATEN—第十章OSPF的高级配置(4)
  4. [ZT]如何取得客户端的Windows登录用户名?
  5. TBContact -- 导出ThunderBird邮件地址本
  6. 商城模块java_Java商城秒杀系统实战系列~构建SpringBoot多模块项目
  7. 具体数学:Joscphus
  8. 2018-3-21李宏毅机器学习视频笔记(十二)--Backpropagation
  9. Docker-Compose搭建单体SkyWalking 6.2
  10. maven的配置-2019-4-13