作者 | VincentLee

来源 | 晓飞的算法工程笔记

不同于正常的目标检测任务,few-show目标检测任务需要通过几张新目标类别的图片在测试集中找出所有对应的前景。为了处理好这个任务,论文主要有两个贡献:

  • 提出一个通用的few-show目标检测算法,通过精心设计的对比训练策略以及RPN和检测器中加入的attention模块,该网络能够榨干目标间的匹配关系,不需要fine-tune就可以进行靠谱的新目标检测。实验表明,early stage的attention模块能够显著提升proposal的质量,而后面的多关系检测(multi-relation detector)模块则能有效抑制和过滤错误的背景

  • 提供了一个1000类的少样本训练集FSOD,论文提出的模型的性能提升有一定程度得益于此训练集,是一个前所未有的训练集

FSOD: A Highly-Diverse Few-Shot Object Detection Dataset

尽管目前目标检测的训练集已经非常庞大,但是对于少样本目标检测算法的使用而言,这些训练集的类别都太少了。因此,论文构造了一个少样本目标检测专用的训练集

Dataset Construction

新训练集基于ImageNet(选了531类)和Open Images dataset V4(选了469类),但训练集间的类别不同,为了防止合并后存在漏标的情况,先对label进行分析和合并成树状结构,补充标注,然后去掉标注质量差的图片,包括包含目标太小(






)的图片。将类别分为训练集和测试集,先用COCO的类别作为基础训练集,防止pretrain的影响,然后尽量选择与当前训练集差距较大的类别作为测试集,共包含200类,再选择另外800类作为训练集。

Dataset Analysis

新训练集的数据情况如图3和表1,主要有两个特性:

  • High diversity in categories,类别覆盖的领域很多,包括动物、衣服、武器等,且训练集和测试集的类别来自不同的领域

  • Challenging setting,数据集在box大小和宽高比上有很多种,26.5%的图片包含至少3个目标,且有大量非目标类别的物体,干扰性很大

方法论

Problem Definition

给予包含目标特写的辅助图片(support image)







以及可能包含




类目标的查询图片







,任务是找出查询图片中所有辅助图片对应的类别目标,并且标记其准确的位置。如果辅助集包含




个类别,每个类提供




张图片,则称为K-way N-shot检测。

Deep Attentioned Few-Shot Detection

论文提出新attention网络,该网络能够在RPN模块和多关系检测模块中学习辅助集与查询集间的通用的匹配关系。网络为包含多分支的权重共享框架,一个分支用于查询集,其它则用于辅助集(为了方便,图4只画了一个分支),对于同类别的辅助分支,使用平均特征图作为辅助特征图。查询分支的权重共享主干为Faster R-CNN(包括RPN),使用这个分支来训练辅助集和查询集的匹配关系,能够学习到同类别的通用知识。

  • Attention-Based Region Proposal Network

在少样本目标检测中,RPN能够产生潜在的相关box用于接下来的检测任务,不仅要分辨前景和背景,还要过滤不属于辅助集的前景。如果没有足够的辅助集信息,RPN将会产生大量不相关的proposal。为了解决这个问题,提出了attention RPN,能够使用辅助图片的信息来过滤背景以及不相关的前景,产生更少但更准的候选目标.

Attention RPN的核心是计算相似度特征图,对于辅助特征图















以及查询特征图















,相似度特征图




计算如上。辅助特征




用来作为核在查询特征图上进行类似depth-wise卷积的滑动。在实际中,查询特征采用RPN的输入特征,用于卷积的辅助特征大小为






,由global average产生,在获得attention特征后,使用






卷积进一步提取特征,然后接objectness分类和box预测,attention RPN的loss 











会跟Faster R-CNN一样加入到模型的训练中

  • Multi-Relation Detector

RPN后面一般会接一个检测器用于对proposal进行重新评估和调整,而论文则希望检测器能够有强大的类别区分能力,提出了多关系检测器(multi-relation detector)来度量相似性.该检测器包含3个attention相似性模块,将3个模块的分数求和作为最终的匹配分数。对于大小均为








的辅助特征







和查询特征







  • global-relation head,用于学习全局匹配的深层embedding。将















    concatenate成特征







    ,然后平均池化成









    ,最后用加ReLU的两层全连接层输出最后的分数

  • local-correlation head,学习pixel-wise和depth-wise的关系,即对应位置的关系。首先使用








    卷积分别操作















    ,使用前面的Attention RPN的相似性计算













    进行depth-wise的相似性计算获得相似性特征图,










    ,最后用单层全连接层获得分数

  • patch-relation head,用于学习非线性的块匹配,即一对多的关系。将















    concatenate成特征







    ,然后输出到表8的块关系模块中,表8的卷积层后面都接ReLU,所有卷积层和池化层都进行0填充,模块将特征图从






    下采样为






    (这里池化层的s1/p0感觉描述不清楚,等源码放出来再看看),最后同时接两个全连接层,一个全连接产生匹配分数,另外一个产生bbox的预测

论文对3种head的重要性进行了实验,可以看到这3种head能很好地互补,结合起来能够完整地表达目标间的关系。

Two-way Contrastive Training Strategy

通常少样本训练策略为每次输入为














,论文认为模型应该同时学习识别同类别和区分不同类别,提出2-way对比训练策略。

如图7,该策略每轮随机选择一张查询图片







、一张辅助图片







以及一张别的类别的辅助图片







组成三元组























,查询图片中只有




类目标标记为前景。在训练时,不仅学习














间的相似性,也学习














间的差异性。由于背景proposal的数量比较大,占据着训练过程,所以












































控制为1:2:1比例,根据匹配分数从高到低选择。每个proposal的损失为



























,匹配损失使用二值交叉熵。

论文对不同的训练策略进行了对比,2-way 5-shot对比训练策略效果最优,并且可以看到attention RPN也是有效的,










提升了1.9。

实验

Training Details

查询图片短边为600像素,长边上限1000像素,辅助图片裁剪目标区域加16像素的位置,resize然后0填充至






,在推理时,相同类别的辅助集使用平均特征集

Comparison with State-of-the-Art Methods

  这里表格的finetune是指直接在测试集上进行finetune

Realistic Applications


More Categories vs More Samples?

结论

论文提出了新的少样本目标检测算法,创新点包括Attention-RPN、多关系检测器以及对比训练策略,另外还构建了包含1000类的少样本检测数据集FSOD,在FSOD上训练得到的论文模型能够直接迁移到新类别的检测中,不需要fine-tune。

论文地址:https://arxiv.org/abs/1908.01998

【end】

原力计划

《原力计划【第二季】- 学习力挑战》正式开始!即日起至 3月21日,千万流量支持原创作者!更有专属【勋章】等你来挑战

推荐阅读

  • 2019年度CSDN博客之星TOP10榜单揭晓,你上榜了吗?

  • Javascript函数之深入浅出递归思想,附案例与代码!

  • 不看就亏系列!这里有完整的 Hadoop 集群搭建教程,和最易懂的 Hadoop 概念!| 附代码

  • 智能合约编写之Solidity的基础特性

  • 微信七年「封链」史

  • 计算机博士、加班到凌晨也要化妆、段子手……IT 女神驾到!

  • 你点的每个“在看”,我都认真当成了AI

腾讯提超强少样本目标检测算法,公开1000类检测训练集FSOD | CVPR 2020相关推荐

  1. 增量学习不只有finetune,三星AI提增量式少样本目标检测算法 | CVPR 2020

    作者 | VincentLee 来源 | 晓飞的算法工程笔记 该论文研究了非常有意义的增量式少样本目标检测场景iFSD(Incremental Few-Shot Detection),场景设置如下: ...

  2. 基于Co-Attention和Co-Excitation的少样本目标检测 | NeurIPS 2019

    「免费学习 60+ 节公开课:投票页面,点击讲师头像」 作者 | VincentLee 来源 | 晓飞的算法工程笔记(ID: gh_084c810bc839) 导读:论文提出CoAE少样本目标检测算法 ...

  3. 开源目标检测算法用于交通标志检测全方位评估

    (欢迎关注"我爱计算机视觉"公众号,一个有价值有深度的公众号~) 交通标志检测在自动驾驶.汽车主动安全中应用非常重要,通用的目标检测算法可以通过微调网络的方式直接用于交通标志检测. ...

  4. 基于光电检测图像处理目标检测算法相较传统检测技术的优势

    光电检测图像处理目标检测算法相较传统检测技术有以下几个优势: 速度更快:光电检测图像处理算法可以在较短的时间内处理大量的图像数据,而传统检测技术需要更长的时间来进行目标检测. 精度更高:光电检测图像处 ...

  5. 路面裂痕检测YOLO算法、目标检测算法实现地面裂缝检测

    道路裂纹检测YOLO算法,目标检测,目标识别,裂纹检测 路面裂痕检测YOLO算法.目标检测算法实现地面裂缝检测 车头定位 交通标志识别 车道线识别 自己标注数据,训练模型,效果很好4360063193 ...

  6. 做目标检测,这6篇就够了:CVPR 2020目标检测论文盘点

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 来源:机器之心 CVPR 2020 会议上,有哪些目标检测论文值得关注? 目标检测是计算机视觉 ...

  7. access open 知乎_做目标检测,这6篇就够了:CVPR 2020目标检测论文盘点

    CVPR 2020 会议上,有哪些目标检测论文值得关注? 选自heartbeat,作者:Derrick Mwiti,机器之心编译,参与:陈萍. 目标检测是计算机视觉中的经典问题之一.凭借大量可用数据. ...

  8. coco数据集目标检测论文_做目标检测,这6篇就够了:CVPR 2020目标检测论文盘点...

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 选自heartbeat 作者:Derrick Mwiti 转载:机 ...

  9. 自动泊车之停车位检测算法(角点检测/语义分割)

    作者丨机器学习AI算法工程 来源丨希骥智能网联汽车 点击进入->3D视觉工坊学习交流群 一.背景介绍 自动泊车大体可分为4个等级: 第1级,APA 自动泊车:驾驶员在车内,随时准备制动,分为雷达 ...

最新文章

  1. redisson的锁的类型_绝对干货:利用redisson完成分布式锁功能
  2. XCode编译运行出错解决思路,以及再次推荐AppCode
  3. 使用PowerMock模拟静态方法
  4. LeetCode 373. 查找和最小的K对数字(自定义优先队列BFS)
  5. RDP协议详细解析(五)
  6. 在多行中查找和替换vim中的字符串
  7. 由于没有公钥,无法验证下列签名 :NO_PUBKEY 的解决方法
  8. 2016二级c语言成绩查询,2016年12月计算机二级C语言测试及答案
  9. MyBatis下载和环境搭建
  10. 空间金字塔模型与池化
  11. if...elseif....else 语句 2020年周易起名系统开发,生辰八字,周易
  12. java十进制转换成二进制
  13. 小米平板1刷独角兽系统、救砖-玩机技巧软件-刷los系统
  14. 软件·质量·管理(2)任务排期
  15. 中国量子计算机应用普及,郭光灿院士专访:量子产业全梳理,15年后量子计算机或可普及...
  16. unity 纹理压缩 内存优化
  17. linux限制ssh 无公网ip白名单限制 基于网段
  18. CVBS转BT656/601,GM7150,国产视频解码芯片
  19. CCS6.2.0 如何将工程封装成lib文件
  20. AI绘画,治愈着甲方乙方的“恩怨情仇”

热门文章

  1. 发挥大数据及其产业在推动发展方式转变上的作用
  2. Android中设置TextView的颜色setTextColor
  3. 电视游戏会是未来客厅娱乐的主角吗?
  4. 错误 1 “System.Data.DataRow.DataRow(System.Data.DataRowBuilder)”不可访问,因为它受保护级别限制...
  5. zepto打造一款移动端划屏插件
  6. 如何衡量一个项目的交付质量???
  7. The Life Cycle of a Servlet
  8. 思科交换机各类型中字母的意思?
  9. Cosmos的基石:IL2CPU编译器--.net/C#开源操作系统学习系列三
  10. MySQL服务器的配置教程