干货！基于语义关系推理的小样本目标检测

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

本文探究了利用语义关系和视觉信息，并将显式的关系推理引入到新型物体检测的学习中。所提出基于语义关系推理的小样本目标检测器——SRR-FSD，对新目标的可训练样本数量具有鲁棒性和稳定性。实验表明，不论提供较多或较少的显式或隐式可训练样本，SRR-FSD都能获得具有竞争力的性能，且在训练样本很少的时候性能尤为突出。

诸宸辰：卡内基梅隆大学博士，主要研究方向为计算机视觉中的目标检测与场景理解，研究成果发表在CVPR、ECCV、ICCV等会议，也已转化为专利，并被部署到企业级AI应用中，谷歌学术引用2000余次。

背景

目标检测作为计算机视觉的热门任务已经有了许多很成熟的算法，但将目标检测应用于现实世界中仍然有很大的挑战。一大挑战来源于实际检测中没有约束条件而导致的尺度差异、拍摄角度差异以及遮挡问题；另一大挑战是数据的长尾分布问题，即常见类别的数据比例较大，而特殊类别的数据比例非常微小，那基于长尾分布特点的数据集训练得到的模型就会善于预测一些常见类，对于罕见类别的检测能力不足。本文主要针对目标检测在实际应用中常遇到的长尾分布问题进行研究。

问题描述：

假设有常见类（base class）的数据和稀有类（novel class）的数据，并且这两个数据没有交集，本文的目标是设计一个目标检测器使得在能够正确检测出novel class时也没有忘记base class的检测知识。

小样本学习的方法主要包括迁移学习、基于测量的学习、元学习。一般目标检测会选择一个预训练模型作为backbone，而这个预训练模型一般是在ImageNet上进行训练的。在ImageNet中包含许多novel class，所以预训练模型已经学习了novel class的知识，这对于小样本任务来说是不合理的。

本文通过实验发现，仅仅依赖视觉信息的目标检测对样本标注的依赖性很大，无论是显式还是隐式的标注变化对检测表现的影响都很大，因此本文考虑在视觉信息的基础上融入其他模态的信息，以提高目标检测的鲁棒性。

方法

人类往往可以通过极少的案例来学习新的概念。我们可以考虑一下人类是如何进行目标检测的呢？首先人类通过视觉系统提取抽象的概念，并且把这个概念和已有的知识体系结合发展成新的概念。

知识体系是建立在概念的相互关系上的，因此我们认为不管视觉信息有多少，base class和novel class之间的语义关系是恒定的。比如下图中，我们要检测的novel class是自行车，base class是摩托车和人，那我们可以考虑的语义关系是自行车和摩托车较为相似，人可以骑摩托车也可以骑自行车，自行车上可以携带瓶子。通过这些语义关系，就更容易学习到自行车的概念。

本文的目标就是将语义关系融入到目标检测中，如此就要解决两个问题：如何表示语义概念？如何进行语义关系的推理？

（1）如何表示语义概念？

在自然语言处理领域，已经有研究者实现将单词转化为一维向量——word2vec，如下图所示，语义关系相近的单词在空间位置上也离得比较近。

将语义概念使用数字化表示之后，可以实现语义空间的投影，具体是使用大量的base class学习一个初始的投影，然后使用少量的novel class对投影进行微调。

（2）如何进行语义关系的推理？

我们使用一个知识图谱G来表示语义关系推理的过程，将G定义为一个NxN的矩阵，N是所有类别的数量，表示将所有类别之间的语义概念联系在一起。

知识图谱既可以是静态的也可以是动态的。对于静态的知识图谱，我们使用基于启发式的定义来实现，比如从wordnet定义的知识图谱中采样感兴趣的类别，或者计算两个类别在一张图中同时出现的概率来定义知识图谱。

对于动态的知识图谱我们可以采用self-attention来实现，如下图所示。

训练策略分为两个阶段，一阶段是在base class上进行训练，训练过程与传统目标检测器一致；二阶段是使用各类别采样均衡的样本结合base class和novel class进行分类和检测的调优。

下图是本文提出基于语义关系推理的小样本目标检测模型的总体框架，上述二阶段我们注意到分类和检出的输出共享一个特征向量，本文发现这样的共享会导致相互干扰，因此提出了Decoupled fine-tuning来解耦这个共享的过程，使得每个子任务（分类/检测）都有独立的全连接层。

实验

数据集以及评价指标：

消融实验：

本文选择仅使用视觉信息的Fast R-CNN作为baseline，SSP表示语义空间投影，RR表示关系推理，其中实验使用的是动态知识图谱，因为动态知识图谱的效果要好一些，DF表示decoupled fine‐tuning。

通过下图的实验结果看出，在baseline的基础上分别以此加入SSP、RR、DF等方法，使得检测准确率都在相应上升。

对比SOTA的实验结果：

总结

传统的目标检测方法通常仅使用视觉信息进行特征提取并对图片进行检测和分类，本文使用自然语言处理中的word2vec技术将单词转换为向量，将语义关系推理加入到小样本的目标检测，以解决实际目标检测应用的长尾分布问题。

今日视频推荐

整理：爱国

审核：诸宸辰

AI TIME欢迎AI领域学者投稿，期待大家剖析学科历史发展和前沿技术。针对热门话题，我们将邀请专家一起论道。同时，我们也长期招募优质的撰稿人，顶级的平台需要顶级的你！

请将简历等信息发至yun.he@aminer.cn！

微信联系:AITIME_HY

AI TIME是清华大学计算机系一群关注人工智能发展，并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索，加强思想碰撞，打造一个知识分享的聚集地。

更多资讯请扫码关注

我知道你在看哟

点击“阅读原文”查看精彩回放

干货！基于语义关系推理的小样本目标检测相关推荐

(翻译)Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector具有注意力RPN和多关系检测器的小样本目标检测
文章目录前言一.背景二.相关工作--Related Works 2.1 通用目标检测 2.2 小样本学习三. FSOD数据集--A Highly-Diverse Few-Shot Object ...
layui table动态选中_NeurIPS 2020 | 伯克利新工作: 基于动态关系推理的多智能体轨迹预测问题...
公众号:将门创投(thejiangmen)作者:加州大学伯克利分校在读博士生李家琛卡内基梅隆大学在读硕士生杨帆 NeurlPS 2020系列论文解读第·1·期本文将分享来自UC Berkele ...
LVC | 一种简单的小样本目标检测方法
欢迎关注我的公众号 [极智视界],获取我的更多笔记分享大家好,我是极智视界,本文解读一下 Label, Verify, Correct (LVC):一种简单的小样本目标检测方法. 本文的 ...
基于激光雷达点云的3D目标检测算法论文总结
作者丨eyesighting@知乎来源丨https://zhuanlan.zhihu.com/p/508859024 编辑丨3D视觉工坊前言过去很多年激光雷达的车规标准和高昂价格是阻碍其量产落 ...
值得收藏！基于激光雷达数据的深度学习目标检测方法大合集（下）
作者 | 黄浴来源 | 转载自知乎专栏自动驾驶的挑战和发展 [导读]在近日发布的<值得收藏!基于激光雷达数据的深度学习目标检测方法大合集(上)>一文中,作者介绍了一部分各大公司和机构基于 ...
MXNet的Faster R-CNN(基于区域提议网络的实时目标检测)《9》
MXNet的Faster R-CNN(基于区域提议网络的实时目标检测)<1>:论文源地址,克隆MXNet版本的源码,安装环境与测试,以及对下载的源码的每个目录做什么用的,做个解释. MXN ...
基于深度学习的2D图像目标检测
参见第一部分网址1,第二部分网址2 目前学术和工业界出现的目标检测算法分成3类:(参见一文读懂目标检测:R-CNN.Fast R-CNN.Faster R-CNN.YOLO.SSD) 1. 传统的目标 ...
自动驾驶系统进阶与项目实战（十）基于PointPillars的点云三维目标检测和TensorRT实战（1）
自动驾驶系统进阶与项目实战(十)基于PointPillars的点云三维目标检测和TensorRT实战(1) 发表于CVPR2019的PointPillars是目前比较受业内认可的激光雷达三维检测算法, ...
2021-03-22 基于视觉显著性的红外弱小目标检测-王警予 |笔记
基于视觉显著性的红外弱小目标检测-王警予 | 阅读笔记第四章基于稀疏低秩分解的红外弱小目标检测 key 视觉注意力机制稀疏低秩分解针对人类视觉显著性是基于人类视觉注意的特点,将红外图像中显著性 ...

干货！基于语义关系推理的小样本目标检测

干货！基于语义关系推理的小样本目标检测相关推荐

最新文章

热门文章