自顶向下的GAMMA显著性——学习搜索复杂场景中的对象

本文是个人学习笔记，转载请标注。
原文：Top-down Gamma Saliency - Learning to Search for Objects in Complex Scenes 2018 International Joint Conference on Neural Networks (IJCNN) DOI: 10.1109/IJCNN.2018.8489657

摘要

显著性测量常被用来预测图像中的注视点，然而纯自底向上的显著性对于复杂场景中有许多对象的视觉搜索是没有用处的，因为它只由输入图像驱动。另外，神经网络在场景中定位对象，但是依赖于启发式边界框的蛮力分类。作者提出了一种自顶向下的注意力机制，将传统的显著性测量与神经网络的学习能力相结合来区分对象。为此，使用一组由经过训练的分类网络的卷积层生成的特冲图作为显著性度量的输入，而不是使用传统的RBG或者LAB图像。在这些特征图的顶部，我们可以学习一组权重来对特定对象的显著性进行偏置。作者在一个合成环境中，测试了这种自顶向下的方法与传统的自底向上的方法，证明在复杂场景寻找目标，自顶向下方法更快。

引言

在复杂、杂乱的场景中搜寻目标是计算机视觉中的一个难题。神经网络已被证明很适合进行图像对象分类。但大多数分类数据集仍然处理单一的对象图像，其中不包含大量的自然图像。自顶向下的度量方法在发现特定对象和预测搜索模式方面更加有效。由于神经网络已被证明擅长学习特征来区分对象，而显著性测量是快速、可靠的人类注意力指标，作者将这两种方法结合起来，使用基于学习的神经网络卷积滤波器特征映射作为输入，而不是传统的RGB图像作为显著性度量。通过这样做，从一组经过优化以区分对象的特性开始。此外，通过学习这些滤波器上的一组权重，对激活网络中某些滤波器的特定对象的显著性进行偏置。

方法

视觉搜索系统是基于与自底向上相同的Gamma显著性的视觉注意。关于自底向上的Gamma显著性可以参考上一篇笔记。
gk,μ(n1,n2)=μk+12πk!n12+n22k−1e−μn12+n22g_{k,\mu }(n_1,n_2)=\frac{\mu^{k+1}}{2\pi k!} \sqrt[{k-1}] {n_1^{2}+n_2^{2}} e^{-\mu \sqrt{n_1^{2}+n_2^{2}}} gk,μ(n1,n2)=2πk!μk+1k−1n12+n22e−μn12+n22
gtotal=∑m=0M−1=(−1m)gm(km,μm)g_{total}=\sum^{M-1}_{m=0}=(-1^{m})g_{m}(k_{m},\mu_{m}) gtotal=m=0∑M−1=(−1m)gm(km,μm)
S=∑n−1Nwni∣g⋅Cn∣αNS=\frac {\sum ^{N} _{n-1} w ^i _n\left | g \cdot C_n \right | ^\alpha} {N} S=N∑n−1Nwni∣g⋅Cn∣α

在自下而上的Gamma显著性中，这些特征映射将是RGB或LAB图像的通道，此处，为了实现自顶向下的Gamma显著性，我们提出一组来自全连接卷积网络的特征映射CCC，不像全连接层，神经网络的卷积层与输入大小无关。因此，可以使用标准数据集（例如MNIST）训练一个分类网络，然后将卷积层部分从网络中抽离，使用其预处理任何大小的图片。在此过程中，将创建一组feature map，用于区分训练集中的对象。
另外，可以在这组feature map上学习出一组权值www，使显著性更加偏向目标。通过学习与每个对象对应的一组权值，作者将自底向上的显著性度量转换为能够在更少的注视点中找到对象的自顶向下显著性度量。
下面方程是一种学习每个对象 iii 对应权重wnw_nwn的简单方法。
wn=∑1MsInmsOnmMw_n=\sum^M_1{\frac{ \frac{s^m _{I_n}}{s^{m}_{O_{n}}} }{M}} wn=1∑MMsOnmsInm
其中，mmm为指定图片，nnn为对象类别。
在包含对象位置的训练集上，假设wni=1w_n^i=1wni=1，我们可以计算每个原始显著性映射，令sinms_{i_{n}}^msinm为边界框内的显著性，sOnms_{O_{n}}^msOnm为边界框外的显著性，求取比值并计算训练集上的均值。以此给出了每个特征映射对应的目标的权重，这样的权重实现了边界框内的显著性比边界框外的显著性对应的权重占比更多。
下面的方程依旧使用的标准的显著性后处理技术——模糊的显著性映射和一个小高斯滤波器卷积，以及给最终的映射一个中心偏差。
通过这种处理方式，最终得到一组经过训练的特征图，用于分离场景中需要寻找的目标。同时，有了学习的权值，显著性比单纯的自底向上的显著性更加偏置于目标。

自顶向下的GAMMA显著性——学习搜索复杂场景中的对象相关推荐

线上分享会预告之深度学习在3D场景中的应用
大家好.上周我们迎来了第一期的线上分享,三维模型检索技术介绍,此次分享是一次接力形式的分享,每周都将有一位主讲人分享,希望更多的小伙伴加入我们一起分享,也是给自己一个机会锻炼.这里先预告一下,线上直播 ...
ICCV2021|一种用于解决点云场景中同类对象分割的网络
首次提出:一种用于解决点云场景中同类对象分割的端到端网络融合协同对比学习和相互注意采样机制进行无监督点云对象的同类分割 Unsupervised Point Cloud Object Co-segm ...
php销毁three.js量,javascript – ThreeJS：从场景中删除对象
我使用ThreeJS开发一个Web应用程序,显示实体的列表,每个都有相应的"查看"和"隐藏"按钮;例如entityName视图隐藏.当用户单击"查看& ...
关于深度学习应用于场景合成/自动布局的相关的论文阅读【211227更新】
如标题,总结归纳一些关于场景合成/自动布局的相关论文(当前主要整理在平面上进行的做法,后期再进行扩展) 由于课题组内只剩下我在做相关任务,很多时候没有人讨论,如果有大佬也做这方面工作.或者也看过这些文 ...
三维匹配_基于三维模型的目标识别和分割在杂乱的场景中的应用
作者:仲夏夜之星来源:3D视觉工坊公众号链接: 基于三维模型的目标识别和分割在杂乱的场景中的应用在杂波和遮挡情况下,对自由形式物体的识别及分割是一项具有挑战性的任务.本文提出了一种新的基于三维模 ...
在结构化场景中基于单目的物体与平面SLAM方案
点云PCL免费知识星球,点云论文速读. 文章:Monocular Object and Plane SLAM in Structured Environments 作者:Shichao Yang, S ...
基于三维模型的目标识别和分割在杂乱的场景中的应用
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达在杂波和遮挡情况下,对自由形式物体的识别及分割是一项具有挑战性的任务.本文提出了一种新的基于三维模型的 ...
NVisionXR_iOS教程六 —— 场景中对象交互
本章节将介绍如何与场景中的对象进行交互,接着上一章节的代码,我们往立方体对象添加如下代码,并实现它的代理<HitEventDelegate> 代码: // 创建一个立方体 NVBox ...
如何在VR场景中位移与行走Unity VRTK - SteamVR Unity Toolkit针对VR开发的工具包
Hello,我是KitStar. 以下文章整理的不对.还请见谅. 如果您碰到什么其他问题的话,欢迎来我自己的一个讨论群`559666429`来,大家一起找答案,共同进步在使用HTC VIVE S ...

自顶向下的GAMMA显著性——学习搜索复杂场景中的对象

自顶向下的GAMMA显著性——学习搜索复杂场景中的对象

摘要

引言

方法

自顶向下的GAMMA显著性——学习搜索复杂场景中的对象相关推荐

最新文章

热门文章