Saliency Detection: A Spectral Residual Approach
介绍
文章出自2007年好像当时是大三的上交大神 现在是图森创世兼CTO,侯晓迪。引用某老师的话:“简单,出奇的简单!这篇论文一共5行matlab代码,比一般论文abstract中的字符还少,作者直接贴到论文中了。”
谷歌被引截至目前已达3330。
显著性检测:一种频谱残差方法
摘要
人类视觉系统检测视觉显著性的能力是非常快速和可靠的。然而,对这一基本智能行为的计算机建模仍然是一个挑战。作者提出了一种简单的视觉显著性检测方法。
我们的模型与对象的特征、类别或其他形式的先验知识无关。通过对输入图像的对数谱进行分析,提取出光谱域内图像的光谱残差,提出了一种在空间域内快速构建相应的显著性映射的方法。
我们在自然图像和人工图像上对该模型进行了测试。结果表明,该方法具有快速、鲁棒的显著性检测效果。
引言
目标识别的第一步是目标检测。目标检测的目的是在识别目标之前从背景中提取目标。但是在进行识别特征分析之前,机器视觉系统如何从未知背景中提取出显著区域呢?
传统的模型,通过将特定的特征与目标联系起来,实际上将这个问题转化为检测特定类别的对象。由于这些模型是基于训练的,扩展性成为广义任务的瓶颈。面对不可预测的、种类繁多的视觉模式,需要一个通用的显著性检测系统。换句话说,显著性检测器的实现应该尽可能少地参考目标的统计知识。
在人类视觉系统中,显著性检测是如何实现的?人们认为,视觉加工包括两个阶段:首先,平行的、快速的、但简单的前意识过程;然后是连续的、缓慢的、复杂的注意力过程。在文献中已经讨论了前意识处理的性质,在这个阶段某些低层次的特征,如方向、边缘或强度,可以自动“弹出”。从对象检测的角度看,在前注意阶段出现的是对象的候选。为了处理一个已被检测到但尚未被识别为对象的候选对象,
Rensink在他的连贯理论中引入了原型对象的概念。
为了找到给定图像中的“原型对象”,机器视觉领域发明了模型。基于Treisman的整合理论,Itti和Koch提出了一种显著性模型来模拟人的视觉搜索过程。然而,作为预处理系统,这些模型需要大量的计算。
现有的检测模型多侧重于对目标物体特性的总结。但是,由不同类别的对象共享的一般属性不太可能存在。在这篇论文中,我们用另一种方式提出这个问题:探索背景的属性。
在第二节中,介绍了光谱残差。从自然图像统计的原理出发,提出了一种前端方法来模拟前意识视觉搜索的行为。与传统的图像统计模型不同的是,我们分析了每幅图像的对数谱,并得到了谱残差。然后将光谱残差转化为空间域,得到反映原目标位置的显著性图。在第3节中,我们还演示了基于谱残差方法的多目标检测。
为了评估我们的方法的性能,在小节中4.1,我们将我们的方法与和人工标记的结果进行比较。结果表明,该方法是一种快速、可靠的早期视觉处理计算模型。
谱残差模型
高效编码是一个通用的框架,在这个框架下,我们的视觉处理的许多机制都可以被解释。Barlow首先提出了有效编码假说,消除了感官输入的冗余。视觉系统的一个基本原则是抑制对频繁出现的特征的响应,同时对偏离常态的特征保持敏感。因此,只有未预料到的信号才能传递到处理的后期阶段。
从信息论的角度,有效编码将图像信息H(image)分解为两部分:
H(Image)=H(Innovation)+H(PriorKnowlegde)H(Image)=H(Innovation)+H(Prior Knowlegde) H(Image)=H(Innovation)+H(PriorKnowlegde)
H(Innovation)H(Innovation)H(Innovation)表示新颖性部分,H(PriorKnowlegde)H(Prior Knowlegde)H(PriorKnowlegde)是编码系统应该抑制的冗余信息。在图像统计领域,这种冗余对应于环境的统计不变性。这些性质在有关自然图像统计的文献中得到了全面的讨论。现在人们普遍认为自然图像不是随机的,它们服从高度可预测的分布。
在接下来的章节中,我们将演示一种通过去除统计冗余成分来近似图像“创新”部分的方法。我们认为,这一部分对前意识阶段原目标的出现负有内在的责任。
对数频谱表征
在自然图像统计的不变因子中,尺度不变性是最著名、研究最广泛的性质。这个性质也被称为1/f1/f1/f定律。它表示自然图像集合的平均傅里叶光谱振幅A(f)A(f)A(f)服从一个分布:
E{A(f)}∝1/fE\{A(f)\}\propto 1/f E{A(f)}∝1/f
在对数-对数尺度上,自然图像集合的振幅谱经过对方向的平均后,近似地位于一条直线上。
虽然log-log谱在理论上已经成熟并得到了广泛的应用,但在单独的图像分析中并不受欢迎,因为:(1)单个图像不太可能具有尺度不变性;(2)采样点比例不均匀,低频部分在对数-对数平面上分布稀疏,高频部分相互靠近,噪声大。
本文采用对数谱L(f)L(f)L(f)代替对数-对数表示图片。L(f)L(f)L(f)由L(f)=log(A(f))L(f)=log(A(f))L(f)=log(A(f))得到。log-log表示与log- spectrum表示的比较如图1所示。
相关的文献中,对数谱表示法已被用于一系列的统计场景分析。
在下一节中,我们将在显著性检测任务中利用对数谱的能力。我们发现不同图像的对数谱具有相似的趋势,尽管每个图像都包含统计奇异点。图3分别为1、10、100幅图像的平均光谱曲线。这一结果表明在平均对数谱中存在局部线性。
从频谱差到显著性映射
相似性意味着冗余。对于一个旨在最小化冗余视觉信息的系统,它必须意识到输入刺激的统计相似性。因此,在可以观察到大量形状相似的不同对数谱中,值得我们注意的是从光滑曲线中跳出来的信息。我们认为,光谱中的统计奇点可能是导致图像中出现异常区域的原因,在这些区域中会出现原型物体。给定一个输入图像,从高度(或宽度)等于64像素的下采样图像计算log spectrum L(f)。输入大小的选择与视觉尺度有关。视觉尺度与视觉显著性的关系在3.1节中讨论。如L(f)L(f)L(f)项所载的信息是预先取得,则以一下方式处理信息:
H(R(f))=h(L(f)∣A(f))H(R(f))=h(L(f)\mid A(f)) H(R(f))=h(L(f)∣A(f))
其中A(f)A(f)A(f)表示作为先验信息的对数谱一般形状,R(f)R(f)R(f)表示输入图像特有的统计奇异性。本文将R(f)R(f)R(f)定义为图像的光谱残差。如图3所示,平均曲线为局部线性。
因此,采用局部平均滤波器hn(f)h_{n}(f)hn(f)来近似A(f)A(f)A(f)的形状是合理的。实验中,nnn等于3。改变hn(f)h_{n}(f)hn(f)的大小只会略微改变结果(见图5)。
平均频谱A(f)A(f)A(f)可以通过卷积输入图像近似得到:
A(f)=hn(f)∗L(f)A(f)=h_n(f)*L(f) A(f)=hn(f)∗L(f)
其中hn(f)h_n(f)hn(f)为n×nn×nn×n矩阵,定义为
hn(f)=1n2(11⋯111⋯1⋮⋮⋱⋮11⋯1)h_n(f)=\frac{1}{n^2} \begin{pmatrix} 1& 1& \cdots&1 \\ 1& 1& \cdots & 1\\ \vdots & \vdots& \ddots& \vdots\\ 1& 1& \cdots&1 \end{pmatrix} hn(f)=n21⎝⎜⎜⎜⎛11⋮111⋮1⋯⋯⋱⋯11⋮1⎠⎟⎟⎟⎞
因此,通过以下方法可以得到光谱残差R(f)R(f)R(f):
R(f)=L(f)−A(f)R(f)=L(f)-A(f) R(f)=L(f)−A(f)
在我们的模型中,光谱残差包含了图像的创新。它就像一个场景的压缩表示。利用傅里叶反变换,我们可以在空间域内构造输出图像,称为显著性映射。显著性地图主要包含场景中重要的部分。剩余光谱的内容也可以解释为图像中未预料到的部分。因此,显著性图中每一点的值都被平方以表示估计误差。为了获得更好的视觉效果,我们使用高斯滤波器平滑显著性映射g(x)(σ=8)g(x)(\sigma=8)g(x)(σ=8)。
总之,给定图像I(X)I(X)I(X),可得:
A(f)=R(F[I(x)]),P(f)=J(F[I(x)]),L(f)=log(A(f)),R(f)=L(f)−hn(f)∗L(f)S(x)=g(x)∗F−1[exp(R(f)+P(f))]2A(f)=R(F[I(x)]),\\ P(f)=J(F[I(x)]),\\L(f)=log(A(f)),\\R(f)=L(f)-h_n(f)*L(f)\\S(x)=g(x)*F^{-1}[exp(R(f)+P(f))]^2 A(f)=R(F[I(x)]),P(f)=J(F[I(x)]),L(f)=log(A(f)),R(f)=L(f)−hn(f)∗L(f)S(x)=g(x)∗F−1[exp(R(f)+P(f))]2
FFF是傅里叶变换,F−1F^{-1}F−1为傅里叶逆变换。P(f)P(f)P(f)图像的相位频谱。
在显著性映射中检测原始对象
显著性映射是原对象的显式表示,在本节中,我们使用简单的阈值分割来检测显著性中的原对象。给定图像S(x)S(x)S(x),得到目标映射O(x)O(x)O(x):
O(x)=1ifS(x)>thresholdO(x)=0otherwiseO(x)=1\ \ \ \ \ \ \ \ if S(x)>threshold \\O(x)=0 \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ otherwise O(x)=1 ifS(x)>thresholdO(x)=0 otherwise
根据经验设置阈值threshold=E(S(x))×3threshold=E(S(x))\times 3threshold=E(S(x))×3,E(S(x))E(S(x))E(S(x))是显著性平均强度。阈值的选择是虚警与忽略目标之间的权衡问题。第4.1节对此问题进行了简要讨论。在生成对象映射O(x)时,可以很容易地从输入图像中对应的位置提取原始对象。在生成对象映射O(x)时,可以很容易地从输入图像中对应的位置提取原始对象。按顺序提取多个目标。
视觉尺度的选择
视觉系统在一定的尺度下工作。例如,在一个大的尺度上,一个人可能把房子当做一个物体,但在一个小的尺度上,房子的前门很可能作为一个物体凸显。我们实验中尺度的选择等于输入图像大小的选择。当图像较小时,省略细节特征,进行大规模的视觉搜索。然而,在更小的尺度上,大的特征相对于图像中微小但突然的变化变得不那么有竞争力。改变比例会导致显著性图的不同结果。该特性如图7所示。视觉尺度与视觉传感器的光学能力密切相关。对于预注意任务,采用常数因子作为视觉尺度的估计是合理的。由于前注意视觉的空间分辨率非常有限。如果没有一个缓慢的细看过程,人类不太可能感知到图像的细节。对应于傅里叶频谱[12]中的高频部分。通过仿真实验,我们发现64像素的输入图像宽度(或高度)是一个很好的尺度正常视觉条件的估计。
Saliency Detection: A Spectral Residual Approach相关推荐
- saliency detection论文(一)—Saliency Detection: A Spectral Residual Approach
目录 本文是对Xiaodi Hou和Liqing Zhang写的<Saliency Detection: A Spectral Residual>的翻译与总结: 目录 Abstract 残 ...
- 【论文】Saliency Detection: A Spectral Residual Approach阅读笔记
一.思路: 从信息论的角度看,有效编码可以将图片H中信息分为两部分: $$H(Image) = H(Innovation) + H(Prior Knowledge)$$ Innovation变化,即为 ...
- saliency detection(显著度检测)用于Background Subtraction(背景扣除)和Segmenting objects(分割物体)
文章目录 背景知识 1. 介绍 1.1 什么是显著性物体检测 1.2 显著物体检测的发展历史 Segmenting salient objects from images and videos 摘要 ...
- 视觉显著性 matlab,转载图像/视觉显著性检测技术发展情况梳理(Saliency Detection、Visual Attention)...
图像/视觉显著性检测技术发展情况梳理(Saliency Detection.Visual Attention) Sason@CSDN 转载:http://blog.csdn.net/anshan198 ...
- 视觉显著性python_OpenCV中的显著性检测(Saliency Detection)
前言 显著性检测,就是使用图像处理技术和计算机视觉算法来定位图片中最"显著"的区域.显著区域就是指图片中引人注目的区域或比较重要的区域,例如人眼在观看一幅图片时会首先关注的区域.例 ...
- Video Saliency Detection 文献学习(一)Unified Image and Video Saliency Modeling
由于课题有关人员的Attention/Gaze/Saliency建模,所以最近读了一些Saliency Detection 的文章.利用博客一方面作为学习笔记记录一下,一方面也与大家进行交流. 第一篇 ...
- 车道线检测--Towards End-to-End Lane Detection: an Instance Segmentation Approach
Towards End-to-End Lane Detection: an Instance Segmentation Approach In IEEE Intelligent Vehicles Sy ...
- (2021 ICCV)Specificity-preserving RGB-D Saliency Detection(A类)
# 一.作者 Tao Zhou , Huazhu Fu ,Geng Chen ,Yi Zhou ,Deng-Ping Fan, Ling Shao 二.地址 2.1 原文地址 ICCV 地址 2. ...
- CVPR2019文章解读 Pyramid Feature Attention Network for Saliency detection 用于显著性检测的金字塔特征注意网络
Pyramid Feature Attention Network for Saliency detection 摘要 显著性检测是计算机视觉领域的基本挑战之一,怎么有效去提取特征非常关键,目前的一些 ...
- 图像显著性论文(四)—Context-Aware Saliency Detection
一直想默默的学习,不去理会太多东西,但是外界的影响还是蛮大的,各种找工作,实习,自己还待在实验室研究自己喜欢的东西,心情有点浮躁,又想赶快学好后可以亮一下剑,又感觉理论的东西不能太多急躁,要学扎实,还 ...
最新文章
- 记一次简单的 JVM 调优经历
- 计算机英语应用研究,计算机英语辅助学习系统的研究与应用-软件工程专业论文.docx...
- java并发编程之美-阅读记录2
- Eclipse中如何修改SVN的地址
- 通用计算机有哪四个部分,计算机硬件由哪几部分组成?各部分的作用是什么?...
- 一篇故事讲述了计算机网络里的基本概念:网关,DHCP,IP寻址,ARP欺骗,路由,DDOS等...
- [转]2022 Flutter 宣布发布 Windows 正式版
- pythrch 启动 visdom可视化
- AndroidStudio_后台_服务的介绍_生命周期_注册_启动停止---Android原生开发工作笔记215
- 滑动窗口:LeetCode 3 无重复字符的最长子串
- cisco3745做Easy ×××
- 设计模式之GOF23代理模式03
- 李瑾博士:信誉的建立是否“不计成本”?
- Linux怎么删掉ftp服务器,Linux怎么删掉ftp服务器
- sql——手机号码归属地、身份证前六位归属地、省市区级联
- 生活没那么复杂,“不要脸”就对了
- 脚本不得关闭非脚本打开的窗口。Scripts may close only the windows that were opened by it...
- CLion 的 Debug 模式是怎么回事
- 计算机中各成绩所占成绩的比例计算方法,考研总成绩的计算方法和各科分数的比例占多少?...
- 盘点手机、全景相机、专业单反VR全景拍摄的优缺点
热门文章
- 模拟行走机器人-c语言
- oracle获取中位数
- ARTS-24 字符串互异
- python处理页眉_【python-docx 05】操作页眉和页脚
- TTL信号也能高速稳定的传输100m+,是的,你没有听错,量产电路推荐
- android修改便携式热点的默认SSID名称
- win10命令行动态调整网卡优先级
- 【Android 安装包优化】WebP 图片格式 ( WebP 图片格式简介 | 使用 Android Studio 转换 WebP 图片格式 )
- 【UnityWebGL】导出WebGL的问题汇总(持续更新)
- [转载]在Java应用程序中访问USB设备