介绍

文章出自2007年好像当时是大三的上交大神 现在是图森创世兼CTO,侯晓迪。引用某老师的话:“简单,出奇的简单!这篇论文一共5行matlab代码,比一般论文abstract中的字符还少,作者直接贴到论文中了。”
谷歌被引截至目前已达3330。

显著性检测:一种频谱残差方法

摘要

人类视觉系统检测视觉显著性的能力是非常快速和可靠的。然而,对这一基本智能行为的计算机建模仍然是一个挑战。作者提出了一种简单的视觉显著性检测方法。
我们的模型与对象的特征、类别或其他形式的先验知识无关。通过对输入图像的对数谱进行分析,提取出光谱域内图像的光谱残差,提出了一种在空间域内快速构建相应的显著性映射的方法。
我们在自然图像和人工图像上对该模型进行了测试。结果表明,该方法具有快速、鲁棒的显著性检测效果。

引言

目标识别的第一步是目标检测。目标检测的目的是在识别目标之前从背景中提取目标。但是在进行识别特征分析之前,机器视觉系统如何从未知背景中提取出显著区域呢?
传统的模型,通过将特定的特征与目标联系起来,实际上将这个问题转化为检测特定类别的对象。由于这些模型是基于训练的,扩展性成为广义任务的瓶颈。面对不可预测的、种类繁多的视觉模式,需要一个通用的显著性检测系统。换句话说,显著性检测器的实现应该尽可能少地参考目标的统计知识。
在人类视觉系统中,显著性检测是如何实现的?人们认为,视觉加工包括两个阶段:首先,平行的、快速的、但简单的前意识过程;然后是连续的、缓慢的、复杂的注意力过程。在文献中已经讨论了前意识处理的性质,在这个阶段某些低层次的特征,如方向、边缘或强度,可以自动“弹出”。从对象检测的角度看,在前注意阶段出现的是对象的候选。为了处理一个已被检测到但尚未被识别为对象的候选对象,
Rensink在他的连贯理论中引入了原型对象的概念。
为了找到给定图像中的“原型对象”,机器视觉领域发明了模型。基于Treisman的整合理论,Itti和Koch提出了一种显著性模型来模拟人的视觉搜索过程。然而,作为预处理系统,这些模型需要大量的计算。
现有的检测模型多侧重于对目标物体特性的总结。但是,由不同类别的对象共享的一般属性不太可能存在。在这篇论文中,我们用另一种方式提出这个问题:探索背景的属性。
在第二节中,介绍了光谱残差。从自然图像统计的原理出发,提出了一种前端方法来模拟前意识视觉搜索的行为。与传统的图像统计模型不同的是,我们分析了每幅图像的对数谱,并得到了谱残差。然后将光谱残差转化为空间域,得到反映原目标位置的显著性图。在第3节中,我们还演示了基于谱残差方法的多目标检测。
为了评估我们的方法的性能,在小节中4.1,我们将我们的方法与和人工标记的结果进行比较。结果表明,该方法是一种快速、可靠的早期视觉处理计算模型。

谱残差模型

高效编码是一个通用的框架,在这个框架下,我们的视觉处理的许多机制都可以被解释。Barlow首先提出了有效编码假说,消除了感官输入的冗余。视觉系统的一个基本原则是抑制对频繁出现的特征的响应,同时对偏离常态的特征保持敏感。因此,只有未预料到的信号才能传递到处理的后期阶段。
从信息论的角度,有效编码将图像信息H(image)分解为两部分:
H(Image)=H(Innovation)+H(PriorKnowlegde)H(Image)=H(Innovation)+H(Prior Knowlegde) H(Image)=H(Innovation)+H(PriorKnowlegde)
H(Innovation)H(Innovation)H(Innovation)表示新颖性部分,H(PriorKnowlegde)H(Prior Knowlegde)H(PriorKnowlegde)是编码系统应该抑制的冗余信息。在图像统计领域,这种冗余对应于环境的统计不变性。这些性质在有关自然图像统计的文献中得到了全面的讨论。现在人们普遍认为自然图像不是随机的,它们服从高度可预测的分布。
在接下来的章节中,我们将演示一种通过去除统计冗余成分来近似图像“创新”部分的方法。我们认为,这一部分对前意识阶段原目标的出现负有内在的责任。

对数频谱表征

在自然图像统计的不变因子中,尺度不变性是最著名、研究最广泛的性质。这个性质也被称为1/f1/f1/f定律。它表示自然图像集合的平均傅里叶光谱振幅A(f)A(f)A(f)服从一个分布:
E{A(f)}∝1/fE\{A(f)\}\propto 1/f E{A(f)}∝1/f
在对数-对数尺度上,自然图像集合的振幅谱经过对方向的平均后,近似地位于一条直线上。
虽然log-log谱在理论上已经成熟并得到了广泛的应用,但在单独的图像分析中并不受欢迎,因为:(1)单个图像不太可能具有尺度不变性;(2)采样点比例不均匀,低频部分在对数-对数平面上分布稀疏,高频部分相互靠近,噪声大。
本文采用对数谱L(f)L(f)L(f)代替对数-对数表示图片。L(f)L(f)L(f)由L(f)=log(A(f))L(f)=log(A(f))L(f)=log(A(f))得到。log-log表示与log- spectrum表示的比较如图1所示。
相关的文献中,对数谱表示法已被用于一系列的统计场景分析。


在下一节中,我们将在显著性检测任务中利用对数谱的能力。我们发现不同图像的对数谱具有相似的趋势,尽管每个图像都包含统计奇异点。图3分别为1、10、100幅图像的平均光谱曲线。这一结果表明在平均对数谱中存在局部线性。

从频谱差到显著性映射

相似性意味着冗余。对于一个旨在最小化冗余视觉信息的系统,它必须意识到输入刺激的统计相似性。因此,在可以观察到大量形状相似的不同对数谱中,值得我们注意的是从光滑曲线中跳出来的信息。我们认为,光谱中的统计奇点可能是导致图像中出现异常区域的原因,在这些区域中会出现原型物体。给定一个输入图像,从高度(或宽度)等于64像素的下采样图像计算log spectrum L(f)。输入大小的选择与视觉尺度有关。视觉尺度与视觉显著性的关系在3.1节中讨论。如L(f)L(f)L(f)项所载的信息是预先取得,则以一下方式处理信息:
H(R(f))=h(L(f)∣A(f))H(R(f))=h(L(f)\mid A(f)) H(R(f))=h(L(f)∣A(f))
其中A(f)A(f)A(f)表示作为先验信息的对数谱一般形状,R(f)R(f)R(f)表示输入图像特有的统计奇异性。本文将R(f)R(f)R(f)定义为图像的光谱残差。如图3所示,平均曲线为局部线性。
因此,采用局部平均滤波器hn(f)h_{n}(f)hn​(f)来近似A(f)A(f)A(f)的形状是合理的。实验中,nnn等于3。改变hn(f)h_{n}(f)hn​(f)的大小只会略微改变结果(见图5)。

平均频谱A(f)A(f)A(f)可以通过卷积输入图像近似得到:
A(f)=hn(f)∗L(f)A(f)=h_n(f)*L(f) A(f)=hn​(f)∗L(f)
其中hn(f)h_n(f)hn​(f)为n×nn×nn×n矩阵,定义为
hn(f)=1n2(11⋯111⋯1⋮⋮⋱⋮11⋯1)h_n(f)=\frac{1}{n^2} \begin{pmatrix} 1& 1& \cdots&1 \\ 1& 1& \cdots & 1\\ \vdots & \vdots& \ddots& \vdots\\ 1& 1& \cdots&1 \end{pmatrix} hn​(f)=n21​⎝⎜⎜⎜⎛​11⋮1​11⋮1​⋯⋯⋱⋯​11⋮1​⎠⎟⎟⎟⎞​
因此,通过以下方法可以得到光谱残差R(f)R(f)R(f):
R(f)=L(f)−A(f)R(f)=L(f)-A(f) R(f)=L(f)−A(f)
在我们的模型中,光谱残差包含了图像的创新。它就像一个场景的压缩表示。利用傅里叶反变换,我们可以在空间域内构造输出图像,称为显著性映射。显著性地图主要包含场景中重要的部分。剩余光谱的内容也可以解释为图像中未预料到的部分。因此,显著性图中每一点的值都被平方以表示估计误差。为了获得更好的视觉效果,我们使用高斯滤波器平滑显著性映射g(x)(σ=8)g(x)(\sigma=8)g(x)(σ=8)。
总之,给定图像I(X)I(X)I(X),可得:
A(f)=R(F[I(x)]),P(f)=J(F[I(x)]),L(f)=log(A(f)),R(f)=L(f)−hn(f)∗L(f)S(x)=g(x)∗F−1[exp(R(f)+P(f))]2A(f)=R(F[I(x)]),\\ P(f)=J(F[I(x)]),\\L(f)=log(A(f)),\\R(f)=L(f)-h_n(f)*L(f)\\S(x)=g(x)*F^{-1}[exp(R(f)+P(f))]^2 A(f)=R(F[I(x)]),P(f)=J(F[I(x)]),L(f)=log(A(f)),R(f)=L(f)−hn​(f)∗L(f)S(x)=g(x)∗F−1[exp(R(f)+P(f))]2
FFF是傅里叶变换,F−1F^{-1}F−1为傅里叶逆变换。P(f)P(f)P(f)图像的相位频谱。

在显著性映射中检测原始对象

显著性映射是原对象的显式表示,在本节中,我们使用简单的阈值分割来检测显著性中的原对象。给定图像S(x)S(x)S(x),得到目标映射O(x)O(x)O(x):
O(x)=1ifS(x)>thresholdO(x)=0otherwiseO(x)=1\ \ \ \ \ \ \ \ if S(x)>threshold \\O(x)=0 \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ otherwise O(x)=1        ifS(x)>thresholdO(x)=0                        otherwise
根据经验设置阈值threshold=E(S(x))×3threshold=E(S(x))\times 3threshold=E(S(x))×3,E(S(x))E(S(x))E(S(x))是显著性平均强度。阈值的选择是虚警与忽略目标之间的权衡问题。第4.1节对此问题进行了简要讨论。在生成对象映射O(x)时,可以很容易地从输入图像中对应的位置提取原始对象。在生成对象映射O(x)时,可以很容易地从输入图像中对应的位置提取原始对象。按顺序提取多个目标。

视觉尺度的选择

视觉系统在一定的尺度下工作。例如,在一个大的尺度上,一个人可能把房子当做一个物体,但在一个小的尺度上,房子的前门很可能作为一个物体凸显。我们实验中尺度的选择等于输入图像大小的选择。当图像较小时,省略细节特征,进行大规模的视觉搜索。然而,在更小的尺度上,大的特征相对于图像中微小但突然的变化变得不那么有竞争力。改变比例会导致显著性图的不同结果。该特性如图7所示。视觉尺度与视觉传感器的光学能力密切相关。对于预注意任务,采用常数因子作为视觉尺度的估计是合理的。由于前注意视觉的空间分辨率非常有限。如果没有一个缓慢的细看过程,人类不太可能感知到图像的细节。对应于傅里叶频谱[12]中的高频部分。通过仿真实验,我们发现64像素的输入图像宽度(或高度)是一个很好的尺度正常视觉条件的估计。

Saliency Detection: A Spectral Residual Approach相关推荐

  1. saliency detection论文(一)—Saliency Detection: A Spectral Residual Approach

    目录 本文是对Xiaodi Hou和Liqing Zhang写的<Saliency Detection: A Spectral Residual>的翻译与总结: 目录 Abstract 残 ...

  2. 【论文】Saliency Detection: A Spectral Residual Approach阅读笔记

    一.思路: 从信息论的角度看,有效编码可以将图片H中信息分为两部分: $$H(Image) = H(Innovation) + H(Prior Knowledge)$$ Innovation变化,即为 ...

  3. saliency detection(显著度检测)用于Background Subtraction(背景扣除)和Segmenting objects(分割物体)

    文章目录 背景知识 1. 介绍 1.1 什么是显著性物体检测 1.2 显著物体检测的发展历史 Segmenting salient objects from images and videos 摘要 ...

  4. 视觉显著性 matlab,转载图像/视觉显著性检测技术发展情况梳理(Saliency Detection、Visual Attention)...

    图像/视觉显著性检测技术发展情况梳理(Saliency Detection.Visual Attention) Sason@CSDN 转载:http://blog.csdn.net/anshan198 ...

  5. 视觉显著性python_OpenCV中的显著性检测(Saliency Detection)

    前言 显著性检测,就是使用图像处理技术和计算机视觉算法来定位图片中最"显著"的区域.显著区域就是指图片中引人注目的区域或比较重要的区域,例如人眼在观看一幅图片时会首先关注的区域.例 ...

  6. Video Saliency Detection 文献学习(一)Unified Image and Video Saliency Modeling

    由于课题有关人员的Attention/Gaze/Saliency建模,所以最近读了一些Saliency Detection 的文章.利用博客一方面作为学习笔记记录一下,一方面也与大家进行交流. 第一篇 ...

  7. 车道线检测--Towards End-to-End Lane Detection: an Instance Segmentation Approach

    Towards End-to-End Lane Detection: an Instance Segmentation Approach In IEEE Intelligent Vehicles Sy ...

  8. (2021 ICCV)Specificity-preserving RGB-D Saliency Detection(A类)

    # 一.作者 ​ Tao Zhou , Huazhu Fu ,Geng Chen ,Yi Zhou ,Deng-Ping Fan, Ling Shao 二.地址 2.1 原文地址 ICCV 地址 2. ...

  9. CVPR2019文章解读 Pyramid Feature Attention Network for Saliency detection 用于显著性检测的金字塔特征注意网络

    Pyramid Feature Attention Network for Saliency detection 摘要 显著性检测是计算机视觉领域的基本挑战之一,怎么有效去提取特征非常关键,目前的一些 ...

  10. 图像显著性论文(四)—Context-Aware Saliency Detection

    一直想默默的学习,不去理会太多东西,但是外界的影响还是蛮大的,各种找工作,实习,自己还待在实验室研究自己喜欢的东西,心情有点浮躁,又想赶快学好后可以亮一下剑,又感觉理论的东西不能太多急躁,要学扎实,还 ...

最新文章

  1. 记一次简单的 JVM 调优经历
  2. 计算机英语应用研究,计算机英语辅助学习系统的研究与应用-软件工程专业论文.docx...
  3. java并发编程之美-阅读记录2
  4. Eclipse中如何修改SVN的地址
  5. 通用计算机有哪四个部分,计算机硬件由哪几部分组成?各部分的作用是什么?...
  6. 一篇故事讲述了计算机网络里的基本概念:网关,DHCP,IP寻址,ARP欺骗,路由,DDOS等...
  7. [转]2022 Flutter 宣布发布 Windows 正式版
  8. pythrch 启动 visdom可视化
  9. AndroidStudio_后台_服务的介绍_生命周期_注册_启动停止---Android原生开发工作笔记215
  10. 滑动窗口:LeetCode 3 无重复字符的最长子串
  11. cisco3745做Easy ×××
  12. 设计模式之GOF23代理模式03
  13. 李瑾博士:信誉的建立是否“不计成本”?
  14. Linux怎么删掉ftp服务器,Linux怎么删掉ftp服务器
  15. sql——手机号码归属地、身份证前六位归属地、省市区级联
  16. 生活没那么复杂,“不要脸”就对了
  17. 脚本不得关闭非脚本打开的窗口。Scripts may close only the windows that were opened by it...
  18. CLion 的 Debug 模式是怎么回事
  19. 计算机中各成绩所占成绩的比例计算方法,考研总成绩的计算方法和各科分数的比例占多少?...
  20. 盘点手机、全景相机、专业单反VR全景拍摄的优缺点

热门文章

  1. 模拟行走机器人-c语言
  2. oracle获取中位数
  3. ARTS-24 字符串互异
  4. python处理页眉_【python-docx 05】操作页眉和页脚
  5. TTL信号也能高速稳定的传输100m+,是的,你没有听错,量产电路推荐
  6. android修改便携式热点的默认SSID名称
  7. win10命令行动态调整网卡优先级
  8. 【Android 安装包优化】WebP 图片格式 ( WebP 图片格式简介 | 使用 Android Studio 转换 WebP 图片格式 )
  9. 【UnityWebGL】导出WebGL的问题汇总(持续更新)
  10. [转载]在Java应用程序中访问USB设备