(推荐一个我自己做的普法公众号，大可说法律，有法律方面咨询的可以关注)

南开大学程老师对这篇文章的一个评价：“这篇论文最大的贡献就是将saliency detection从以fixation prediction占绝对统治地位的时代，引导到了以salient object detection为主的时代，对该领域贡献非常大。此外，这篇文章贡献了一个含有2万个图片的数据集MSRA数据集，并给出了Bounding Box级的标注。这篇文章的主要不足之处是没开源（当然那个年代大部分文章都不开源）导致重现比较麻烦。此外，Bounding Box级别的标注精度不能满足很多应用需求。”

Learning to Detect A Salient Object (学习探测显著性物体)

摘要

我们通过检测输入图像中的显著目标来研究视觉注意力。我们将显著目标检测问题转化为图像分割问题，将显著目标从图像背景中分离出来。我们提出了一套新的特征，包括多尺度对比度、中心环绕直方图和颜色空间分布来描述局部区域和全局的突出对象。学习了利用条件随机场有效地结合这些特征进行显著目标检测。我们还构建了一个大型图像数据库，其中包含由多个用户仔细标记的成千上万张图像。据我们所知，这是第一个用于定量评估视觉注意力算法的大型图像数据库。在这个图像数据库我们验证了我们的方法，这是公共可用的文件。

引言

“每个人都知道注意力是什么……”
——William James, 1890
人类的大脑和视觉系统更关注图像的某些部分。长期以来，视觉注意力一直是生理学、心理学、神经系统和计算机视觉领域的研究热点。视觉注意有许多应用，例如，自动裁剪图像，在小型设备上显示自适应图像，图像/视频压缩，广告设计，图像采集浏览。最近的研究表明，视觉注意力也有助于目标识别、跟踪和检测。
现有的大多数视觉注意力方法都是基于自下而上的计算框架，因为视觉注意力通常是由场景中的低水平刺激(如强度、对比度和运动)在无意识中驱动的。这些方法包括以下三个步骤：第一步是特征提取，从图像中提取强度、颜色、方向、纹理、运动等多个低层次的视觉特征。第二步是显著性计算。显著性是通过中心环绕操作、自信息或基于图形使用多特征随机漫步操作来计算的。经过归一化和线性/非线性组合后，计算原图或显著图来表示每个图像像素的显著性。最后，显著性图上的几个关键位置由赢者通吃、回报抑制或其他非线性操作确定。虽然这些方法在寻找人造和自然图像中的固定位置方面效果良好，但它们无法准确地检测出视觉注意力应该在哪里。
例如，图1中的中间行显示了使用Itti的算法[10]计算的三个突出映射。值得注意的是，显著性集中在几个具有高对比度结构的局部小区域，如(a)中的背景网格、(b)中的阴影和©中的前景边界。因此，这些从低级特征计算出来的突出的地图并不能很好地指示用户在浏览这些图像时的注意力在哪里。

本文将显著目标的高级概念引入到视觉注意计算过程中。在图1中，叶子、汽车和女人在各自的图像中吸引了最多的视觉注意力。我们称它们为显著的物体，或者我们熟悉的前景物体。从图2中可以看出，人们自然会更加关注图像中突出的物体，如人、脸、汽车、动物或路标。

因此，我们将显著目标检测定义为一个二元标记问题，该问题将显著目标与背景分离开来。像人脸检测一样，我们学习检测熟悉的物体；与人脸检测不同，我们在图像中检测一个熟悉但未知的对象。我们提出了一种监督方法来学习检测图像中的突出物体。首先，我们构建了一个大型图像数据库，其中包含20,000多张标记良好的图像，用于训练和评估。据我们所知，这是第一次使用大型图像数据库进行定量评估。利用用户标记信息对显著目标检测进行监督。可以将其视为培训阶段的自顶向下信息。其次，为了克服我们不知道具体对象或对象类别是什么的挑战，我们提出了一组新的局部的、区域的和全局特征来定义一个通用的显著对象。这些特征通过条件随机域(CRF)学习得到最优组合。此外，分割还被纳入到CRF中，以检测未知大小和形状的突出目标。图1中的最后一行显示了我们的方法计算的显著性映射。

图像数据库

人们可能对图像中突出的物体有不同的看法。为了解决“给定图像中最可能突出的对象是什么”的问题，我们采用投票策略，由多个用户在图像中标记一个“ground truth”突出对象。在这篇论文中，我们关注的是图像中一个突出的物体。
显著对象表示形式上，我们在给定的图像中以二进制掩码A = {Ax}表示显著的对象I。对于每个像素x, Ax∈{1,0}是一个二进制标签，表示像素x是否属于突出对象。为了标记和评估，我们要求用户画一个矩形来指定一个突出的对象。
图片来源我们已经收集了一个非常大的图像数据库，包含130,099张来自各种来源的高质量图像，大部分来自图像论坛和图像搜索引擎。然后我们手动选择了6万多张图片，每张图片都包含一个突出的对象或一个独特的前景对象。我们进一步选择了20840张图像进行标记。在选择过程中，我们排除了任何包含非常大的突出目标的图像，这样可以更准确地评估检测性能。
标签的一致性对于每个要标记的图像，我们要求用户根据自己的理解画一个矩形，其中包含图像中最突出的对象。不同用户标记的矩形通常不相同。为了减少标签的不一致性，我们从多个用户绘制的矩形中选出一个“ground truth”标签。在第一阶段，我们要求三个用户分别为所有的20,840张图片贴上标签。平均每个用户花10-20秒在一张图片上画一个矩形。整个过程花了大约三个星期。然后，对于每个标记图像，我们使用三个用户标记的矩形，计算突出对象的显著性概率映射G = {gx|gx∈[0,1]}:

其中M为用户数量，Am={amx}是由第M个用户标记的二进制掩码。图3显示了两个高度一致的示例和三个不一致的示例。不一致的标签是由于前两个例子在底部的多个不相交的前景对象。底部行的最后一个示例显示了一个对象具有感兴趣的层次结构部分。我们称这个图像集为a。在本文中，我们关注的是对每个图像的单个突出对象的一致标记。为了测量标签的一致性，我们计算统计每张图像的Ct:

Ct是显著概率大于给定阈值t的像素百分比。
评估。利用显着概率图G，对于任何检测到的掩模A，我们定义了基于区域和基于边界的测量。对于基于边界的测量，我们使用边界位移误差(BDE)来测量两个矩形对应边界的平均位移误差。位移是对不同用户的平均值。

用于突出目标检测的CRF（条件随机场）

将显著目标检测问题转化为二值标记问题，将显著目标与背景分离。

显著性目标特征

在本节中，我们将介绍定义突出对象的局部、区域和全局特性。由于尺度选择是特征提取的基本问题之一，我们调整了所有图像的大小，使图像的最大(宽、高)为400像素。在下面，所有的参数都是根据这个基本的图像大小设置的。

多尺度的对比

对比度是注意力检测中最常用的局部特征，因为对比度算子模拟了人的视觉感受域。在不知道突出物大小的情况下，对比度通常是在多个尺度上计算的。在本文中，我们简单地将多尺度对比度特征fc(x, I)定义为高斯图像金字塔中对比度的线性组合。

中心周围直方图

如图2所示，突出的物体通常比局部对比度大，可以从周围的环境中区分出来。因此，我们提出了一个区域性的显著特征。

颜色空间分布

中心包围直方图是一个区域特征。是否存在与突出目标相关的全局特征?从图2可以看出，颜色在图像中的分布越广，一个突出的物体包含这种颜色的可能性就越小。
特定颜色的全局空间分布可以用来描述物体的显著性。