文献阅读笔记《具有目标定位和边界保持的基于个人注视的目标分割》

文献阅读笔记《具有目标定位和边界保持的基于个人注视的目标分割》《Personal Fixations-Based Object Segmentation With Object Localization and Boundary Preservation》

具有目标定位和边界保持的基于个人注视的目标分割
摘要：fixation作为一种自然的人机交互方式，为交互式图像分割提供了一种很有前途的解决方案。在这篇论文中，我们将重点放在Personal Fixations-based的对象分割上，以解决以前研究中的问题，例如缺乏合适的数据集，fixations-based交互中的不明确性。尤其是，我们首先构建了PFOS数据集，通过在现有fixation预测数据集上，仔细的收集的像素级别二进制数据，这种数据集有望极大地促进沿线的研究。然后，考虑personal fixations的特征，我们提出了一种新的网络：依靠目标定位和边界保持的personal fixations对象分割(OLBP)，去分割被注视的物体。具体的说，该网络利用对象定位模块(OLM)来分析个人的fixations 并且基于解释定位凝视对象。然后，设计了一个边界保持模块（BMP）来引入额外的边界信息，以保护被注视对象的完整性。而且，OLBP是以自下而上和自上而下的混合方式组织的，有多种类型的深度监督。在构建的PFOS数据集上进行了大量实验，实验结果表明，该网络优于17种最先进的方法，证明了该网络的有效性。

1.引言
Fixation是人类视觉系统的一种灵活的交互机制。与涂鸦、点击和边界框相比，fixation为手部残疾、肌萎缩侧索硬化(ALS)和脊髓灰质炎患者提供了最方便的交互。这种眼睛控制的互动，也就是fixation，可以大大提高这些患者的互动效率。此外，fixation与年龄[1]、[2]和性别[3]、[4]等个人信息密切相关。这意味着不同的人可能对一个场景有不同的感知和偏好[5]，[6]。因此，在本文中，我们密切关注personal fixations-based的对象分割，这是一种更自然的交互式图像分割方式。
典型的交互方式，如涂鸦[7]-[11]、点击[12]-[17]和用于交互式图像分割的边界框[18]-[21]，是没有干扰的明确行为。相比之下，注视是隐含的[22]–[25]，它们的便利伴随着互动的模糊性。具体来说，涂鸦和点击的正负标签是确定性的。然而，收集过程中fixation是未标记的。它们不区分正标签和负标签（也就是：一些注视点可能落在背景中，如图1所示），导致在注视中有一些噪音。这种模糊的交互使得基于fixation的对象分割任务变得困难。最近，随着卷积神经网络的兴起，基于点击的交互式图像分割得到了极大的发展。尽管fixation和点击点在某种程度上是相似的，但是基于点击的方法[12]-[14]、[16]、[17]不能直接应用于基于注视的对象分割。

图1 模糊fixation的图像示例。每个图像中的绿点表示fixation。一些fixation落在背景中

上述观察表明，有两个主要原因限制了基于fixation的对象分割的发展。首先，没有合适的数据集用于基于fixation的对象分割任务，更不用说基于个人fixation的数据集了。其次，如上所述，fixation的模糊表示使得这种类型的交互很难通过其他基于点击和涂鸦的方法来处理。
为了解决第一个关键问题，我们构建了一个基于个人注视的对象分割数据集，它是从注视预测数据集OSIE [26]扩展而来的。PFOS数据集包含700幅图像，每幅图像有15幅个人注视地图，这些地图是从15名受试者那里收集的，并带有相应的物体像素级注释。为了克服fixation的模糊性，我们提出了一种有效的网络：目标定位和边界保持（OLBP）。该算法的核心思想是基于注视点的分析来定位被注视对象，然后引入边界信息来保护被注视对象的完整性和过滤背景。
特别是，OLBP网络的整体结构是自下而上和自上而下架构的混合。为了缩小fixation和物体之间的差距，我们提出了物体定位模块(OLM)来详细分析个人fixation，并掌握不同个人凝视物体的位置信息。基于位置信息的解释，OLM以自下而上的方式调整图像的CNN特征。此外，考虑到目标位置信息可能包含令人困惑的噪声，我们提出了一个边界保持模块(BPM)来利用边界信息来增强目标的完整性和过滤错误定位的背景。BPM集成到自上而下的预测中。OLMs和BMPs都采用深度监督来进一步提高特征表示的能力。这样，目标定位和边界保持方案成功地应用于自底向上和自顶向下的结构，并且所提出的OLBP网络极大地提高了基于个人注视的目标分割任务的性能。这样，目标定位和边界保持方案成功地应用于自底向上和自顶向下的结构，并且所提出的OLBP网络极大地提高了基于个人注视的目标分割任务的性能。在具有挑战性的PFOS数据集上的实验结果表明，在各种评估指标下，该方法优于17种最先进的方法。
这项工作的贡献总结如下:
· 我们为基于个人fixation的对象分割（PFOS）构建了一个新的数据集，该数据集关注于自然交互(即fixation)。这个数据集包含不受任何约束的自由视角个人fixation，扩展了它的适用性。我们相信PFOS数据集将推动基于fixation的人机交互研究。
· 提出了一种新的基于个人fixation的目标定位和边界保持网络（OLBP）来分割被注视的目标。配有目标定位模块和边界保持模块的OLBP网络有效地克服了模糊fixations带来的困难。
· 我们在FPOS数据集上进行了广泛的实验，以评估我们的OLBP网络和其他最新方法。综合结果证明了我们的OLBP网络的优越性，也揭示了构建的FPOS数据集的困难和挑战。
论文的其余部分组织如下：第二部分回顾了相关的前期工作。然后，我们在第三部分中规划PFOS数据集任务。第四部分，我们构建了PFOS数据集。第五部分，详细介绍了所提出的OLBP网络。第六部分，在构建的PFOS数据集上，评价了所提出的OLBP网络和其他方法的性能。最后第七部分，得出结论。

2. RELATED WORK
在这一节中，我们首先概述了以前的交互式图像分割的工作，在A部分。然后，介绍了中基于注视点的对象分割的相关工作，在B部分。最后，我们回顾了一些关于边界感知分割的相关工作，在C部分。
A. 交互式图像分割
1）基于涂鸦的交互式图像分割
涂鸦是一种传统的互动方式。大多数基于涂鸦的方法都是建立在图形结构上的。GraphCut [7]是最具代表性的方法之一。它使用最大流/最小割（max-flow/min-cut）定理用硬约束(即标记的涂鸦)和软约束来最小化能量函数。Grady等人[8]采用随机游走算法，根据离散空间中预先定义的种子像素为每个未标记像素分配一个标签。在文献[9]中，白等人提出了一种基于加权测地线距离的快速图像和视频分割与抠图框架。Nguyen等人[10]提出了一种凸活动轮廓模型来分割物体，其结果是具有平滑和精确的边界轮廓。Spina等人[11]提出了一种实时标记方法，以减少用户干预，有效分割目标对象。根据种子传播策略，简等人[27]采用自适应约束传播来自适应地将乱涂信息传播到整个图像中。最近，王等人[28]改变了他们对交互式图像分割的观点，将其表述为概率估计问题，提出了基于成对似然学习的框架。这些方法对清晰定义的涂鸦很友好，但它们不能解决注视的模糊性，并且它们的推理速度通常很慢。
2）基于点击的交互式图像分割
点击是一种经典的互动方式。深度学习时代已经深入研究了。正点击和负点击被转换成两个独立的欧几里德距离图，用于网络输入。徐等[12]直接将RGB图像和两个距离图送入一个全卷积网络。Lie等人[13]提出了一种具有全局预测和局部区域细化的两分支融合网络。除了RGB图像和距离图之外，李等人[14]还在其网络输入中包含了点击，并提出了一种端到端的分段选择网络。在[16]中，Jang等人引入了反向传播细化方案来校正初始分割图中的误标记位置。与上述方法中RGB图像和交互图的直接拼接不同，胡等人[17]将RGB图像和交互图分别输入到两个网络中，设计了一个用于特征交互的融合网络。神经网络极大地提高了基于点击的交互式图像分割的性能，但是，当这些方法应用于基于注视点的对象分割时，一些背景区域会被错误地分割。为了解决错误定位的问题，我们利用边界信息来过滤多余的背景区域，保护被注视的物体。
3）基于包围盒的交互式图像分割
在边界框中，目标对象和背景共存，这不同于涂鸦和点击。罗泽尔等人[18]扩展了图切割（graph-cut）方法，用矩形分割对象，即GrabCut。为了克服包围盒的松散性，Lempitsky等人[19]将紧密性先验引入全局能量最小化函数，作为进一步完成目标对象的硬约束。Shi等人[21]提出了一种由粗到细的区域级和像素级分割方法。与[12]类似，徐等人[20]将包围盒变换为距离图，并将其与RGB图像连接，以输入到编码器-解码器网络中。虽然边界框和固定是相似的(即目标对象和背景在两种交互中共存)，基于包围盒的方法很难转移到基于注视的对象分割。
B. 基于fixations的对象分割
fixations在人类视觉系统中起着不可或缺的作用，并且便于交互。在早期的研究中，Sadeghi等人[29]构建了一个基于眼睛注视的交互式分割系统，该系统采用随机行走器来分割对象。同时，Mishra等人[22]给出了基于注视的对象分割的定义，即分割包含注视点的区域。他们将图像转换到极坐标系统，并找到适合目标对象的最佳轮廓。基于视觉感受野的解释，Kootstra等人[30]使用对称性来选择更靠近物体中心的注视点，以获得更完整的分割。不同的是，李等人[23]集中于选择最显著的对象，并且他们基于注视来排列对象提议。与[23]类似，师等人[24]分析了注视点分布，并提出了三个度量来评估每个候选区域的得分。在[31]中，田等人首先确定了不感兴趣区域，然后利用基于超像素的随机游走模型分割出被注视对象。Khosravan等人[32]将固定fixations结合到医学图像分割中，并提出了Gaze2分割系统。李等人[25]构建了一个数据集，其中所有注视点都落在对象中(即受约束的注视点)，并提出了一个基于CNN的模型来模拟人类视觉系统基于注视点分割对象。
这些研究促进了基于fixation的对象分割的发展。而[22]、[25]、[30]、[31]中所有的fixation都落入物体。在预测中很难保证。这些方法[22]，[25]，[30]，[31]会陷入无约束注视的模糊中，尤其是个人fixation。对于[23]，[24]，它们是基于区域建议的，不能获得准确的结果。总之，上述方法不能解决模糊注视的问题，如图1所示。本文利用神经网络的优势，提出了一种自下而上和自上而下的网络来定位对象和保持对象的边界。此外，我们还构建了一个数据集来促进交互式图像分割的这一特殊方向，即基于个人注视的对象分割。
C. 边界感知分割
边界/边缘感知分割思想广泛用于显著对象检测[33]–[36]和语义分割[37]。在[33]中，王等人将边界信息建模为边缘保持约束，并将其作为附加监督包含在损失函数中。在[34]中，王等人提出了一种包括边界和掩模子网络的两分支网络，用于联合预测显著对象的掩模和检测对象边界。在[35]中，吴等人探索了多任务网络中二值分割和边缘图之间的逻辑关系，并提出了一种交叉细化单元，其中分割特征和边缘特征以交叉任务的方式融合。在[36]中，赵等人着重研究了显著边缘信息和显著对象信息之间的互补性。它们综合浅层的局部边缘信息和深层的全局位置信息，得到显著的边缘特征，然后将边缘特征反馈给一对一引导模块，融合互补区域和边缘信息。在文献[37]中，丁等人首先引入边界信息作为附加语义类，使网络能够感知边界布局，然后提出了一种边界感知特征传播网络，基于学习到的边界信息控制特征传播。
在我们的方法中，我们在两个方面使用边界信息：多任务结构(即分割和边界预测)和边界保持模块。与[34]、[35]不同，我们在BPMs中将学习的边界图集成到预测网络中，以保持被注视对象的完整性，而不是融合分割特征和边界特征。与[36]相比，我们的分割预测伴随着统一预测网络中的边界预测，并且在多个尺度上使用边界监督。与[37]中使用边界图来控制特征传播区域不同，我们的方法使用边界图来过滤特征中错误定位的背景。简而言之，我们对边界信息的使用是多样和深入的，这适合于基于个人注视的对象分割任务。

2.基于个人fixation的物体分割
A.问题陈述
定义一个人的图像I和fixation图FM。基于个人注视的对象分割旨在根据此人的个人视角分割此人被注视的对象，产生二元分割图。一般来说，不同的个体在观察同一幅图像时会产生不同的注视图，这意味着个体可能对不同的对象感兴趣。换句话说，同一幅图像上不同个体的分割结果随着观察者的不同而不同。因此，该任务的特殊特征是，由于多个固定图，一幅图像具有多个二进制分割图。尽管fixation的模糊性使这项任务变得困难，但个人fixation图是唯一能确定被fixation物体的信息。
B.应用
这项任务有几个有意义的应用。首先，这种方便的交互方式有利于为手部残疾、ALS和脊髓灰质炎患者开发特殊的眼睛控制装置，方便他们的生活，提高他们的生活质量。第二，固定有利于诊断某些精神疾病，如自闭症谱系障碍(ASD) [38]，[39]和精神分裂症谱系障碍(SSD) [40]，[41]。该任务在物体层面理解个人fixation，有助于提高疾病诊断的准确性。例如，ASD患者更喜欢关注背景而不是前景，所以前景在他们分割结果中的比例会小于健康人。

3. 数据集工程建设和改造
目前，有许多常用的用于注视预测的数据集，如MIT1003 [42]，OSIE [26]和SALION[43]，以及交互式图像分割数据集，如GrabCut [18]，Berkeley [44]和PASCAL VOC [45]。然而，没有用于基于个人注视的对象分割任务的数据集。考虑到数据集标注非常耗时，我们提出了一种从现有数据集收集合适数据的便捷方法来完成这项任务。
显然，PFOS数据集必须包含固定数据和对象的像素级注释。在现有的数据集中，一些数据集，如DUTS-OMRON [46]，PASCAL-S [23]和OSIE [26]，是潜在的候选数据集。DUTS-OMRON和PASCAL-S的像素级注释用于显著对象检测[47]–[49]，也就是说，这些注释只关注视觉上最吸引人的对象，而忽略场景中可能被不同个人注视的其他对象。因此，它们并不适合构建PFOS数据集。幸运的是，OSIE的像素级注释具有语义属性。这意味着我们可以根据个人的注视选择用户感兴趣的对象。换句话说，我们可以为基于个人fixation的对象分割创建像素级二进制标注。因此，我们将固定预测数据集OSIE转换为我们的PFOS数据集。
对于OSIE数据集中的每幅图像，它都有相应的fixation图和不同主题的语义标注。数据集转换的详细步骤如下:
1)语义标签集合。我们从fixation图中获取每个fixation点的位置，并在对应的语义GT上收集每个位置的语义标签。
2)语义标签蒸馏。如第二节所述。如图1所示，一些注视点落在背景或同一物体上。对于从步骤1收集的语义标签，我们丢弃指示背景的语义标签“0”。然后，如果有几个相同的语义标签，我们只保留一个。
3)二进制GT创建。基于从步骤2中提取的语义标签，我们可以确定被注视的对象并创建二进制GT。我们在语义GT中保留带有提取的语义标签的区域，并将它们设置为前景。我们用其他不相关的语义标签作为背景来设置区域。
通过这种便捷的方式，我们高效地创建了二进制GTs，并成功构建了PFOS数据集。全氟辛烷磺酸数据集保留了OSIE数据集的所有700幅图像和10,500幅自由视角个人fixation图。在PFOS数据集中，图像分辨率为800×600。每张图片有15个人注视15个目标的fixation图，以及转换后的二进制GTs。在构建的PFOS数据集中，有两类固定图。第一类是所有注视都落在对象/前景中，即[25]中的受约束fixation图。第二类是一些注视落在背景中，即无约束注视图。我们在表中给出了它们的详细信息。在我们的PFOS数据集中，无约束fixation图占64.9%，约束fixation图占35.1%。大部分不受约束的fixation图增加了PFOS数据集的模糊性，使该数据集具有挑战性。

5. 方法
在本节中，在A部分，我们首先进行数据预处理，将fixation点转换为fixation密度图。然后在B部分，我们介绍了提出的目标定位和边界保持网络（OLBP）的概况和动机。接下来在C部分和D部分，我们给出了目标定位模块（OLM）和边界保持模块（BPM）的详细公式。最后E部分，阐明了OLBP网络的实现细节
A. 数据预处理
每个fixation图中的fixation点是稀疏的。由于每个fixation图只有几个像素，因此提供的有价值的信息太少。类似的问题出现在基于点击的交互式图像分割中。徐等人[12]将点击转换成欧几里得距离图。受此启发，我们使用高斯模糊将稀疏fixation图(即FM)转换为fixation密度图(即fixation density map FDM)

nor表示最小-最大归一化，表示卷积运算符，G是一个高斯滤波器，参数σ是标准差。σ被设置为对应于OSIE数据集中的1度视角[26]。默认情况下，800 × 600图像为24像素。
高斯模糊的效果类似于眼睛的感受野，即注视中心分辨率高，注视周围分辨率低。因此，在FM上进行高斯模糊和线性变换后，密集的FDM包含了更多的物体先验信息。在本文中，我们采用密集FDM而不是原始FM。在图2中，我们展示了三个PFOS数据集受试者的个人固定图像。受试者A和受试者B的fixation图是约束注视图，而受试者C的fixation图是无约束注视图。

图2 PFOS数据集示例。每幅图像中的绿点表示注视点，FDM是fixation密度图，GT表示ground truth。
B.网络概述和动机
所提出的OLBP网络有三个关键组成部分:特征提取器、目标定位器和具有边界保持的预测网络。OLBP网络的总体结构如图3所示。

图3 提议的OLBP网络的总体架构。OLBP网络采用自下而上和自上而下的混合方式组织。我们使用改进的VGG-16从输入图像中提取五个特征块。然后，在每个OLM中，通过几个扩张的和正常的卷积层来分析FDM，以确定对象在对应的块特征中的位置。基于每个特征块中的对象定位，建立自上向下的预测。在预测过程中，边界信息被引入到BPMs中，以保护对象的完整性和过滤错误定位的背景。我们还构建了一个包含对象分割分支和边界预测分支的多任务预测结构，以利用区域和边界之间的互补性。
1)特征提取器：在OLBP网络中，我们采用修改后的VGG-16 [50]，其中最后三个完全连接的层已被删除，作为特征提取器。我们将其输入图像表示为I∈R^(H×W×C)，并通过图像分类模型初始化其参数。特征提取器具有五个卷积块，如图3所示。我们对每个块中最后一个卷积层的特征图进行操作，即conv1-2、conv2-2、conv3-3、conv4-3和conv5-3，被表示为
值得注意的是，第i块的特征分辨率，也就是

实际上，输入I的分辨率[H,W,C]，被设置为288 x 288 x 3
2)对象定位模块: 虽然FDM是一个概率图，但它是一个反映用户意图的关键交互。有效地探索FDM的目标位置信息是非常重要的。然而，当我们为基于个人注视的对象分割任务构建基于CNN的模型时，很自然地将FDM和输入图像直接连接起来用于网络输入。由于图像有三个通道，而FDM只有一个通道，直接拼接操作可能会淹没FDM的关键交互信息。基于以上分析，我们提出了目标定位模块来处理FDM。并行卷积结构对于探索CNN特征中有意义的信息是有效的[51]，特别是对于扩张卷积[52]。因此，在OLM中，我们使用几个具有不同扩张率的平行扩张卷积来深入分析个人FDM，以获得对象位置信息，这是一组响应图。这些响应图范围属于[0，1]。这表明它们具有与第i个块的图像特征相同数量的通道。它们被用于对图像的特征进行重新加权，以在通道方向和空间方向上突出被注视的对象。为了增强响应图的位置显示，我们在OLM中应用深度监督[53]。如图3所示，OLM是以自下而上的方式执行的，并且它是在用于强对象定位的特征提取器的每个块之后组装的。OLM的详细描述在C节中介绍。我们在6-C中展示了OLM的消融研究。包括图像和FDM的直接连接的变体。
3)边界保持模块和预测网络：由于一些fixation点落在背景中，因此在OLM的重新加权特征上可能存在一些噪声。fixation点的模糊对分割结果造成很大的干扰。幸运的是，有一个先验知识，背景通常没有一个规则的边界。因此，我们将边界信息引入到预测网络中，并提出边界保持模块来过滤错误定位的背景并保持被注视对象的完整性。BPM是净化分割结果的重要组成部分。我们还将像素级分割监督和边界监督附加到BPM中。如图3所示，预测网络中的卷积块之间自上而下配备有BPM。为了充分利用边界信息，我们还在预测网络中构造了一个多任务结构。我们阐述了BPM的制定和消融研究在5-D，6-C。
C.对象定位模块
如图3所示的OLM-5，目标定位模块有三个主要部分：位置分析单元、特征重新加权(即Re-wei)和分段监督(即Seg sup)。其目的是提取个人FDM的目标位置信息，突出图像特征中的目标F_r^((i))。OLM是整个OLBP网络中最不可缺少的部分。
具体而言，在OLM-i中，首先对FDM∈RH×w×1进行下采样，以拟合F(i)的分辨率，并生成F(i)∈Rhi×wi×1，公式如下:
其中MaxPool()是参数为W(i) ks的最大池，即2^i-1×2i-1 卷积核和2^i-1 步长。
然后，我们设计了位置分析单元，它包含四个具有不同扩张率的平行扩张卷积[52]，用于分析F(i) f d m，并获得多重解释特征F(i) mi。本单元中的流程可表述为:

其中concat()是跨通道连接，CD(W(in) d)是n∑{ 1，2，3，4}的带参数W(in) d的扩张卷积。值得注意的是，W(in) d由内核大小、通道数和膨胀率组成。考虑到每个F(i) r的分辨率差异，每个单元的膨胀速率是不同的，细节在表2中给出。在这个单位中，扩张的卷积扩大了感受野，而不增加计算量。它们以并行方式执行，这使得F(i)有效地捕获被注视对象的局部和全局位置信息。
F(I)mi中的多尺度特征是相互补充的。它们被混合以产生位置响应图

其中F(i)为过渡特征，2C(；W(i) 2c)是两个参数相同的卷积层W(i) 2c，ψ()是sigmoid函数，C(∩；W(i) c)是具有参数W(i) c的卷积层，参数W(I)c是具有循环信道的3×3核。W(i) 2c包含内核大小和通道号，这在不同的OLMs中是不同的。它们的详细信息显示在标签的“2×Conv”表二中。
在位置分析单元中完成FDM解释之后，我们成功地获得了r(i) loc，它们是特征重新加权(即Re-wei)部分的主角。我们采用r(I)loc在信道和空间上对F(i) r重新加权，并接收位置增强特征F(i) loc∈ Rhi×wi×ci，其计算如下：
⊗是元素乘法。此外，在Re-wei中，为了平衡图像和位置信息，我们将F(i) r连接到F(I)ioca，得到olm的输出特征F(i) olm。表二中显示了所有的项目。尤其，在训练阶段，我们将像素级分割监督(即Seg sup)应用到每个OLM。

表二：每个OLM的详细参数。我们给出了每个扩张/正常卷积的核大小和通道数。此外，我们还介绍了DILA TES和输出特性的大小。例如，(3 × 3，32)表示内核大小为3×3，通道数为32

图4 OLM-2中的特征可视化。r(2)loca是位置响应图，F(2)loca是位置增强特征。

在图4中，我们在OLM-2中可视化特征以验证位置增强的有效性。具体而言，在OLM-2中，conv2-2由位置响应图重新加权。如图4所示，位置响应图r(2) loc包含被凝视对象的丰富位置信息。在使用等式6在conv2-2上执行位置增强操作后，我们观察到被凝视的对象在F(2) loc中高亮显示(用较暗的颜色)。总之，OLM的位置增强特征F(i) loc具有很强的位置表达能力，有助于后续的分割预测网络。
D.边界保持模块
边界保持模块的建立是为了抑制重加权特征的虚假突出部分，并保持被注视对象的完整性，以便进行分割预测。如图3所示的BPM-5，BPM的结构简洁，但它是连接预测网络卷积块的关键桥梁。

表示预测网络中每个去卷积层的输出特征。在BMP中，F(i)pis由卷积层处理生成边界掩码B(i)，定义为:

为了提高B(I)I∈{ 2，3，4，5}的精度，我们在BPM中引入了像素级边界监督(即图3中BPM5上的“Bound sup”) 由于PFOS数据集中没有像素级边界标注，我们对二值分割GT Gs
采用形态学运算产生边界GT Gb： Dilate(∵；θ)是膨胀系数θ为2个像素的形态膨胀运算。然后，将B(i)连接到F(i) p，生成bpm的输出特征F(i) bpm。我们还把像素级分割监管放在了F(i) bpm后面，比如图3中BPM-5上的“Seg sup”。分割监督和边界监督相互配合，改善了被注视对象的特征表示。这样，我们新颖地将边界信息引入到BPM中，而F(I)BPM将特征去噪和边界保持能力引入到预测网络中。
E.实施细节
1)预测网络:预测网络采用自上而下的方式构建，逐步恢复分辨率。它由五个卷积块、四个BPM和四个去卷积层组成。脱落层[61]被放置在每个去卷积层之前，以防止预测网络过拟合。此外，我们将边界预测分支附加到预测网络以辅助对象分割分支。我们通过xavier方法初始化预测网络的参数[62]。
2)整体损失:如图3所示，OLBP网络共有15个损失，包括10个分段损失和5个边界损失。总体损失L可分为三个部分:多任务预测损失、OLMs损失和BPMs损失。l计算如下:

3)网络训练:PFOS数据集分为训练集和测试集。训练集包含600幅图像和9000张个人注视地图，包括3075张约束注视地图和5925张非约束注视地图。测试集由100幅图像和1500次个人注视组成，包括608张约束注视图和892张非约束注视图。
OLBP网络在Caffe [63]上实现，并使用NVIDIA Titan X GPU进行实验。训练集和测试集的数据被调整到288 × 288用于训练和推理。我们采用标准的随机梯度下降(SGD)方法[64]来优化我们的OLBP网络30，000次迭代。学习速率设置为8×108，经过14，000次迭代后将除以10。脱落率、批次大小、迭代大小、动量和重量衰减分别设置为0.5、1、8、0.9和0.0001。
6.实验
在本节中，我们将介绍在提议的PFOS数据集上进行的综合实验。我们在Sec6-A中引入了评估指标。在6-B我们用最先进的方法来比较所提出的OLBP网络。然后，我们在Sec6-C进行消融研究。并在6-D中显示一些个人细分结果。最后，我们讨论了基于注视点的目标分割和显著目标检测之间的联系，在6-E。
A. 评估指标
我们使用五个评估指标，也就是：

Jaccard Index J: Jaccard index也叫交并比(IoU)，可以比较两个二元图的异同。其定义为：
其中，S是预测的分割图，Gs是二进制分割图。
S-Measure Sλ: S-measure侧重于预测分割图和二值分割GT之间的结构相似性。它同时评估区域感知（Sr）和对象感知（So）的结构相似性。S-measure定义为:
其中λ默认设置为0.5。
F-Measure Fβ: F-measure是精度和召回率的加权调和均值，综合考虑了精度和召回率。其定义为:

其中β^2根据之前的研究[47]，[48]设置为0.3。
4)加权F-测度wFβ:加权F-测度具有评价非二元a的能力：加权F-measure具有评估非二进制和二进制映射的能力。它侧重于根据预测像素的位置及其邻域来评估预测像素的权重误差，公式如下:

其中β^2根据先前的研究[68]，[69]设置为1。
5)E-Measure Eξ: E-measure基于认知视觉研究。它一起评估局部误差(即像素级)和全局误差(即图像级)。我们引入它是为了提供更全面的评估。它可以计算为:

其中，ϕGs和ϕs分别是二元分割GT和预测分割图的距离偏差矩阵, ◦是哈达玛乘积，f(·)是二次型。
B.与最新技术的比较
1)比较方法:我们将我们的OLBP网络与三种最先进的方法进行比较，包括基于语义分割的方法、基于点击的交互式图像分割方法和基于注视的对象分割方法。对于第一类方法的合理比较，我们遵循[12]，[25]，将分割问题转化为选择问题。具体来说，我们首先将语义分割方法，即PSPNet [54]、SegNet [55]、DeepLab [51]、EncNet [56]、DeepLabV3+ [57]和HRNetV2 [58]，应用于图像，然后使用fixation来选择被fixation的对象。第二种方法包括ISLD [14]，FCTSFN [17]和BRS [16]。最后一种方法包括AVS[22]、BRS[23]、GBOS [24]和CFPS [25]。对于所有上述比较的方法，我们使用带有推荐参数设置的实现来进行公平的比较。
此外，我们修改了几种语义分割方法(即DeepLabV3+ [57]和HRNetV2 [58])和最近的显著对象检测方法(即CPD [59]和GCP A [60])，通过在其中嵌入FDM来指导对象分割。由此产生了两种类型的比较方法，即FDM引导的语义分割和FDM引导的显著对象检测。具体来说，对于DeepLabV3+，我们将FDM嵌入到特征(即低级特征和从ASPP生成的特征)中，以桥接编码器和解码器；对于HRNetV2，我们在第二阶段和第三阶段之间嵌入FDM；对于CPD，我们将FDM嵌入两个部分解码器；对GCPA来说，我们将FDM嵌入到四个自我完善模块中。我们使用与我们的方法相同的训练数据集重新训练这些修改的方法，并且调整它们的参数以获得更好的收敛性。值得注意的是，我们使用众所周知的OTSU方法[70]对我们的方法和其他基于神经网络的方法生成的概率图进行二值化。
2)定量绩效评估:我们使用上述五个评估指标，在PFOS数据集上评估我们的OLBP网络和其他17种最先进的方法。定量结果见表三。我们的OLBP网络在不同的度量方面优于所有比较的方法。具体地说，与CFPS [25]在基于注视点的目标分割方法中的最佳方法相比，我们的方法在J、λ和wFβ中的性能分别提高了3.2%、2.2%和3.0%。我们的方法在Eξ方面的性能比FCTSFN [17]好5.9%，在Fβ方面比ISLD [14]好6.4%。请注意，我们的方法的性能远远优于三种传统方法AVS [22]，SOS [24]和GBOS [24]。我们将所提出的OLBP网络的性能优势归因于目标定位和边界保持方案。
此外，基于语义分割的方法在j中平均得到51.6%，这可能是由于语义分割方法不能准确分割所有对象，导致对象选择过程失败。基于点击的交互式图像分割方法在J中平均获得61.9%，而我们的OLBP网络在J中获得73.7%。这表明我们的方法在适应注视的模糊性方面比基于点击的交互式图像分割方法更鲁棒。基于注视点的对象分割方法包括三种传统方法和一种基于CNN的方法，在J中的平均值为48.0%。
具体来说，我们在表三中展示了FDM指导的语义分割方法的结果，包括修改的DeepLabV3+和HRNetV2。改进的DeepLabV3+实现了有希望的性能，但没有超过我们的OLBP网络(例如，71.0%对73.7%的J)。虽然FDM指南为HRNetV2带来了一些优势，但修改后的HRNetV2仍然表现不佳。对于FDM引导的显著目标检测，改进的CPD和GCPA都表现良好，尽管我们的OLBP仍然优于他们(例如，分别比改进的CPD和GCPA在J中好4.5%和1.4%)。总之，设计的PFOS数据集在性能方面还有很大的改进空间，这表明PFOS数据集对所有比较方法都具有挑战性，包括OLBP

表三：PFOS数据集的定量结果，包括JACCARD指数、S - MEASURE、加权F-MEASURE、E - MEASURE和F-MEASURE。语义分割是指基于语义分割的方法。点击是指基于点击的交互式图像分割方法。fixation是指基于fixation的物体分割方法。FDM指导的语义分割意味着将FDM嵌入到语义分割方法中。FDM引导的显著目标检测意味着将FDM嵌入到显著目标检测方法中。最佳的三种结果以红色、蓝色和绿色显示。↑表示越大越好。每种方法的下标代表公开年份。†意味着基于CNN的方法。

3)定性绩效评估: 在图5中，我们展示了我们的OLBP网络和其他方法的一些代表性可视化结果。显然，GBOS [24]、SOS [24]和AVS [22]三种传统方法的视觉分割图比较粗糙。然而，基于CNN的方法CFPS [25]，与GBOS、SOS和AVS属于同一类型，基本上捕捉被凝视的对象，并带来较少的背景区域。基于点击的交互式图像分割方法BRS [16]、FCTSFN [17]和ISLD [14]的分割结果中的凝视对象被部分分割，并且细节相对粗糙。至于EncNet [56]、DeepLab [51]和SegNet [55]，它们的对象分割图依赖于语义分割结果，具有很大的不确定性。这导致他们的对象分割图有时准确，有时糟糕。
相比之下，我们的OLBP网络配备了目标定位和边界保持方案，该方案精确地分析注视点的位置信息，并完成被注视的目标。图5中的“我们的”分割图非常局限于具有相当精细细节的被凝视对象，甚至在一些模糊注视的干扰下也是如此。
4)稳健性评估:我们提供了对我们的方法和几个有代表性的方法的稳健性评估，包括在PFOS数据集的测试数据集上的经修改的GCPA [60]、CFPS [25]和经修改的CPD [59]。具体地说，我们通过在三个水平上对背景区域进行随机采样，将噪声(即，无约束注视)添加到注视图中，即，在注视总数中，无约束注视的数量增加了不同的百分比(15%、30%、45%)。上述方法在添加噪声后的性能如表四所示。在三种具有挑战性的情况下，我们的方法始终优于比较的方法，表现出极好的鲁棒性。

表5 我们的方法和几个有代表性的方法，如改进的GCPA [60]，CFPS [25]和改进的CPD [59]，对PFOS数据的试验部分的鲁棒性。每行的最佳结果以粗体显示。值得注意的是，“+15%噪声”意味着在固定图中，无约束固定的数量比固定总数增加了15%。我们在三个水平，即15%、30%和45%增加噪声(即无约束固定)

C.消融研究
我们全面评估每个重要组件对我们的OLBP网络性能的贡献。具体来说，我们评估1）OLM和BPM的整体贡献；2）OLM中三个部分的有效性；3）BPM的有用性和自上而下的预测网络方式。这些变量使用与第5-E节中前述设置相同的超参数和训练集进行重新训练。实验是在PFOS数据集上进行的。
1.提议的OLM和BPM对OLBP网络有贡献吗？
为了评估提议的OLM和BPM对OLBP网络的贡献，我们导出了三个变量:基线网络(用“Ba”/“Ba*”表示)、仅含OLM的基线网络(“Ba+OLM”)和仅含BPM的基线网络(“Ba/Ba*+BPM”)。特别地，我们提供了两种类型的基线网络:第一种是编码器-解码器网络，其输入是级联图像和FDM(用“Ba*”表示)；第二个是一个编码器-解码器网络，其下采样的FMDs被连接到每个跳跃层(用“Ba”表示)，即图像和FDM被分别馈送到网络。我们在表格5中报告定量结果。
我们观察到，第一个基线网络“Ba*”(表五中的第一条线)在J中仅获得67.2%，第二个基线网络“Ba”(表五中的第三条线)在J中获得70.7%。这证实了图像和FDM的直接连接导致FDM的位置信息被图像信息淹没；相比之下，将FDM与每个比例的图像特征连接起来有利于物体定位。
表5: 根据PFOS数据对提议的OLBP网络进行消融分析。可以观察到，OLBP网络中的每个组件都起着重要的作用，并对性能有所贡献。每一栏的最佳结果是粗体。基线:编码器-解码器网络，操作语言:对象定位模块，操作语言:边界保持输入输出模块

OLM显著提高了基线网络的性能(例如，J : 67.2%/70.7%→73.0%和wFβ: 72.2%/75.0% → 79.5%)。这说明OLM的贡献是显著的，OLM确实捕捉到了位置信息。与OLM相比，BPM对基线网络的贡献略低(如J:67.2%→68.0%；70.7%→71.4%)，但BPM也显示出其对提高“Ba+OLM”性能的有效性(如wFβ: 79.5%→ 80.0%)。这说明BPM可以进一步完成对象，过滤错误定位的背景。在OLM和BPM的配合下，整个OLBP网络的性能比基线网络“Ba*”/“Ba”提高了6.5%/3.0%，Sλ提高了5.2%/2.8%，wFβ提高了7.8%/5.0%。这表明自底向上的对象定位和自顶向下的边界保持方案被成功地嵌入到基线网络中。
此外，基于第一基线网络“Ba*”的变体的分割图如图6所示。我们观察到“Ba*”几乎分割了图像中的所有对象。在OLM的辅助下，“Ba*+OLM”确定了被凝视对象的位置，“Ba+OLM”分割图上的被凝视对象更加清晰。最后，在BPM的帮助下，我们的分割图(即OLBP网络)是令人满意的。

2.OLM中的三个部分有多有效？
如第5-C节所述。OLM由位置分析单元、特征重加权(即重加权)和分割监督(即分段监督)组成。为了验证OLM中三个部分的有效性，我们修改了OLM的结构，并提供了四个变体:a)在位置分析单元中用一个卷积层代替四个扩展卷积(w/o扩展卷积)；b)不使用响应图来重新加权图像特征；c)没有在重维中连接重加权特征和图像特征；和d)没有分段管理(没有分段管理)。消融结果在表6中报告。以上四种OLM变体的详细结构如图7所示。
表六PFOS数据上OLM的消融结果(百分比)。每一栏的最佳结果是粗体。图7给出了所列变体的相应结构

图7。四种OLM变体的结构。w/o dilated convs:用一个卷积层代替四个扩张卷积；w/o multiply:不使用响应图在Re-wei中重新加权图像特征；w/o concate:重加权特征和图像特征；w/o Seg sup无分段监督。

我们发现四个变体的性能比我们的差。具体来说，w/o扩张卷积的性能下降(例如:J : 73.7% → 72.7%)验证了并行扩张卷积对FDM分析的彻底性和一个卷积层不能从FDM挖掘足够的位置信息。w/o乘的性能下降(如Sλ: 81.1%→80.5%)证实了位置响应图比直接使用更适合突出图像CNN特征上的对象。这背后的原因是位置响应图是一组概率图，没有丰富的物体、纹理和颜色信息。此外，在图像和位置之间的信息平衡很重要的情况下，w/o连接带来0.9%的性能损失。w/o Seg sup在wFβ中的性能下降了0.6%。这表明分割监督可以增强被注视对象的表示。
3.预测网络采用BPM和自上而下的方式有用吗？
为了研究自顶向下方式在预测网络中的有效性，我们在表七中报告了BPM的边输出分割图的性能。此外，我们还在表七中报告了w/o BPM的侧输出性能，以评估BPM的重要性。
我们观察到，从w/ BPM的角度来看，边输出(S(5) bpm、S(4) bpm、S(3) bpm、S(2)BPM和S(1))的定量结果是递增的。(例如，wfβ:67.8%→75.5%→78.9%→79.9%→80.0%)，和w/o BPM(例如sλ:70.4%→76.9%→79.8%→80.6%→80.7%)。这证实了自上而下的方式对于预测网络是有用的。表七还报告了w/o BPM和w/ BPM的性能差异。我们发现所有的差异都是负的，这表明BPM对自上而下预测网络的每一侧输出都很好。

表七:基于PFOS数据的带/不带BPM的侧输出分段图的性能。“W/O BPM的性能”右下角的数字是它与“W/B BPM的性能”之间的差异。每列中的最佳结果是粗体

D.个人分割结果
由于个人注视与年龄和性别密切相关，不同的用户在观察同一场景时对不同的物体感兴趣。我们把不同个人视觉系统的视觉差异定义为视觉个性化。图8的第一部分给出了一些视觉个性化的例子。我们可以观察到，这些图像中有多种不同类型的对象和复杂的背景。不同用户的个人注视点位于不同的物体上，这些物体对应于不同的GTs。
此外，我们发现个人视觉系统在一些场景中也是一致的，这被称为视觉一致性。我们在图8的第二和第三部分展示了一些视觉一致性的例子。第二部分的图像包含简单的背景和稀疏的对象，第三部分的图像包含更多的竞争情况，即复杂的背景和部分选择的对象。在这两个部分中，我们观察到不同个人注视的位置是相似的，导致不同用户的GTs相同。值得注意的是，在这两种情况下，我们的方法都显示出分割被注视对象的能力
我们还提供了视觉个性化和视觉一致性的定量分析。JS散度评价两个概率分布S1和S2的相似性，它基于kulback-Leibler散度。其值属于[0，1]。它的值越接近零，S1和S2之间的差异就越小，它们就越相似。可以表达如下:

其中KL()是Kullback-Leibler散度，在注视预测[71]–[ 74]中经常用作评估度量，I表示概率分布中的ithpixel，N是总像素数，并且∈是正则化常数。
我们引入JS来测量图8中每个图像的注视点图的相似性。首先，我们使用等式将注视点映射(每个图像中的绿点)转换为FDM。1;然后我们计算每两个故障诊断码的故障诊断码得分；最后，我们报告了图8中每个图像的平均JS分数。很明显，属于视觉一致性的图像的平均JS评分(即0.222、0.123、0.126和0.219)相对小于属于视觉个性化的图像的平均JS评分(即0.341和0.400)。属于视觉一致性的图像的平均JS分数接近于零，这表明FDMs的分布非常相似，即人们可能看着相同的对象。

图8。个人细分结果的可视化示例。个人视觉系统有两个基本属性:视觉个性化和视觉一致性。每个图像的值是平均JS分数
E.讨论
显著对象检测(SOD)在彩色图像[59]、[60]、[75]-[77]、RGB-D图像[78]、[79]和视频[80]-[82]中被广泛探索，它与我们基于注视的对象分割任务密切相关。在这一节中，我们讨论了基于固定的对象分割和SOD之间的联系。
超分辨率物体分割SOD旨在突出场景中最具视觉吸引力的物体，而基于注视的物体分割旨在根据注视图分割被注视的物体，如第三节所定义。为了说明这两个任务之间的区别和联系，我们在两个SOD数据集上进行了实验，即DUTS-OMRON [46]和PASCALS [23]，并在图9中显示了与两种最先进的SOD方法，即CPD [59]和GCP A [60]的视觉比较，图9总结了三种情况。首先，在第1和第2行中，我们介绍了这两个任务的区别:我们的方法不仅分割显著对象，如鸟和大帐篷，但也片段凝视木桩和布没有发现的GT of SOD和GCPA和GCP的结果。第二，在第3和第4个实验中，我们发现CPD和GCPA的结果与我们的结果相似，但与GT of SOD不同。这表明，在某种程度上，SOD的结果与fixation maps的CPD和GCPA是一致的，即使fixation maps没有利用这些方法。第三，在第5行和第6行，我们可以清楚地观察到，我们的结果与图像中的注视点是一致的，而其他三个图是不同的。这说明不同的SOD方法可能会在一些复杂的场景中造成混淆，导致显著图不准确。

图9。我们的方法是为基于固定的对象分割而提出的，我们的方法与最新的显著对象检测方法(包括CPD [59]和GCPA [60])在DUTSOMRON [46]和PASCAL-S [23]数据集上的视觉比较。“GT of SOD”是指SOD任务。“CPDsod”是指用于sod的原始CPD方法。“GCPAsod”是指草皮的原始GCPA方法。

此外，我们发现显著对象总是出现在我们的方法的结果中，而不同的SOD方法之间存在模糊性，这可能突出不同的显著对象。因此，为了提高不同SOD方法的准确性，我们认为基于固定的对象分割可以作为SOD的预处理操作，以确定突出的对象建议。
6. 结论
在这篇文章中，我们提出了一个三步的方法，将可用的注视预测数据集OSIE转换为PFOS数据集，用于基于个人注视的对象分割。PFOS数据集对于促进基于注视点的物体分割的发展具有重要意义。此外，提出了一种自底向上的目标定位和自顶向下的边界保持相结合的新的OLBP网络来分割被注视的目标。我们的OLBP网络配备了两个基本组件:对象定位模块和边界保持模块。OLM是物体定位器，负责注视点的位置分析和物体增强。BPM强调错误定位提炼和对象完整性保存。此外，我们还在PFOS数据集上对我们的OLBP网络和其他三种方法进行了综合实验，展示了我们的OLBP网络的优势，并验证了PFOS数据集的挑战。在我们未来的工作中，我们计划将提议的OLBP网络应用于一些眼睛控制设备，以改善手部残疾、肌萎缩侧索硬化症和脊髓灰质炎患者的生活。此外，我们计划招募受试者在PASCAL VOC [45]和MS COCO [83]数据集上收集注视点和相应的地面真相，以进一步探索基于个人注视的对象分割。