SalGaze：使用视觉显著性的个性化注视估计

SalGaze: Personalizing Gaze Estimation using Visual Saliency

摘要

传统的视线估计方法通常需要显式用户校准以实现高精度。这个过程很麻烦，当照明和姿势等因素发生变化时，通常需要重新校准。为了应对这一挑战，我们引入了SalGaze，该框架利用视觉内容中的显著性信息来透明地使视线估计算法适应用户，而无需显式用户校准。我们设计了一种算法，将显著性映射转换为可微损失映射，可用于优化基于CNN的模型。SalGaze还能够使用统一的框架使用隐式视频显著性校准数据极大地增强标准点校准数据。我们表明，使用我们的技术对现有方法的准确性提高了24%以上。

transparently adapt

透明地适应

greatly augment

大大增加

【1.Introduction】

凝视估计是估计一个人的视线的问题。这一点很重要，因为眼睛注视反映了一个人潜在的认知过程[11]，该过程可用于广泛的应用，包括数字内容营销[50]、诊断自闭症等精神疾病[23]和自动驾驶[2]。

由于眼睛的结构和外观不同，通常需要校准来学习用户固有的参数，以便视线估计算法实现高精度。该校准过程通常是让用户查看目标屏幕上的某些点。该过程的一个主要问题是，一次性校准通常仅在相同的环境设置下工作。照明、头部位置和面部外观等因素的变化可能会严重影响估计精度，并且不可能对每个场景进行重新校准。在某些情况下，主动凝视校准也可能过于严格。例如，凝视是幼儿孤独症风险评估的一个重要生物标志物[38]，然而，要求幼儿进行主动校准以及获得校准性能的反馈是非常具有挑战性的。

toddler 蹒跚学步的

同样的挑战也出现在患有神经退行性疾病的老年人群中[3]。由于这些原因，拥有一种为用户进行被动校准的方法对于使视线估计成为一种更普遍的技术至关重要，尤其是在使用现成设备（例如嵌入移动设备上的摄像头）以及在野外场景中部署时。

elderly populations

老年人口

having a way to passively calibrate for the user is critical for making gaze estimation a more pervasive technology,

拥有一种为用户进行被动校准的方法对于使视线估计成为一种更普及的技术至关重要，

随着机器学习的最新进展，基于外观的注视估计和深度学习的结合已成为远程估计注视的流行方法[53、7、54、48、13、55]。基于外观的算法的优点是只使用人脸或眼睛的图像作为输入，因此不需要常规摄像机以外的任何专用硬件。深度学习算法已被证明是凝视估计的强大工具，因为它能够使用端到端学习将照明、头部姿势、外观等因素结合起来。这种方法最大的挑战是需要大量带有地面实况注视标签的数据来训练网络。最近的工作[1，44，14，18，56，24，51]在创建如此大的数据集方面做出了巨大的努力，显示出了有希望的结果。然而，收集标记的注视数据的过程仍然是一项繁琐的任务，并且没有强大的域转移技术（尚未证明用于注视估计），此类数据仅限于收集的设备和场景。缺乏数据以及有效的数据收集过程是视线估计深度学习方法的主要瓶颈之一。应对这一挑战是本文的目标。

Deep learning algorithms have been shown to be powerful tools for gaze estimation due to its ability to incorporate factors including illumination, head pose, appearance, etc., using end-to-end learning.

深度学习算法已被证明是凝视估计的强大工具，因为它能够使用端到端学习将照明、头部姿势、外观等因素结合起来。

one of the major bottlenecks of

主要瓶颈之一

认知科学表明，人类视觉系统有一种强烈的倾向，即关注视野中高度显著的区域。为了模拟这种行为，在计算显著性领域进行了大量的工作。虽然该领域的传统研究利用地面真实注视数据进行视觉显著性估计，但在这项工作中，我们提出反转该过程，并利用视觉显著性信息进行注视估计。我们论证并证明，场景中的显著性信息可以用于校准目的，而无需用户的积极参与。

There has been extensive work in the area of computational saliency to emulate this behavior.

为了模拟这种行为，在计算显著性领域进行了大量的工作。

在本文中，我们提出了SalGaze，一种利用视觉显著性信息的新框架，如本文所介绍的那样进行适当处理，用于使用深度学习模型进行个性化注视估计。当用户观看几个短视频剪辑时，校准是透明的。通过使用本文提出的可微损耗图，SalGaze还能够在统一的框架下将基于标准点的校准数据与自由观看的视频数据相结合，如果需要更高的精度，则进一步提高性能。我们使用从眼睛跟踪器收集的经验显著性数据和从两种最先进的显著性算法生成的显著性数据进行了实验。我们表明，使用我们的技术，准确率提高了24%以上。

properly processed as here introduced

按此处介绍的方式正确处理

By using a here proposed differentiable loss map, SalGaze is also able to combine standard point-based calibration data with free-viewing video data under a unified framework, further improving performance if more accuracy is desired.

通过使用本文提出的可微损耗图，SalGaze还能够在统一的框架下将基于标准点的校准数据与自由观看的视频数据相结合，如果需要更高的精度，则进一步提高性能。

We experiment with both empirical saliency data collected from eye trackers, and saliency data generated from two state-of-the-art saliency algorithms.

我们使用从眼睛跟踪器收集的经验显著性数据和从两种最先进的显著性算法生成的显著性数据进行了实验。

【

2. Related work

2、相关工作】

Gaze Estimation.

凝视估计。

Tan等人在基于外观的注视估计方面做了一项开创性的工作。[45]. 他们使用了200多个校准样本，在固定头位姿和照明设置下实现了非常高的精度。Lu等人[30]对此进行了改进，在保持高精度的同时，大幅减少了所需的校准样本量。然而，他们的方法仍然要求人的头部完全静止。Sugano等人[44]和Chang等人[5]分别使用多摄像机设置和深度摄像机来获取3D信息并合成各种头部姿势下的眼睛图像。[15]对凝视估计方法进行了广泛的调查。

pioneering works

开拓性作品

Lu et al. [30] improved on this by drastically lowering the amount of calibration samples required while maintaining high accuracy.

Lu等人[30]对此进行了改进，在保持高精度的同时，大幅减少了所需的校准样本量。

the person’s head to be completely still.

人的头部完全静止。

近几年来，人们提出了许多基于深度学习的凝视估计算法。

张等人[56，57]在3个月的时间里，对15名参与者收集的20多万张图像训练了卷积神经网络（CNN）。Wood等人[52，51]使用先进的计算机图形学合成了大量的眼睛图像来训练CNN模型。Shrivastava等人[39]使用生成对抗网络（GAN）生成更逼真的合成眼睛图像。Krafka等人[24]使用Amazon Turk收集了200多万张使用iPhone和iPad的人的图像。Park等人[35，34]训练了一个深度网络，在估计注视之前回归到中间眼睛标志和眼球的图形表示。这些贡献在无校准人独立注视估计领域取得了重大突破，这表明了拥有大量数据的重要性。我们的工作旨在通过允许使用可大规模收集的个性化数据来扩展这些方法。

Many deep learning based algorithms for gaze estimation have been proposed over the last couple of years.

近几年来，人们提出了许多基于深度学习的凝视估计算法。

Gaze Personalization.

凝视个性化。

基于外观的算法主要集中于与人无关的注视估计。

据我们所知，只有几部作品试图解决针对特定用户个性化算法的挑战。Krafka等人[24]使用几个校准样本的CNN特征来训练支持向量回归模型。

Others [55, 43] use synthesis techniques to augment the number of samples for a specific user to train a person-specific model or fine-tune a generic model.

其他人[55，43]使用合成技术来增加特定用户的样本数量，以训练特定于人的模型或微调通用模型。

有几种方法[28、7、53]试图在模型中明确纳入依赖于人的参数。这些参数是在测试期间用几个样本估计的。其他人[55，43]使用合成技术来增加特定用户的样本数量，以训练特定于人的模型或微调通用模型。上述方法都需要显式校准，以收集用户的有限样本。由于数据收集过程的透明性，我们不仅限于从新用户那里收集少量样本，因此可以实现更好的个性化。

Saliency Prediction.

显著性预测。

这方面的开创性工作由Itti等人完成[19]。他们提出了一个计算模型，该模型提取了颜色和方向等低级特征，以预测全局显著性图。最近，提出了大量基于深度学习的静态显著性预测方法。Kümmer等人。

[26，27]提出了两个深度显著性预测网络，DeepGaze I和DeepGaze II，分别建立在AlexNet[25]和VGG-19[40]模型上。Pan等人[33]使用GAN生成显著性图。Cornia等人[9]和Liu及Han[29]将长-短期记忆网络（LSTM）[17]与ResNet[16]相结合，通过合并全局和场景上下文来推断显著性。显著性预测问题不是本文的重点，我们使用显著性作为视线估计的工具。计算显著性估计的进一步进展可能进一步改进我们在本文中获得的结果。

Gaze and Saliency.

凝视和显著性。

虽然注视估计和显著性预测问题在各自的领域都受到了大量关注，但迄今为止，只有少数作品将它们联系起来。Sugano等人[42]是第一个利用显著性作为凝视估计的概率图的人。他们使用高斯过程回归，在固定头部姿势设置下，在眼睛图像和监视器上的注视位置之间建立映射。陈等人[6]使用了一种基于模型的方法，其中使用刺激的显著性信息以概率方式估计眼球参数。

他们的方法基于瞳孔中心角膜反射（PCCR），需要使用红外摄像机来定位瞳孔位置。许多其他作品[36、37、12、41、8]使用图像的显著性信息来确定同一图像中的人是否正在注视显著对象。我们的工作与他们不同，因为我们使用了帧外目标的显著性信息来进行精确的注视估计。与这些工作相反，我们的方法是为利用损失函数的深度学习算法而设计的，因此我们设计了一个新的显著性通知可微成本函数，该函数也能够与这些工作相反地进行组合。我们的方法是为利用损失函数的深度学习算法而设计的，因此，我们设计了一种新的显著性信息可微成本函数，该函数还能够将显著性信息与逐点校准相结合。使用显著性信息透明地收集大量注视数据的能力进一步增强了我们方法的潜力。

a loss function,

损失函数，

a new saliency-informed differentiable cost function

一种新的显著性信息可微代价函数

combine saliency information with point-wise calibration.

将显著性信息与逐点校准相结合。

【3. Personalized Gaze Estimation from Saliency

3、基于显著性的个性化注视估计】

在第3.1节中，我们从数学上阐述了标准逐点校准数据的2D凝视估计问题。然后在第3.2节中，我们将公式扩展到使用显著性信息，并通过设计可微损失图来推导解。我们表明，传统的基于点的校准是我们解决方案的特例，因此可以与之结合。第3.3节提供了我们的CNN模型的实现细节。

3.1. Point Loss

3.1. 点损耗

让Ω⊂R2表示一个跟踪人的目光的开放集，例如电脑显示器或手机屏幕，

I是输入，通常是人的面部或眼部图像或它们的组合，

f是一个能够从这个图像中估计人的目光ˆp的模型，即ˆp = f(I) (ˆp ∈Ω)。

标准校准程序包括收集用户去看在屏幕上预先指定的位置p1, ..., pn（pi∈Ω）的图像I1, ..., In。

模型f的参数被表示为θ=（θ1，...，θm）。

我们可以优化这些参数，使收集到的数据的经验误差最小，公式（1），其中d代表预测的凝视ˆp = f(I)和地面真实凝视p之间的一些距离，例如，由L2准则d(u, v)引起的距离。

方程（1）可以解决，例如，用随机梯度下降法，因为损失L（θ）是可微的，公式（2）。

由于f在本工作中使用可微CNN模型实现，∂fθ/∂θ定义良好，可以用数值计算。

梯度下降导致更新规则，等式（3），其中δ表示梯度下降步长。

本质上，模型的参数是缓慢修改的，因此ˆp→ p。

如公式（3）所示，与-（ˆp-p）成比例的项将模型的预测推向误差向量的相反方向，因此提高了精度。这种简单的优化技术已经被证明在凝视估计的背景下是非常稳健的[24]。

3.2. Probability Map Loss

3.2. 概率图损失

我们将上一节的想法扩展到这样的场景：对于每个输入图像Ii，我们都有用户正在观看的内容的显著性信息Si : Ω → [0, 1]。s(x, y)可以解释为衡量用户正在观看点(x, y)∈Ω的可能性。

为利用新的校准数据{si}而调整公式（1）的一种简单方式是，公式（4），其中g被定义为一些平滑的单调递减函数，例如，g（u）=-u或g（u）=1/u。

在s(x, y)不=0的区域，这种表述是有意义的，因为如果模型预测了一个高概率的位置fθ(I)，s(fθ(I))会很大，损失g(s(fθ(I)))会很小。然而，对于s(x, y)=0的区域，也就是经常出现在显著性地图中的区域，|∇s||为零，类似梯度下降的优化技术会失败。

can be interpreted as

可以解释为

exploit the new calibration data

利用新的校准数据

some smooth monotonic decreasing function

一类光滑单调递减函数

a gradient descent-like optimization technique

一种类似梯度下降的优化技术

图1：从二元图到损失图的演变。(a), (b), (c), 和(d)显示了在重新初始化算法的不同迭代中的损失图。

为了获得适定且鲁棒的优化方案（良好的、稳健的），我们建议计算具有以下属性的损耗图l（s）：

• l（s）应该是连续的、可微的，并且具有3.1中描述的属性；

• 它应该鼓励在显著值较大的区域进行预测

• 对于点数据，l（s）应表示到该点的距离，如等式（1）所示。

为此，我们采用了[4]中的思想，并在接下来详细介绍时实现了一个类似于重新初始化的等式。

首先，我们设定一个阈值λ，并计算一个二元图l0：Ω→{0，1}，如果s(x，y)<λ，l0(x，y)=1，否则为0。

然后，我们用这个二元图像作为偏微分方程（PDE）的初始条件

图1说明了u((x, y), t)的演变。算法1描述了公式（5）中描述的重新初始化方案的数值实现。算法2中给出了算法1中梯度计算步骤的稳健实现。

To that end, we adapt ideas from [4] and implement a Reinitialization-like equation as we detail next.

为此，我们采用了[4]中的思想，并在接下来详细介绍时实现了一个类似于重新初始化的等式。

定义 3.1. 设Γ是Ω中的一个封闭集合，dist (p, Γ )是点p到Γ集合的距离，定义如公式(6)。

定义3.2。Γ的骨架，用SΓ表示，是指点x∈R平方的集合，即Γ中至少存在两个不同的点y和z，满足|x-y| =|x-z| = dist (x, Γ )。

命题3.1。如果Γ是Ω的一个封闭子集，u(p)= dist (p, Γ )，¯SΓ表示Γ的骨架封闭。

命题3.2。让Γ={q∈Ω/l0(q)=0}。函数u：Ω×R+→R，由公式（7）定义，其中tp是（5）的唯一解，在Ω×[0，T]上均匀连续，∀T>0，在Γ∀t∈[0，T]上消失。

命题3.1与[4]中提出的命题4.3.1类似，我们定义的是正距离函数而不是有符号的距离函数，Γ是Ω的一个封闭子集而不是R2中的封闭曲线。此外，命题3.2可以通过对[4]中提出的定理4.3.4的证明进行简单的改编来证明。

我们定义l(x, y)为公式(5)的解，初始条件为l0(x, y)，即对于任何t∗大于Ω中包含的最长直线，l(x, y)=u((x, y), t∗)，因此，l(x, y)是(x, y)到由{q∈Ω/l0(p)=0}定义的集合的距离。最后，给定数据{Ii, si}，我们计算相应的损失图{li}，并通过公式（8）来调整注视模型。

我们可以选择w=1或w=2来分别最小化距离或平方距离。我们把前者称为映射损失，把后者称为映射损失的平方。当预测ˆp在有效集合l0=0之外时，我们定义的损失的梯度将更新模型以预测集合中最接近的点。当w=2时，梯度的范数与到集合的距离成正比，当w=1时，梯度的范数是一个单元向量。正如我们在第4.4节中所显示的，w=2会导致更快的收敛速度，而w=1对离群值更稳定。

值得一提的是，点校准数据可以被看作是一个特例，对于一个给定的校准点p，其等效的显著性地图是s(x, y) = 0, ∀(x, y) ∈ Ω\{p}，s(p) = 1。因此，我们的表述允许使用点和显著性数据源进行注视估计。

The norm of the gradient is proportional to the distance to the set

梯度的范数与到集合的距离成正比

a unitary vector

单位向量

leads to a faster convergence rate,

导致更快的收敛速度，

while w = 1 is more robust to outliers.

而w=1对异常值更为稳健。

3.3. Implementation Details

3.3. 实施细节

我们的模型架构基于iTracker[24]，这是一种CNN，可以预测用户在iPhone或iPad上的注视位置。

该网络使用从设备的前置摄像头收集的用户脸部图像作为输入，并输出用户在屏幕上所看的位置。

具体来说，图像中的脸部和两个眼睛区域以及脸部网格（一个代表脸部在图像中的空间位置的二进制矩阵）被作为网络的4个输入。输出是相对于摄像机的二维注视位置。这种技术允许汇集来自不同设备模型和设备方向的数据来训练一个相对稳健的模型，尽管当推断到新的条件（如不同的设备或采集场景）时，其性能仍然会下降。

我们以下列方式修改了iTracker的结构：

（1）输入的脸部和眼部图像的大小从224×224减少到64×64，以减少训练时间。

(2) 在网络的末端增加了一个额外的全连接层，以达到微调的目的。

(3) 每个卷积块之后的局部响应归一化层被替换为上级（高级）批处理归一化层。

(4) 平均平方损失被我们在第3.2节定义的自定义映射损失所取代。

最终的模型架构如图2所示。根据新的个性化公式调整已知架构有助于说明我们提出的框架的即插即用风格。

我们的模型是在Python中使用Tensorflow实现的。

优化是使用Adam[22]进行的。

pooling data from

汇集来自的数据

new personalized formulation

新的个性化配方

illustrate the plug-and-play style

演示即插即用风格

【

4. Experiments

4、实验】

在本节中，我们进行了实验，以评估不同的超参数、数据量和不同类型的显著性计算如何影响我们方法的性能。

4.1. Data Collection

4.1. 数据收集

我们要求9名参与者（7名男性，2名女性）使用iPad Air 2在横向方向上各记录10次数据。每个会话由2个阶段组成：一个点阶段和一个视频阶段。点的阶段类似于传统的校准程序，20个点依次出现在屏幕上的随机位置，每个2秒。在视频阶段，播放几个15到20秒的短视频片段，中间有休息间隔。每个参与者的10次数据是在几天内不同的地点收集的，以鼓励姿势、照明和一般采集环境的可变性。

我们向参与者展示的视频来自两个公共的显著性数据库。SA V AM[31]和Coutrot数据库1[10]。SA V AM包含41个1920 × 1080的运动视频片段，这些视频来自各种专题电影、商业剪辑和立体视频数据库。Coutrot数据库1包含60个720×576分辨率的人或脸、移动物体和风景的视频。我们在Coutrot数据库1中使用的是带有原始配乐的视频集。每段视频都提供了用商业眼球追踪器收集的地面真实突出度数据。从这些视频中，我们手动选择了33个我们认为相对更有吸引力的视频。我们使用的视频是SA V AM的{2、5、6、11、12、22、24、29、30、34、38}和Coutrot数据库1的{6、8、15、17、18、21、23、24、25、26、28、46、47、48、50、51、52、53、54、56、57、59}。参与者在10个环节中，每个视频只观看一次。

in landscape orientation.

在横向方向。

commercial clips

商业剪辑

at 720 × 576 resolution.

分辨率为720×576。

videos with original soundtracks

带有原始音轨的视频

manually selected

手动选择

relatively more engaging

相对更具吸引力

图3：损耗图生成过程。将特定视频帧（a）的显著性图像（b）映射到101×101网格（该网格表示从-25cm到25cm的摄像机坐标空间（预测空间））。然后将映射的显著性图像（c）转换为二值图像（d），然后使用重新初始化算法生成可微损失图（e）。

4.2. Data Preprocessing

4.2. 数据预处理

我们首先根据设备规格和设备方向将显著性映射从像素坐标空间映射到[24]中定义的摄像机坐标空间，计算每个视频帧的损失图。我们使用101×101网格来表示摄像机坐标空间中-25cm和25cm之间的平方面积。然后使用第3.2节所述的方法计算损耗图。我们将λ设置为显著图的第95个百分位，以生成二元图。该过程如图3所示。

the pixel coordinate space

像素坐标空间

device specifications and device orientation.

设备规格和设备方向。

the binary map

二进制映射

converted into

转换为

reinitialization algorithm is used to generate the differentiable loss map (e).

使用重新初始化算法生成可微损耗图（e）。

录制的视频与呈现的视频同步，这样，在点阶段的每个记录帧都与呈现的点位置相关，在视频阶段的每个记录帧都与相应的呈现视频帧的损失图相关。由于连续帧之间的高度相似性，我们以每秒1帧的速度对记录的视频和损失图进行采样。我们还放弃了点出现的前0.5秒内的任何一帧，以使参与者能够集中注意力。然后用Dlib[21]来检测每一帧中的人脸和面部地标。

我们使用Dlib给出的脸部区域来裁剪出脸部图像，并计算出[24]中定义的脸部网格。我们将眼睛区域定义为以眼角标志物的中点为中心的方形区域，边长等于眼角标志物之间水平距离的1.8倍。

我们发现这样做的结果与[24]相似，后者使用原生的iOS算法来生成裁剪的眼睛图像。

are synced to

已同步到

Due to high similarity between consecutive frames,

由于连续帧之间的高度相似性，

discard

丢弃

crop out

裁剪

at the midpoint of t

在t的中点

1.8 times

1.8倍

表1:GazeCapture不同测试集的基线模型和iTracker的平均误差（cm）。

4.3. Baseline Model

4.3. 基线模型

我们的基线模型使用来自GazeCapture的相同训练和验证数据进行训练[24]。我们将输入图像调整为64×64，并训练75000次迭代，批量大小为256。我们的基线模型与iTracker[24]在GazeCapture测试数据的3个子集上的比较如表1所示。由于我们出于计算目的降低了输入图像的分辨率，我们的基线模型的性能略差于iTracker。

然而，我们的目标不是超越iTracker，而是在以下几节中为与我们的个性化模型进行间接比较设定基线。虽然他们没有报告在iPad Air 2上收集的横向测试数据集的性能，但如果我们根据基线模型的趋势进行推断，误差约为3.6cm。在下一节中，我们将展示我们的低分辨率个性化模型可以实现3.3cm的误差。

on 3 subsets of the GazeCapture

关于GazeCapture的3个子集

Due to decreasing the resolution of the input images, which we did for computational purposes, our baseline model performs slightly worse than iTracker.

由于我们出于计算目的降低了输入图像的分辨率，我们的基线模型的性能略差于iTracker。、

extrapolate

推断

4.4. Calibration with Saliency

4.4. 显著性校准

我们通过微调第4.3节中描述的基线模型的最后两个完全连接层来验证显著性数据对于个性化注视估计的有用性。

对于每个参与者，我们使用来自视频阶段的数据及其相应的损耗图对来自点阶段的数据进行微调和测试。

我们将使用映射损失与第3.2节中描述的平方映射损失的效果进行比较。

由于用户在视频阶段不受约束或引导查看特定位置，我们希望收集的数据会出现异常值，其中输入图像与显著性图不一致。

因此，我们还探索了迭代离群点移除（IOR）技术的效果，即我们每隔2个历时就移除训练中损失最大的前5%的数据。

对输入的视频和显著性数据进行适当的过滤对所提出的框架非常重要，这种简单的方法已经被认为是足够的；我们在第5节中对此有更多的讨论。对于每个参与者来说，基线模型对每个配置进行了10次微调。

图4显示了每个历时的所有参与者的平均注视误差。可以看出，误差在4个历时后趋于稳定。因此，我们决定在这次和以后的实验中把微调程序固定为4个历时。

we expect the collected data to present outliers where the input image does not coincide with the saliency map.

我们期望收集到的数据在输入图像与显著性图不一致的情况下呈现异常值。

top 5%

前5%

Therefore, we decide to fix the fine-tuning procedure to 4 epochs for this and subsequent experiments.

因此，我们决定将微调过程固定为本次和后续实验的4个阶段。

表2：使用不同训练配置的平均注视误差。

最后一列下面四个都比第一个有提升加上IOR的比没加的更提升

定量结果显示在表2中。可以看出，所有4种配置都比基线有所改善，而且IOR有助于减少误差。正如第3.2节所评论的那样，平方损失导致更快的收敛，但更容易受到异常值的影响，而IOR有助于减轻这种影响。在第4.5和4.6节的实验中，我们使用了带有IOR配置的映射损失。

As expected and commented in Section 3.2, the squared loss leads to a faster convergence but is more susceptible to outliers with which IOR helps to mitigate.

正如第3.2节所预期和评论的那样，平方损失导致更快的收敛，但更容易受到异常值的影响，IOR有助于缓解异常值。

4.5. Scalability with Data Quantity

4.5. 具有数据量的可扩展性

与标准逐点校准相反，使用视觉显著性进行校准是透明的，因此提供了一种以非侵入方式收集大量数据的方法。为了检验我们的方法的性能如何随数据量而变化，我们使用了10个会话中1、2、4和8个会话的数据来微调每个参与者的基线模型。与第4.3节类似，对选定会话的视频阶段的数据进行微调，并对所有10个会话的点阶段的数据进行测试。定量结果如表3所示。可以看出，估计误差随着训练数据的增加而减小。

a nonintrusive way.

一种非侵入性的方式。

4.6. Generated vs. Empirical Saliency

4.6. 生成显著性与经验显著性

在上述实验中，我们用于微调的显著性数据是由[10，31]使用商业眼睛跟踪器收集的。虽然这为我们提供了可靠的数据，但也限制了我们使用具有地面真相显著性的视频。能够使用任意视频将大大拓宽我们方法的适用性。在本实验中，我们探索了使用显著性预测算法生成用于视线估计的显著性图的潜力。具体来说，我们研究了两种最先进的显著性预测算法：SAM[9]，一种图像显著性预测算法；和ACL[49]，一种视频显著性预测算法。我们使用在2015年SALICON[20]数据集上训练的SAM的ResNet版本。ACL是在Hollywood-2[32]、UCF sports[32]和DHF1K[49]数据集上训练的。SAM和ACL模型都是公开的。我们在视频剪辑上独立运行SAM和ACL，以生成其显著性数据。我们将从眼睛跟踪器收集的显著性数据称为经验显著性数据。一些视频帧及其各自的显著性图的示例如图5所示。

对于每种类型的显著性数据，我们以与第4.4节和第4.5节相同的方式对基线模型进行个性化，其中，对于每个参与者，来自视频阶段的数据用于微调，来自点阶段的数据用于测试。本质上，网络看到的是相同的输入，但具有不同的损耗图标签。定量结果如表4所示。我们可以看到，在性能方面，经验>ACL>SAM。这与眼睛跟踪器的经验显著性比其生成的对应项更准确的 假设一致。此外，由于我们使用视频内容进行数据收集，因此使用基于视频的算法ACL的性能优于基于图像的算法SAM是有道理的。然而，使用三种显著性数据中的任何一种都比基线有明显改善。

This is consistent with the assumption that empirical saliency from eye trackers is more accurate than their generated counterpart.

这与眼睛跟踪器的经验显著性比生成的显著性更准确的假设是一致的。

5. Discussion

5、讨论

在本节中，我们讨论了使用显著性数据进行凝视校准的两个主要挑战。

我们的方法与传统凝视估计方法最大的区别之一是，我们没有精确的地面真实凝视标签。由于对用户的查看位置没有约束，因此存在输入图像与相关显著性图不一致的部分数据。这部分数据可能被解释为标签错误的数据，这将阻碍网络学习正确的参数。在本文中，我们尝试使用迭代异常值去除技术来解决这个问题。然而，我们认为，使用更复杂的方法过滤训练数据，使输入图像和显著性标签之间具有更高的相关性，以及选择具有更清晰显著性区域的视频类型（例如，运动）将进一步提高性能。

在视觉显著性研究中，中心偏移是一种众所周知的现象，其中感兴趣的对象更经常出现在场景中心附近[47，46]。图6显示了SAVAM和Coutrot数据库1的所有视频中经验和生成的显著性图的平均分布。这种不均匀性使预测偏向中心区域，从而导致边界处的较大误差。我们认为，未来工作的一个领域可以针对纠正或补偿这种偏差，例如，对训练数据进行采样，使其具有更均匀的分布，或使用空间加权损失。

This non-uniformity skews the prediction to favor the center region which results in larger errors at the boundaries.

这种不均匀性使预测偏向中心区域，从而导致边界处的较大误差。

directed at

针对

6. Conclusion

6、结论

在本文中，我们提出了SalGaze，一种利用视觉显著性信息进行视线估计的新框架。我们设计了一种算法，将显著性映射转换为可微损失映射，该算法非常适合基于CNN的模型的优化。SalGaze能够使用统一的框架将隐式视频校准数据与显式点校准数据相结合。我们的技术不需要用户的明确关注，并且可以在用户使用设备时在后台运行。缺乏约束可能会导致训练数据中出现异常值。我们表明，我们能够通过迭代异常值去除程序部分克服这个问题。我们的方法还可以收集大量凝视数据，这对于基于深度学习的算法至关重要。在使用SalGaze采用最先进的具有显著性信息的凝视估计算法后，我们显示了超过24%的准确性改进。

如果加约束呢？？？？？？？？？？？？

optimization

n. 最佳化，最优化

SalGaze：使用视觉显著性的个性化注视估计相关推荐

基于视觉显著性的外观注视估计
Appearance-based Gaze Estimation using Visual Saliency 基于视觉显著性的外观注视估计 Y usuke Sugano, Y asuyuki Mats ...
计算机视觉——图像视觉显著性检测
目录系列文章目录零.问题描述一.图像显著性检测 1.定义 2.难点二.常用评价标准和计算方法 1.综述 2.ROS曲线详述 2.1 混淆矩阵 2.2 ROC曲线简介 2.3 ROC曲线绘制及其 ...
高铁轮毂表面缺陷的＜视觉显著性＞超像素图像检测方法
内容:提出一种基于视觉显著性注意机制的超像素自适应检测方法: 设计视觉显著性注意机制滤波器用于粗略定位出缺陷空间范围,结合超像素分块图像分割方法消除光照不均匀引起的噪声干扰,有效地完成 ...
视觉显著性检测——PR曲线
最近在做关于视觉显著性相关的算法,视觉显著性检测的算法跟大多数依靠准确率(Precision)去衡量算法(例如人脸识别,是否识别正确)优劣有一些区别,它依靠的是PR曲线去判断哪个算法更胜一筹.因为我做 ...
视觉显著性发展与现状——本科毕业设计总结
视觉显著性发展与现状(一) --大四显著性研究总结一.Koch与Ullman的早期研究工作(1985) 实验室:http://www.klab.caltech.edu/ 研究方向:实验室属于计算机神 ...
计算机视觉关键技术论文,视觉显著性检测关键技术研究
作者姓名导师姓名文献出处论文摘要随着互联网技术和多媒体技术的飞速发展,数字媒体信息呈现出以几何级数增长的态势.海量的数字媒体为人们的娱乐.教育和商业带来便利的同时,也为视觉信息处理技术提出了新的挑战. ...
OpenCV注视估计Gaze Estimation的实例(附完整代码)
OpenCV注视估计Gaze Estimation的实例 OpenCV注视估计Gaze Estimation的实例 OpenCV注视估计Gaze Estimation的实例 #include < ...
视觉显著性 matlab,转载图像/视觉显著性检测技术发展情况梳理(Saliency Detection、Visual Attention）...
图像/视觉显著性检测技术发展情况梳理(Saliency Detection.Visual Attention) Sason@CSDN 转载:http://blog.csdn.net/anshan198 ...
基于视觉显著性的图像分割
这是本人写的基于视觉显著性的图像分割PPT 详细介绍了几种最经典的视觉显著图获取方法,并介绍了视觉显著性在图像分割上的应用. 截图放在这里,如果需要原版PPT的请移步https://download. ...

SalGaze：使用视觉显著性的个性化注视估计

SalGaze：使用视觉显著性的个性化注视估计相关推荐

最新文章

热门文章