In the Eye of the Beholder: A Survey of Models for Eyes and Gaze

第二篇EGT的论文阅读,同样是review性质的一篇论文
In the Eye of the Beholder: A Survey of Models for Eyes and Gaze
Dan Witzner Hansen, Member, IEEE, and Qiang Ji,Senior Member, IEEE
链接在这里(research gate)

摘要

本文综述了眼睛检测和视线追踪技术的发展现状,阐述了有发展价值的技术以及有待进一步解决的问题。本文详细回顾了最近的眼睛模型和眼睛检测和跟踪技术,调查了视线追踪的方法,并根据它们的几何特性和报告的精度进行了比较。这篇综述表明,尽管其表面上很简单,但一般的眼睛检测技术的发展涉及解决许多挑战,需要进一步的理论发展,因此对计算机视觉及其他领域的许多问题也很有意义。
本文的重点在眼睛检测和视线追踪上,EGT的主要流程如下图,眼睛检测和视线追踪毫无疑问是EGT的核心模块。

此外,未来EGT的发展目标应当是突破一下几项限制:红外线的限制;头戴式设备(前提是轻便);灵活度;校准的限制;价格;鲁棒性(佩戴眼镜等);对视线所表达的理解。

人眼检测

根据本文所述,目前主要的人眼检测方法有这几种:Shape-Based;Feature-Based Shape;Appearance-Based;Hybrid Models;Other Methods,这几种方法的特点如下表。

  • Shape-Based

基于形状的方法的分类取决于模型是简单的椭圆形还是更复杂的性质。形状模型通常由两部分组成:几何眼模型和相似性度量。需要注意的是,一般的EGT需要的是对瞳孔和虹膜的检测。
1. 椭圆模型
顾名思义,把瞳孔和虹膜在不同观察角度下都泛化成一个椭圆形,因此使用5个参数即可完成建模(x,y,z,a,b)。本文主要提到下面几种方法:
Kim、Ramakrishna和Perez等人:使用图像强度阈值估计瞳孔椭圆的中心。边缘检测技术用于提取边缘或瞳孔边界。由于效率的原因,通常采用圆形约束,因此模型仅适用于近正面,但运算量少。
Kothari和Mitchell:提出了一种投票方案,该方案使用时空信息来检测眼睛的位置。他们使用梯度场,知道沿虹膜边界的梯度从虹膜中心向外。启发式规则和大量的时间支持被用来过滤错误的瞳孔候选。Valenti和Gevers提出了类似的投票方案。他们的方法是基于强度图像中的等曲率,并在投票过程中直接使用边缘方向。由于这些模型依赖于特征空间中的最大值,当眼睛区域中的特征数量减少时,它们可能会将其他特征误认为眼睛(例如眉毛或眼角)。这些方法通常在受约束的搜索区域可用时使用。
Daugman:提出了一种不同的瞳孔和虹膜检测方法。该方法利用椭圆形状模型下梯度幅度曲线积分的优化。该模型不考虑轮廓邻域,因此可能忽略有用的信息。witzner和pece也将虹膜建模为椭圆,但椭圆通过EM和RANSAC优化方案局部拟合到图像中。他们提出了一个似然模型,将相邻信息合并到轮廓似然模型中,并且还避免了显式特征检测(如最强的灰度梯度和阈值)。
2. 复杂模型(可变轮廓模型)
复杂模型可以展现眼睛结构的更多细节,本文主要提到下面几种方法:
Yuille等人:使用两条抛物线和一个圆形来描述眼睛,因此需要11个参数。尽管能够描述更多的细节,但实验研究发现,在检测眼睛时,模型的初始位置至关重要,例如,当初始化眉毛上方的模板时,算法无法检测到眼睛。另一个问题在于模型的复杂性。此外,这种方法可能会难以处理眼睛遮挡的问题(因为眼睑闭合或头部姿势改变)。不过这种方法可以利用眼角来进行加速。如下图:

Ivins和Porrill:描述了一种在视频序列中跟踪虹膜三维运动的方法。提出了一种五参数可伸缩变形模型,将摄像机距离变化引起的平移、旋转、缩放和瞳孔收缩引起的局部缩放联系起来。这种方法需要高质量和高分辨率的图像。
Del Bimbo:提出了一个具有六个参数的眼形模型,这些变形参数由两个共享相同长轴的半椭圆组成。初步计算出左右眼位置和形状的粗略估计值。然后对模板进行优化,类似于Yuille等人的方法。将椭圆模型与复杂眼睛模型相结合,可以加快定位速度,提高定位精度。
复杂模型存在几个明显的缺陷:
1.计算要求,
2.可能需要高对比度图像,
3.通常需要近距离初始化才能成功本地化。对于较大的头部运动,它们需要其他方法来提供良好的初始化。
4.当使用红外线作为巩膜边界时,复杂模型可能会面临额外的问题,并且表面可能看起来很弱。
5.他们可能无法很好地处理面部姿势变化和眼睛遮挡问题。

  • Feature-Based Shape

顾名思义,该方法检测的是眼睛的特征,主要包括虹膜边界, 瞳孔(暗/明瞳孔图像), 角膜反射。与把眼睛整体建模的方法相比,基于特征的方法旨在识别对光照和视点变化不太敏感的眼睛和面部的信息性局部特征,也因此基于特征的方法在光照变化期间通常表现出良好的鲁棒性。该方法可以细分为如下几个方法。
1. 灰度特征
眼睛区域包含多个边界,可以通过图像灰度水平差异来检测这些边界。
Herperstatal:提出了一种检测局部特征的方法,例如边缘和线条、方向、长度和比例,并使用预先定义的形状模型来指导局部轮廓跟随。该方法首先定位一个特定的边缘,然后使用可操纵的Gabor滤波器跟踪虹膜的边缘或眼睛的角。
Waite和Vincent:提出了一个基于零件的模型,其中一个零件,如眼角或眼睑,被称为微观结构。他们提出了一种多层感知方法,通过在面部图像中定位眼睛来提取面部特征。
Bala等人:提出了一种混合的眼睛分类方法,通过使用进化算法来识别最佳特征子集(平均强度、拉普拉斯和熵)来描述眼睛。
Feng和Yuan:描述了一个由六个标志(眼角点)组成的眼睛模型。最初,眼睛标志物被定位并用于引导虹膜和眼睛边界的定位。这些方法假定眼睛是图像中的唯一对象。使用方差投影函数确定和验证精确的眼睛位置。因为使用了方差投影函数,该方法具有方向性和尺度不变性。但实验表明,如果眼睛被头发或脸部部分遮挡,这种方法就失败了。除了它受阴影和眼球运动的影响外,这种方法还可能会把眉毛误认为眼睛。
Kawato和Ohya:检测的不是眼睛特征,而是两个眼睛之间的区域。眼睛之间区域的左右部分(眼睛和眉毛)较暗,上部(前额)和下部(鼻梁)较亮。人们认为这一区域对大多数人来说是很常见的,在各种角度都易于观察,并且被认为比眼睛本身更稳定,更容易被发现。实验表明,当头发遮住前额或被试戴黑框眼镜时,该算法可能会失效。
2. 滤波器特征
滤波器能增强图像中的特定特征,同时抑制其他特征。如果适当地定义,则可以消除不相关的特征。图像中经过滤波后的像素值与滤波区域的相似性有关。因此,可以通过相似度值来提取图像中具有特定特征的区域。
Sirohey等人:使用线性和非线性过滤和人脸建模进行眼睛检测。用四个Gabor滤波器检测眼巩膜边缘。使用一个非线性滤波器检测左右眼角,以便确定眼睛区域,从而进一步分析。采用后处理步骤消除了伪眼角候选对象。采用投票法对虹膜边缘进行定位。由于虹膜的上部可能看不见,所以选票是通过将U形环形区域的边缘像素相加而累积的,U形环形区域的半径近似于虹膜的半径。获得最多票数的环空中心被选为环空中心。为了检测上眼睑的边缘,在眼睛区域检查所有边缘段,并将其拟合为三次多项式。实验表明,非线性滤波方法比传统的边缘线性滤波方法获得更好的检测率。高质量的图像对这种方法至关重要。
D’Orazio等人:将图像与用于梯度方向的圆形滤波器卷积。卷积的最大值提供图像中虹膜圆的候选中心。使用对称和距离的启发式规则来定位双眼。
3. 瞳孔检测
瞳孔往往是最暗的部分,因此可以选作特征,瞳孔和虹膜比周围环境更暗,如果对比度足够大,可以应用阈值来分辨。
Yang等人以及Stiefelhagen等人:引入了一种迭代阈值算法,通过使用肤色模型查找满足某些人体测量约束的两个暗区来定位瞳孔。他们的方法受到皮肤颜色模型结果的限制,并且会在眉毛和阴影等其他深色区域出现时失败。
Tian等人:提出一种通过双态模型(开/闭眼)跟踪眼睛并恢复眼睛参数的方法,以克服一般模型无法模拟开闭眼这一问题。该方法使用改进的Lucas Kanade跟踪算法对眼睛的内角和眼睑进行跟踪。虹膜的边缘和灰度用于使用Yuille等人的模型提取眼睛的形状信息。然而,该方法需要高对比度图像来检测和跟踪眼角,以获得良好的边缘图像。

  • Appearance-Based

    基于外观的方法直接检测和跟踪眼睛,基于眼睛及其周围环境的颜色分布或滤波器结果。这些方法独立于实际研究的对象,原则上可以模拟眼睛以外的其他对象。基于外观的方法通常需要在不同的人脸方向和不同的照明条件下,收集大量代表不同对象眼睛的训练数据。通训练得到的模型,可以构造分类器或回归模型。
    1. 灰度域
    Grauman等人:使用背景减法和拟人化的约束初始化基于相关性的跟踪器。
    Hallinan:使用了一个由两个强度相同的区域组成的模型。一个区域对应黑色虹膜区域,另一个区域对应巩膜的白色区域。他的方法构建了一个理想化的眼睛,并使用统计测量来解释眼睛模板的强度变化。
    Huang等人和Zhu等人:使用支持向量机检测眼睛。二次核的多项式具有最佳的泛化性能。
    Samaria和Young:采用随机建模,使用隐藏马尔可夫模型(HMMS)对正面面部信息进行整体编码。该方法假定正面的尺寸和位置标准化图像,进行粗略的眼睛定位,因此,需要进一步的处理来精确定位眼睛。子空间方法可以通过降维提高人眼的检测效率和精度。目前标准的图像模板特征分析(PCA)能够在低维空间中模拟训练数据的变化。
    Pentland等人:将本征面技术扩展到面部特征的描述和编码,每个特征称为本征面、本征面和本征口。眼睛检测是通过投射到低维本征叶空间的光学图像补丁来实现的。
    Huang和Mariani[102]:受雇于原发性瞳孔缩小术,在获得初始眼位后,虹膜的精确位置由一个均匀暗度的圆来确定。
    2. 滤波器相应
    基于外观的滤波器响应方法与基于特征的滤波器方法不同,它们直接使用响应值,而不选择要使用的特征。
    Huang和Wechsler[61]:提出了一种在径向基函数分类器中使用小波表示眼睛图像的方法。他们将眼睛检测视为二项分类。他们的实验表明,小波RBF分类器的性能比使用强度图像的分类器要好。经眼区检测,并结合轮廓和区域信息,可获得眼球中心和眼底的精确定位形态。
    Hallinan[44]所使用的理想化眼部特征本质上是HAAR特征。Viola和Jones人脸检测器[147]通过Adaboost学习用于人脸检测的最具辨别力的HAAR功能集。在前视Witznerandhansen[50]通过结合来自Glints(IR)和Viola和Jones类眼睛检测仪的信息来改进眼睛检测。Viola和Jones探测器的特点和选择程序简单直观。但是,功能选择过程在一个预先定义的功能池中使用暴力搜索,并且需要大量的时间和内存消耗。
    Fasel等人[35]:单独训练面部和眼部模特时使用GentleBoost。使用相同的基本似然比检测模型,他们首先在多个尺度上定位人脸,然后再定位眼睛。HAAR特征的主要优点是其计算效率。虽然HAAR特征易于计算,但其识别效率可能有限,特别是在级联的最后阶段。对于复杂的模式,单个弱分类器的数量可能很高。
    Wang等人[152],[153]:提出了一种基于图像斑块非参数判别分析和Adaboost训练的人眼检测递归非参数判别特征。该方法克服了使用HAAR特征的局限性。他们报告了良好的检测和瞳孔定位结果,识别特征数量减少。使用更复杂的特性是以降低运行时性能为代价的。

  • Hybrid Models

    混合方法旨在将不同眼睛模型的优点结合在一个系统中,以克服各自的缺点。
    1. 形状&灰度
    Xie等人[158],[159]:采用由多个子组件组成的先前形状模型的零件模型。首先通过阈值和二值搜索检测眼区,然后将其分为几个部分:整个眼区、代表巩膜的两个区域、整个虹膜以及虹膜的阻挡和未阻挡部分。
    Matsumoto 和Zelinsky [98]:使用二维图像模板来表示位于三维面部模型上的面部特征。虹膜的定位是通过环形霍夫变换。与三维模型关联的二维图像模板用于匹配。该方法的局限性在于需要建立个性化的模型。
    shikawa等人[67]和Witzner等人[46]:提出通过主动外观模型(AAM)将形状和外观模型结合起来的方法[17]。在这些模型中,形状和外观都被组合成一个生成模型。然后,根据所学的变形模型,通过改变参数,将模型拟合到图像上。由于AAM方法是基于线性分解的,因此这些模型也面临着建模眼睛外观变化的困难。
    Cristinace和Cootes:提出了改进的AAM模型[22]。它们对每个标志点使用局部外观(面片)模型,对空间关系使用全局形状约束。在低维子空间中,活动粒子数和它们的变量可到达两个形状和文本变量
    2. 颜色&形状
    眼睛区域的颜色分布与周围环境的颜色分布是完全不同的。尽管如此,眼睛的颜色模型很少受到关注。
    witzneretal[46]:将颜色模型用于平均偏移颜色跟踪器[16]用于粗比例跟踪,将灰度活动外观模型用于精确定位。尝试了一种基于颜色的活动外观模型,但并未提高整体精度。这种方法的局限性在于两个模型是分开的,并且活动的外观模型依赖于颜色跟踪器的结果。

  • Other Methods
    1. 红外线
    同我上一篇阅读的论文类似的,红外线采用的是类似照相时红眼的原理来分割瞳孔的,原理如图所示。

    Ji和Yang[69]:使用Kullback Leibler信息距离设置阈值。几何和时间准则用于过滤斑点候选。头部运动过大和过快会导致暗-亮瞳孔图像的差异较大。为了补偿这些影响,他们使用有限精度的超声波来改变用户的面部、后视镜和Pan-Tilt[134],[96],确保瞳孔在摄像机的视野范围内。
    Tomono等人[139],[34]:提出了使用三个CCD相机和两个不同波长的近红外光源的系统。此外,还利用滤波器对捕获到的信息进行极化控制。
    Amir等人建议硬件解决方案以确定快速眼瞳候选检测的要求[2]。
    Haro等人[53]:如图所示,同一受试者即使轻微的旋转头部也可能导致明亮的瞳孔强度变化。为了克服这些挑战,Haro等人结合眼睛外观、明亮的瞳孔效果和运动特征,提出瞳孔跟踪,以便将瞳孔与场景中其他同样明亮的物体区分开来。为此,他们使用传统的基于外观的匹配方法和眼睛的运动特征来验证瞳孔斑点。

    Zhu等:提出了一种在可变照明条件和人脸方向下实时、鲁棒的眼睛跟踪方法[169]。利用亮瞳效应和眼表(强度分布)进行眼睛检测和跟踪。基于视觉的瞳孔检测与跟踪采用支持向量机和均值漂移目标跟踪相结合的方法,结合明亮的瞳孔效应,使瞳孔能够在可变的头部位置和光照下被检测和跟踪。
    Witzner和Hammoud[49]:通过建立一个用于粒子过滤器的可能性模型。他们提出(通过平均偏移或直接)在构建强度分布之前计算图像各部分的权值,以保持某些空间位置,同时保持空间变化的灵活性。
    Droege等人[27]:比较了几种暗瞳孔检测算法在相对稳定的室内条件下的精度。
    2. 对称法
    对称法在人眼检测和跟踪中的应用受限于进行特征选择时的阈值选取,以及时间复杂性。
    Loy和Zelinsky[93]:没有确定每个像素对其邻域像素对称性的贡献,而是通过考虑局部邻域对中心像素的贡献,提出了快速径向对称变换,该方法的时间复杂度较低。
    Gofman和Kiryati[40]提出了一种全局优化方法,类似于使用二维Gabor分解检测局部反射对称性的进化算法。
    3. 眨眼和眼球移动
    眨眼和眼球运动是不可避免的,因此可以作为检测眼睛的特征。
    Bala等人[5]:通过分析面部区域中连续图像之间的亮度差异,基于背景减法和皮肤颜色信息的组合提取面部区域,以提取眨眼。在眼区成功定位后,在每个眼区内搜索一个黑圆状区域(瞳孔)。然后将瞳孔的中心作为眼型的中心,并存储以进行下一次匹配过程。Crowley和Berard[23]也提出了类似的工作。
    Kawato和Tetsutani[77]使用眨眼来初始化眼睛之间的模板。他们的方法使用连续图像之间的差异,将眼睑运动与头部运动区分开来,以便即使在头部移动时也能检测到眨眼。

视线追踪

视线追踪的方法分为Feature-Based以及Other Methods。其中各个方法在相机、光源、估计的视线信息、精度、额外设备等各方面均有较大区别,如下图所示。

  • Feature-Based

利用提取的局部特征(如轮廓、眼角和眼睛图像的反射)进行眼睛估计的方法称为基于特征的方法。使用基于特征的方法的主要原因是,瞳孔和glint相对容易找到,并且这些特征与注视方向相关。
1. 2D Regression-Based Gaze Estimation
2D回归直接得到用户在屏幕上的时间(PoR)。
Merchant等人[99]:提出了一种基于视频的实时眼睛跟踪器,只使用一台相机,利用红外线构造暗光瞳孔图像。并使用了镜子和电流计的来允许头部运动。把pupil-glint向量通过线性映射来映射到视点上(PoR),并注意到pupil-glint角度过大时会出现非线性情况。他们用多项式回归来补偿这种非线性。
Morimoto等人[103]还使用了一台相机,分别对x和y方向使用了一个二阶多项式来表示pupil-glint向量矢量到PoR的直接映射。但是校准映射会随着头部离开其原始位置而衰减[104]。Stampe[131]描述了一种类似的方法,但没有使用glint的信息。他提出了多项式函数来建模表示瞳孔中心之间的相关性。
White等人[156]假设角膜表面平坦,并采用与Morimoto、Merchant等人类似的方法,提出一种多项式回归法来估算POR。在这些基础上,他们使用一阶线性回归来解释由头部横向运动引起的注视不精确。在校正过程中,利用空间对称性估计了四个用于不同头部位置的映射。他们还通过使用另一个红外光源创建第二个glint,以精确定位头部位置。利用两个光源作为参考点,利用空间对称性,可以在头部移动时校准。他们提到,在实践中,高阶多项式函数不能提供更好的校准,并认为视线估计可以独立于眼睛旋转和头部平移来完成——这一事实后来被普遍化并证明是正确的[43],[128]。
Zhu[70]提出了一种基于广义回归神经网络的方法,其中利用瞳孔参数、pupil-glint向量、瞳孔椭圆长轴和短轴的方向和比率以及glint坐标来得到屏幕坐标(PoR)。该方法的目的和优点是在初始训练后无需校准。这种方法只能适度地改善头部运动。据报道,该方法在处理头部运动的同时仍能产生大约5度的精度。
Witzner等人[45],[46]使用高斯过程插值,利用训练数据和新输入的协方差,作为视线预测偏离校准数据输入(例如头部移动)时的指示器,并进行预测。
Kolakowski和Pelz提出了一套启发式规则来调整头部安装件的轻微滑动[83]。使用单个相机,二维回归方法间接地模拟光学特性、几何结构和眼睛生理,因此可以将其视为近似模型,这无法严格保证头部姿势不变性。但它们易于实现,不需要摄像机或几何校准,并且在头部移动较小的情况下仍然可以提供良好的结果。
Zhu和Ji介绍了一种基于二维回归的方法[170],该方法使用两个摄像头来估计3D头部位置。他们使用3D眼睛位置来修改回归函数来补偿头部运动的影响。然而,与其他回归方法不同,该方法[170]需要预先对摄像机进行立体校准。
2. 3D Model-Based Gaze Estimation
a) 单相机单光源
单相机单光源存在的问题是难以处理头部运动。
Ohno等人[115]描述了一种基于模型的方法,该方法使用一个经过校准的摄像头和一个glint。他们使用角膜曲率的平均值、瞳孔中心到角膜中心的距离以及恒定的折射率(1.336)来估计视线。后来,Ohno认为,使用两个光源和一个摄像头,个人校准可以减少到两个固定点[114]。Shih等人[128]证明使用一个glint和瞳孔中心不能对变化的头部位置进行视线估计。
Guestrin和Eizenman[43]对校准系统的这些结果进行了概括,表明只要给定眼睛和摄像头之间的距离或保持头部固定,就可以确定注视方向。
Villanueva和Cabeza[146]表明,在完全校准的设置中,瞳孔的椭圆信息(忽略折射)可用于减少光源的数量,并且可以保持头部位置不变性。
b) 单相机多光源
添加光源与以前的方法相比只是一小步,但事实证明,这是获得头部姿势不变性的巨大飞跃。
Shih等人[128]和Guestrin和Eizenman[43]表明,使用两个或多个光源和已知的角膜曲率,可以在完全校准的设置中估计角膜中心和凝视方向。事实上,当使用两个光源时,只需要一个校准点来估计角膜曲率、角膜中心和视觉轴。
Yoo和Chung[164]描述了一种方法,该方法能够通过利用射影中四个点(光源)的交叉比,仅基于光源位置信息(例如,无摄像机校准)来确定视点。但使用时必须保证四个glint都出现,这对头部运动同样是一种限制。
coutino和morimoto[20]通过使用LoS-LoG offset作为学习恒定屏幕偏移量的参数,扩展了yoo和chung[164]的模型。在此基础上,他们还认为只使用一个校准点能构建出更简单的模型,而不像Yoo和Chung所说的四个。
c) 多相机多光源
Tomono等人[139]构建由三个摄像头、两个光源和镜子组成的系统。即使系统进行了立体建模,他们也仍然使用简化的人脸模型(而不是眼睛中心的模型)和眼睛模型来估计LoS。
Beymer和Flickner构建了一个3D眼睛建模系统,并用四个摄像头来估计LoS:两个立体广角摄像头和两个立体窄视场摄像头[8],外加一个单独的立体系统被用来检测3D中的人脸,并引导检流计电机给窄视场摄像机定位。他们使用暗-亮瞳孔原理,但不利用有关光源的信息。
Brolly和Mulligan[11]使用镜面检流计系统对快速的头部运动进行跟踪,但仅限于使用单个窄视场相机。他们提出多项式回归模型,而不是通过3D坐标显式地建模眼睛和映射。这种方法与Beymer和Flickner精度接近。
Talmi和Liu[135]将用于面部建模的立体系统与用于详细眼部图像的云台相结合[135]。Ohno和Mukawa使用三个摄像头、两个固定立体广角摄像头和一个安装在云台上的窄角摄像头[113]。它们的主要结论是需要两个校准点来估计LoS。
Noureddin等人[112]使用双摄像头,其中固定的广角摄像头使用旋转镜来指导窄角度摄像头的方向。它们表明,与云台倾斜设置相比,旋转镜加快了采集速度。

  • Other Methods
    1. Appearance-Based Methods
    与眼睛的Appearance-Based模型类似,本方法并没有明确地提取特征,而是将图像内容作为输入,目的是将这些内容直接映射到屏幕坐标(PoR)。本方法必须从图像中推断几何图形和相关特征,因此,往往需要大量的校准点。需要注意,虽然本方法隐式建模几何体,但并不能说其满足了头部姿势不变性。
    Tan等人利用局部线性嵌入学习人眼图像流形[136]。与Baluja和Pomerleau[6]相比,它们使用的校准点数量明显更少,同时提高了精度。
    Williams等人[157]对过滤的可见光谱图像使用稀疏高斯过程插值方法,从而获得注视预测和相关误差测量。
    2. Natural Light Methods
    可见光由于其特性,更适合室外使用。
    Colombo和Delbimbo[15]将用户眼球的可见部分建模为平面,并将由于眼球旋转引起的任何视线的移动视为人脸平面上瞳孔的平移。
    Witzner 和 Pece [47]将PoR建模为从虹膜中心到摄像头的同形映射。
    Newman等人[109]和Wang&sung[150],[151]提出了两种采用立体和人脸模型来估计视线方向的独立系统。Newman等人[109]将眼睛建模为球体,并通过交叉每只眼睛估计得到的视线来估计观察点。眼球中心由头部姿势模型估计。也采用个人校准。Wang和Sung[150],[151]还将人脸姿态估计系统与窄视场摄像机结合,分别计算两个虹膜[150]和单个虹膜[151]的视线。
    Matsumoto等人[97]使用立体摄像机。这些方法在没有红外线灯的情况下工作,但精度较低(约5度);然而,它们正处于开发的早期阶段,因此在广泛的场景中仍有应用前景。
    3. Dual Purkinje
    一个光源可能会由于眼睛不同层次的反射而产生几个glint[21],[108]。当眼睛进行平移时,第一和第四反射(见图)同时移动,但在旋转过程中,反射的间隔会发生变化。这种距离提供了眼睛角度方向的测量。方法利用这些反射(Purkinje图像)之间的差异称为Dual Purkinje方法。Dual Purkinje技术的精度一般较高,但由于第四幅Purkinje图像较弱,因此需要严格控制光照条件。

总结

  • 本篇论文是最新的一片论文,也是内容整理起来最多的论文,由于本科知识水平的限制以及时间限制,文章中提到的很多方法都无法进行深入研究,只能够粗略带过,留个印象、日后需要再来查阅。
  • 本片论文与上一篇阅读的论文相比花费了大量篇幅在眼睛定位上,这一部分根据我的理界应该是对数字图像处理和建模的要求较高,数字图像处理这一部分我在本科课程中没有修读,下学期若有时间可以看看。
  • 视线追踪这一部分与上一篇论文相通的地方就很多了,首先是英文单词熟悉了,其次是比如glint,Purkinje等概念也熟悉了,省下了不少功夫,基本可以不用翻译软件就能看下来。
  • 结合我在本科做的项目,眼睛定位和视线追踪两项技术都确实存在文中所说的问题,仍有进步空间,我们当初眼睛定位调用的api也存在佩戴眼镜时抓取不到脸,头部移动时、光照不均匀时脸抓歪的问题(不过可以用Gamma变换优化),视线追踪更甚。
  • 不过本论文是2010年的论文,10-19年这段时间想必技术的增长比10年前多多了吧。。。尚需努力啊我。

论文阅读:In the Eye of the Beholder: A Survey of Models for Eyes and Gaze相关推荐

  1. 【论文阅读】 Object Detection in 20 Years: A Survey

    [论文阅读]Object Detection in 20 Years: A Survey 摘要 论文介绍 1.目标检测 2.目标检测的里程碑 3.数据集 4.性能度量 摘要 本篇博客参考Object ...

  2. prompt综述论文阅读:Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural La

    prompt综述论文阅读:Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Lan ...

  3. 论文阅读——椭圆检测 2016 Robust ellipse detection with Gaussian mixture models

    这篇文章是16年发表的椭圆检测文章,论文题目为:<Robust ellipse detection with Gaussian mixture models>,发表在<Pattern ...

  4. 【论文阅读】(2020)Knapsack polytopes: a survey(上)

    文章目录 一.Abstract 摘要 二.Introduction 介绍 三.General polyhedral structure 一般多面体结构 3.1 Basic properties 基本性 ...

  5. [论文阅读笔记31]UER: An Open-Source Toolkit for Pre-training Models

    题目 UER: An Open-Source Toolkit for Pre-training Models 单位: School of Information and DEKE, MOE, Renm ...

  6. 论文阅读:预训练模型:过去,现在和未来 Pre-Trained Models: Past, Present and Future(上)

    文章目录 摘要: 一.简介 二.Background 2.1 Transfer Learning and Supervised Pre-Training 2.2 Self-Supervised Lea ...

  7. 对抗训练-smart 论文阅读笔记

    对抗训练-smart 论文阅读笔记 SMART: Robust and Efficient Fine-Tuning for Pre-trained NaturalLanguage Models thr ...

  8. 3D目标检测论文阅读摘要

    3D目标检测论文阅读摘要 2D Object Detection 的研究已经非常成熟了,代表作品有RPN系列的FasterRCNN,One Shot系列的YOLOv1-YOLOv3,这里推荐一个2D ...

  9. DCP(Deep Closest Point)论文阅读笔记以及详析

    DCP论文阅读笔记 前言 本文中图片仓库位于github,所以如果阅读的时候发现图片加载困难.建议挂个梯子. 作者博客:https://codefmeister.github.io/ 转载前请联系作者 ...

最新文章

  1. [A Dangerous Maze LightOJ - 1027 ][概率题]
  2. python3 value查key的三种方法
  3. 蓝桥杯java第八届第六题--最大公共子串
  4. while listening lectures
  5. java 不存在就创建,java怎么实现判断文件是否存在,不存在就创建的方法
  6. 蓝桥杯 PREV-54 历届试题 合根植物
  7. linux自动切换tty,Linux 中不适用功能键切换TTY
  8. UNIX Shell 编程(5)
  9. mysql实现停车场管理系统完整代码实现_基于微信小程序的停车场管理系统毕业论文+开题报告+前后台(Java+Mysql)源码及数据库文件...
  10. 极乐净土—官方中文版 单曲循环洗脑三天了φ(ω*)
  11. _itemmod_extract_enchant
  12. 领导力21法则-- 要点总结
  13. 淘宝卖家如何有效控制直通车展现?
  14. 《深入理解计算机系统》——低谷中的重新振作
  15. 【教程】应用侧连接华为云IoT平台
  16. 博客变味:从一方净土沦落为企业枪手
  17. 笔记神器-Obsidian快速使用入门教程
  18. 算法设计与分析——算法学基础(三):渐进记号
  19. mysql 列转行union all_sql:mysql:列转行(转为多个字段)
  20. 微信小程序之知乎日报

热门文章

  1. 中兴通讯2015笔试应用题
  2. 苦尽甘来 一个月学通JavaWeb(三十五 数据库)
  3. 外汇平台正规排行榜 Flyerinternational稳居前三
  4. Shark007 Advanced Codecs 11.8.5版本更新
  5. LabVIEW感兴趣区域分析(实战篇—1)
  6. 《提问的艺术》读后感
  7. 图网络embeding transE及node2vec方法
  8. matlab——对图形局部区域上色
  9. 基于C#的工控上位机软件开发从入门到学废,需要几步?
  10. 计算机二级大题知识点汇总,计算机二级Excel考点与做题技巧汇总。