近几十年来,眼动追踪已广泛用于视觉研究,语言和可用性。但是,大多数先前的研究都集中在使用专门的眼动仪的大型台式显示器上,这种显示器价格昂贵并且无法扩展。尽管手机的眼动行为无处不在且花费了大量时间,但人们对其知之甚少。本研究利用机器学习来演示基于智能手机的准确眼动跟踪,而无需任何其他硬件。本文证明了该方法的准确性可以与最先进的移动眼动仪相媲美,后者的价格要贵100倍。利用来自100多个参与用户的数据,本文复制了以前的眼动研究中有关动眼任务和自然图像查看过程中的眼动事件分析的主要发现。此外,演示了基于智能手机的凝视在检测阅读理解难度中的实用性。研究结果显示了将眼动研究按数量级扩展到成千上万名参与者(明确同意)的潜力,从而在视觉研究,可及性和医疗保健领域取得进步。本文发表在NATURE COMMUNICATIONS杂志。思影曾做过多期眼动相关读文,可结合观看增加对眼动研究的理解(直接点击即可浏览):

在注视之外:对于认知和认知发展研究,眼动追踪还能揭示什么

注视眼动的控制和功能

PNAS:眼动证据支持行为的“模式完成”理论

意志性眼动控制与ADHD的关系:一项来自双生子的研究

面孔的神经表征与眼动模式相协调

眼动研究模型:近似数估计中连续的中央凹累加

眼动研究:阿尔茨海默病及轻度认知障碍所致痴呆患者的异常眼跳

眼动研究:先验知识对年轻人和老年人主动视觉和记忆的影响

Neurology:眼动对多发性硬化患者核间性眼肌麻痹的诊断及量化研究

PNAS:视觉工作记忆对瞳孔反应的调节模式

工作记忆中多重神经活动表征可并发存储

PNAS:瞳孔模仿通过心理理论网络促进信任

眼动研究: 经验驱动型注意力的分离成分

研究背景:

当我们在日常生活中穿越丰富而复杂的环境时,视网膜被大量〜1010bits / s的视觉信息轰炸。选择性注意是我们的大脑选择并专注于一些重要的场景区域以进行认知和视觉处理的机制。人眼平均每秒移动3–4次,并在暂停中从那些重要的场景区域中采样信息。因此,眼球运动提供了一种直接的方法来衡量外显的空间注意力,并且有人认为眼球运动可以提供进入大脑和心灵的窗口。了解眼睛的运动一直是研究注意力和大脑视觉处理的核心,包括重点领域,例如视觉搜索,场景感知和阅读等。

除了基础视觉研究之外,更广泛的研究团体也对眼球运动感兴趣,其应用范围从视觉内容分析的显著性模型、设计评估、可用性和消费者行为研究、动机、游戏、基于凝视的可达性交互到医学研究。这种被称为眼球追踪的基本方法已经被用作测量眼球运动的可靠方法应用几十年了。尽管眼动追踪有许多好处,但是研究和应用受到眼动仪的高成本以及由于使用专用硬件(例如,红外光源、多个高时空分辨率红外照相机)而无法规模化的限制。有一些更便宜的适用桌面的眼动追踪解决方案,但不适用于移动屏幕。此外,对于小型智能手机显示器上的眼球运动行为知之甚少,因为大多数先前的研究都集中在大型桌面显示器上。最近的估计显示,全球超过28亿智能手机用户,美国人在移动设备上消费内容的时间是台式机/笔记本电脑的近两倍(印度增加到3倍,中国增加到6倍),超过了观看电视的时间。鉴于智能手机上的精确且经济实惠的眼睛跟踪功能的普及性,它可以提供数量级的规模提升和跨不同人群的洞察,并释放其在视觉研究、可获取性和医疗保健领域的应用,从而使眼动研究取得重大进展。

最近的机器学习方法已经显示出在智能手机和笔记本电脑上使用现有的前置摄像头(自拍摄像头)进行眼动跟踪的前景。然而,对于严格的眼动研究来说,它们的准确性太低了(与0.5–1∘视角的专业眼动仪相比,智能手机为2.56–3∘,笔记本电脑为2.44–3∘)。因此,本文的目的是探索如何使用一个深度学习模型来提升手机设备对眼动行为分析的准确性。

方法

模型

本文使用了类似于先前工作的多层前馈卷积神经网络(ConvNet)。使用基于MobileNets的面部检测器和SSD检测器提取每个图像的面部特征(面部边界框,六个标记)。该基础模型在MIT GazeCapture数据集上进行了训练。根据眼角界标裁剪眼睛区域,缩放到128×128×3像素,并通过两个相同的ConvNet卷积过程,每只眼睛一个。每个由第一,第二和第三层的三个卷积层组成,内核大小分别为7×7、5×5和3×3。这三层分别具有32、64和128个输出通道。前两个内核的步幅为2,最后一个内核的步幅为1。使用ReLUs作为激活函数。每个卷积层后都有一个平均大小为2×2的合并池化层。将左眼矩阵水平翻转以允许两个Convnet之间共享权值,从而简化训练。内眼角和外眼角界标(4×2浮点数)通过三个连续的全连接层发送,并通过两个附加的全连接层与两个塔的输出组合。1-5层的隐藏单元数分别为128、16、16、8和4。回归头在手机屏幕上输出注视的x和y位置的两个数字。补充材料中提供了其他详细信息。

补充材料图11  本研究使用的深度学习模型的示意图

通过添加微调和每个参与者的个性化设置,提高了模型的准确性。在约30s的时间内记录了校准数据(请参阅下一段),从而产生了约1000个输入/目标对。使用来自所有用户的校准数据对上述基本模型进行了微调。在微调期间,允许更新预训练基础模型的所有层权重,直到模型收敛为止。随后,由凝视预测器处理特征图像,并将轻量级回归模型拟合到微调模型的倒数第二ReLU层的输出,以生成x和y屏幕坐标(或凝视估计),以最大程度地减少与目标的偏差(平面真实注视)。本研究为轻量模型选择了支持向量回归(SVR)。在推理过程中,将预训练的基本模型和回归模型依次应用于图像以生成最终的个性化凝视估计。通过计算来自校准任务(平面真实)的刺激位置与估计的注视位置之间的厘米误差,评估了所有参与者的模型准确性。

对于校准任务,要求参与者注视出现在黑屏上的绿色圆形刺激。对于点校准,通过每300 ms一次在18至50个独立于密度的像素(dp)之间的大小进行跳动,可以改善刺激的可见性。对于锯齿形校准,点以锯齿形方式从左上角缓慢移动到右下角,持续60 s。来自前置摄像头的图像以30 Hz记录,并且时间戳与标记位置同步。

在本研究的所有参与者中评估了个性化模型的模型准确性,总计超过100名参与者。将来自校准任务的刺激位置与估计的注视位置进行比较,以获取以厘米为单位的误差,并在参与者的设备屏幕上(在25至40厘米的观察距离范围内)产生0.46厘米的平均模型误差。

数据收集和分析

外部参与者是从一组通过Google用户体验研究门户网站注册的用户研究志愿者中招募的。每位参与者都阅读并签署了一项针对研究的参与者协议,以明确和知情的方式同意数据收集,该协议告知他们有关收集前置摄像头供研究分析之用的信息,以及在几分钟内执行凝视任务所涉及的潜在风险(例如眼睛疲劳,疲劳)。即使参与者未完成任务,他们会获得时间上的金钱补偿,并保留随时删除其数据的选项。研究的长度设计为小于45分钟,并在实验室环境中进行。主试提供了指示,并一直在场。所有研究和数据收集均符合Google隐私,法律和道德政策。作者申明,人类研究参与者为图2中图像的发布提供了知情同意。数据是使用自定义Android应用程序收集的。该应用程序主要用于两个目的:(1)在屏幕上显示刺激以及任务指导语;(2)捕获并存储前置摄像头记录,以及用户在屏幕上的单击/滚动/触摸交互。筛选的顺序和内容是针对特定研究且预先确定的。所有研究均使用手机以纵向模式进行。尽管该模型轻巧到可以在设备上运行以进行实时读数,以允许在同一输入(面部图像)上灵活比较多个模型,但当前的实现方式主要将手机用于刺激显示和记录前置摄像头反馈,而处理和读数则离线进行。

根据任务的不同,刺激出现在屏幕上的随机位置(点校准),或者以圆形,矩形或锯齿形从左上角到右下角在屏幕上平滑移动(平滑跟踪)。对于所有研究,从研究手机中提取原始凝视图像和眼动事件,以获得个性化的凝视估计,并丢弃校准数据集上误差> 1 cm的参与者。

眼动根据眼动的速度进行分类,扫视和注视由速度阈值(22°s-1)确定,类似于先前的工作中描述的方法。

研究1:与专业的移动眼动仪进行比较

这项研究是由来自旧金山湾区的30名参与者进行的,他们年龄在18岁及以上,其中65%的人为男性,其他人均为女性。这项研究是使用Tobii Glasses Pro 2和Pixel 2 XL手机进行的。测试与点和锯齿形校准任务相同。对于点任务,在1分钟内显示了41个点的序列,而锯齿形任务持续了60 s。任务执行了四次:使用Tobii眼镜与不戴眼镜,以及手持电话与安装在设备支架上。与Tobii Glasses一起使用的Tobii Pro Lab软件在开始时需要进行单点校准。然后,该软件将估计的视线方向映射到设备面向世界的摄像头捕获的场景中的对象。在实践中,通常需要手动干预才能实现手机屏幕的正确映射。为了提高方法的鲁棒性,在显示屏的四个角添加了AprilTags63形式的基准。将生成的背景快照导入到Tobii软件中进行自动映射。自动映射完全失败(n = 9)的参与者被丢弃。此外,使用Tobii误差> 1 cm(n = 4)的参与者也被丢弃比较(这些参与者的结果,请参见补充图3)。清理数据后,模型数据集包含26位参与者,Tobii数据包含13位参与者,将其用于与我们的模型之间的比较。

为了使眼睛专注于刺激(存在扫视潜伏期),每个刺激开始后捕获的最初800 ms帧都将被丢弃。基于锯齿形校准任务执行个性化设置。对于每个点刺激,计算该刺激在所有帧上的中位凝视估计。对于Tobii,会在手机屏幕上记录自动映射的凝视估计。最终超出屏幕区域的凝视估计被捕捉到最近的有效屏幕位置。每个点位置的估计值也经过中值滤波。

Tobii Pro Glasses眼镜以50 Hz的速率捕获图像,而Pixel 2 XL手机以30 Hz的速率记录图像。通过为41个点中的每个点提供单个汇总估算值,并通过比较刺激位置(平面真实情况)和估算的视线之间的欧几里德距离(来自Tobii与我们的模型),使两者具有可比性。

研究2:动眼任务

这项研究是由来自旧金山湾区的30名年龄在18至55岁的参与者进行的,性别在男女之间均分。清理数据后,数据集包含22位参与者以进行后续分析。动眼测试包括前扫视,平稳跟踪和视觉搜索任务。任务被划分为六个块,每个块3–5分钟长,每个块之间休息1分钟。参与者在研究开始时完成了一点校准任务,每个块一次。

对于每次前扫视重复测试,要求参与者首先将焦点放在屏幕中央的十字形黄色标记(大小为168像素)上。然后将标记物替换为绿色的圆形标记物,即视觉刺激。在整个水平和垂直屏幕区域中均匀采样了刺激的位置。为了增加可见性,中心标记和刺激都在不同大小上(在60和168像素之间)变化三次,总持续时间为1000毫秒。指示参与者在刺激出现后立即将视线移向刺激。参与者在每个子块进行了10次试验,在完成任务的过程中进行了3个子块。

对于平稳跟踪测试,向参与者展示了绿色圆形刺激,类似于前扫视测试,但这次没有跳动变化,而是沿着预定路径在屏幕上移动。该路径是圆形的,绕屏幕中心顺时针旋转,以靠近屏幕右边缘的圆的最右点开始和结束,偏心率为〜7∘。同样适用于平滑追踪任务。参加者总共进行了三项试验。

视觉搜索任务以两种方式执行,一种是强度,一种是物体方向。对于前者,在空白屏幕上向参与者显示了一组圆圈。其中一个圆圈以相同的颜色显示,但颜色强度与其他圆圈不同。对于后者,显示了一组形状,一个形状与其余形状不同。在这两种情况下,都要求参与者用手指点击发散对象的屏幕位置。有关详细信息,请参见补充讨论。

对于前扫视和平稳的跟踪任务,将估计的凝视位置与刺激位置(平面真相)实时同步,并用于后续数据分析(例如,计算误差,扫视潜伏期)。对于每个视觉搜索任务,我计算了注视次数和在显示中找到目标所花费的总注视持续时间。

 

研究3:视觉显著性

这项研究由来自纽约市的37名参与者进行。清理数据后,数据集包含32位参与者以进行后续分析。

这项研究包括三个任务:校准,自由观看图像以及对图像中预定对象进行视觉搜索。图像按多个块顺序显示,每个块以校准任务结束,以提高对随时间变化的凝视的鲁棒性。为了防止疲劳,块之间要间隔60秒。手机被安装在参与者面前的架子上。为了进行校准,要求参与者完成矩形平滑追踪,锯齿形平滑追踪和随机点任务。

使用OSIE数据集中的700张自然室内和室外场景图像。向每个参与者随机显示350张图像,每张图像3 s,图像之间被1 s的空白屏幕隔开。最终数据集每个图像平均有16位参与者。

从标记的OSIE数据集中选择了一百二十张图像用于视觉搜索任务。在每个试验中,参与者都看到目标物体的标签(“人”,“狗”,“笔记本电脑”,“电话”,“汽车”,“球”,“勺子”,“刀”,“船”和“帽子”),然后是包含该对象的图像。他们被要求在图像中找到对象并点击其在屏幕上的位置。向每个用户展示了十个块的六个图像。

然后用双边过滤器(过滤器宽度为100毫秒,像素为200像素)平滑原始视线。使用简单的速度过滤器提取注视点,使用的速度阈值为22。s-1,最小注视时间为100毫秒。我们通过将注视位置四舍五入到最接近的像素来获得注视图。通过应用大小为24像素的高斯滤镜以匹配OSIE研究使用的滤镜尺寸来创建显著性地图(这里的显著性即是指通过眼动数据来探测视觉目标物的能力,能够从对整幅图形的眼动数据的分析中明确提取出目标物如“人”或者“勺子”等)。

 

研究4:阅读理解

来自旧金山湾区的23名参与者(年龄在18-54岁之间)参加了这项研究。百分之七十八的参与者自称为母语者,其他人英语流利。百分之七十四为男性,其他为女性。所有参与者报告至少掌握了高中计算机科学知识。

清理数据后,数据集包含17位参与者以进行后续分析。该研究包括校准和十项阅读理解任务,其中五项测试普通英语阅读(类似于SAT的文章),五项测试阅读计算机科学的文章,其中涉及解释技术概念的文档,并插有代码段。每个任务后都有两个阅读理解题,一个事实题和一个解释题。事实性问题的答案可以直接在段落中找到,而解释性问题需要从段落中推断出才能正确回答。在阅读任务之间,参与者完成了一个点校准任务,然后进行锯齿形形平滑跟踪。

使用校准任务获得个性化的凝视估计(类似于研究1)。阅读任务涉及滚动。为了解决屏幕内容的更改,视觉信息与凝视估计值进行了时间同步,以计算页面级坐标上的凝视。这样就可以进行后续分析,包括通过汇总来自多个参与者的凝视估计值来生成整个段落的凝视热图。

如果您对眼动及心理,认知相关数据处理感兴趣,欢迎浏览思影科技课程及服务可添加微信号siyingyxf18983979082详细了解):

第八届眼动数据处理班(重庆,10.26-30)

第二十三届脑电数据处理中级班(重庆,12.16-21)

第十一届脑电数据处理入门班(重庆,1.7-12)

第十届近红外脑功能数据处理班(重庆,12.23-28)

第二十二届脑电数据处理中级班(南京,11.12-17)

第七届脑电信号数据处理提高班(南京,11.18-23)

第十届脑电数据处理入门班(南京,12.1-6)

第一届MNE-Python脑电数据处理班(南京,12.7-12)

第七届任务态fMRI专题班(重庆,1.14-19)

思影科技EEG/ERP数据处理业务

思影科技脑电机器学习数据处理业务

思影数据处理服务五:近红外脑功能数据处理

思影科技眼动数据处理服务

BIOSEMI脑电系统介绍

目镜式功能磁共振刺激系统介绍

道德考量

Google的AI原则是发布此出版物的主要考虑因素。这项技术的主要目的是通过增加视线技术的普及性来推动社会利益,并推动基于视觉的应用程序的突破,以使产品更易于使用并推动医疗保健的发展。对于那些选择进行这项研究或将其发现用于新的应用的人,应考虑确保机器学习模型中来自不同人群的足够代表,并确保有足够的方法获得用户的知情同意。

报告摘要

有关研究设计的更多信息,请参见与本文链接的《自然研究报告摘要》。

数据可用性

研究的凝视估计值(屏幕上推断的x和y位置)可根据合理要求从通讯作者[V.N.]获得。为了保护研究参与者的隐私和同意,捕获的全脸图像数据不可公开获得。本文的报告摘要可从补充信息文件获得。本文提供了源数据。

代码可用性

利用开源机器学习框架TensorFlow和scikit-learn进行了实验。由于实验系统的许多方面(例如数据生成和模型训练)对内部工具,基础结构和硬件都有大量依赖性,因此我们无法公开发布此代码。但是,“方法”和补充信息中提供了所有实验和实现的详细信息(包括数据扩充,模型体系结构和超参数),以允许独立复制。另外,对通讯作者[V.N.]的合理要求下,可将基本模型训练后的神经网络的二进制文件用于学术目的。

结果

模型精度

训练了一个多层前馈卷积神经网络(ConvNet)。该模型将智能手机前置摄像头截取到眼部的RGB图像作为输入,并应用三层卷积提取凝视特征。这些特征在附加层中与自动提取的眼角界标相结合,该角界标指示图像内的眼睛位置,用于最终的屏幕上的凝视估计。该基础模型首先使用公开可用的GazeCapture数据集进行训练,然后使用校准数据进行微调,并通过将附加回归模型(详见“方法”部分)拟合到ConvNet的凝视特征输出进行个性化调整,如下所述。

在校准过程中,参与者被要求注视出现在黑屏上的绿色圆形刺激。刺激出现在屏幕上的随机位置。来自前置摄像头的图像以30赫兹记录,时间戳与标记位置同步。在机器学习中,图像和标记位置分别作为输入和目标。在推断过程中,摄像机图像被依次馈送到微调的基础模型,其倒数第二层作为回归模型的输入,以获得最终的个性化凝视估计。通过计算来自校准任务的刺激位置和估计凝视位置之间的厘米误差,对所有参与者的模型准确性进行评估。

为了测试个性化参数调整对模型准确性的影响,本文收集了来自26位参与者的数据,这些参与者在安装了设备支架上的手机上观看了刺激。与台式机上的典型眼动追踪研究类似,将注意力集中在正面额头上(没有倾斜/摇动/滚动;请参见研究1的“方法”)。图1显示了精度如何随校准帧数变化。虽然基本模型的误差较高,为1.92±0.20 cm,但使用约100个校准框架进行个性化设置可将误差降低近四倍,达到0.46±0.03 cm(t(25)= 7.32,p = 1.13×10−7)。请注意,不同屏幕位置上的100个校准帧对应于<30 s的数据,这对于进行眼动追踪研究是非常合理的,因为眼动追踪研究通常是在每次研究开始时(或在研究期间考虑到姿势的中断或较大变化)进行校准。最佳参与者的误差为0.23 cm,而最差的参与者的误差为0.75 cm(第[5,95]个百分位数为[0.31,0.72] cm)。在25–40cm的观看距离处,这对应于0.6–1∘的精度,优于以前的2.44–3∘。

智能手机眼动仪的准确性。

a通过用于个性化的#校准帧,凝视估计准确度(均值±s.e.m.26位参与者)得以提高。

b跨不同屏幕位置的误差。圆的半径表示该屏幕位置的平均模型误差。

与以前的工作相比,这些改进是由于更好的模型体系结构,校准/个性化和最佳UX设置的结合。尤其是,在最佳UX设置(正面头部姿势附近,较短的观看距离为25–40cm)下,使用约30s的校准数据对模型进行微调和个性化,从而大大提高了精度(1.92–0.46cm)。虽然模型架构的变化导致精度有所提高(我们的模型精度从0.73cm提高到0.46cm,并且对两个模型都进行了微调和个性化设置),但它们却将模型复杂度显著降低了50倍(8M vs.170K 模型参数),使它适合在设备上实施。因此,本研究的模型既轻巧又准确。

如图1b所示,在手机屏幕上不同位置的误差是可比较的,在底部屏幕位置的误差会稍大一些,因为当参与者往下看时,眼睛往往会部分闭合。(请参见补充图1)。虽然报告了Pixel 2 XL手机的这些数字,但发现个性化也有助于其他设备(请参见补充图3a)。图1a,b聚焦在额头上,使得面部覆盖了相机镜框的约三分之一。为了测试头位和距离对准确性的影响,分析了iPhone上的GazeCapture37数据集,该数据集提供了头位/距离更多的多样性。如图3b-e所示,在靠近额头的头部姿势和距手机较短的距离(眼睛区域显得更大)上,可获得最佳性能,并且随着摇动/倾斜/滚动或参与者移离手机的距离越来越远,准确性下降。因此,本文中的所有研究都集中在最佳UX设置上,即靠近正面头部,距手机2540cm的较短观看距离。尽管这似乎有局限性,但值得注意的是,以前的眼动研究最常见的眼动追踪设置通常需要昂贵的硬件和更受控的设置,例如下巴托以及昏暗的室内照明和固定的视野距离(意思就是说:虽然我不是真正的无限制获取眼动数据,但是眼动仪收集数据时同样条件苛刻,而且比本文的设定更苛刻)。

2 Tobii眼镜与本文的模型精度之间的比较。研究设置显示了四个实验条件:参与者在戴Tobii眼镜时观看手机上的刺激(安装在设备支架上)(a)和不佩戴(b cd与上述类似,但参与者手持手机。 ef专用眼动仪(Tobii眼镜)与我们的智能手机眼动仪(mean±s.e.m.n = 13)在设备支架和手持式设置中的准确性。统计比较表明,两种设置的精度均无显著差异(设备支架:t12= -2.12p = 0.06;手持式:t12= -1.53p = 0.15;双尾配对样本t检验)。

与专业移动眼动仪的比较

为了了解本研究中的智能手机眼动仪和最先进的昂贵移动眼动仪之间在性能上的差距,将本文的方法与Tobii Pro 2眼镜进行了比较,Tobii Pro 2眼镜是一个头戴式眼动仪,在眼睛附近有四个红外摄像头。由于Tobii眼镜在这种情况下效果最好,因此本文选择了正面头姿势。 13个用户在四个条件下执行了校准任务:戴和不戴Tobii眼镜,带有固定的设备支架和将手机自由地握在手中(请参见图2)。在固定设备支架上,发现智能手机眼动仪的精度(0.42±0.03 cm)与Tobii眼镜(0.55±0.06 cm,双尾配对t检验,t(12)= -2.12,p = 0.06)相当。在手持设置中获得了相似的结果(在Tobii上为0.59±0.03 cm,而在我们的上为0.50±0.03 cm; t(12)= -1.53,p = 0.15)。

值得注意的是,像Tobii Pro眼镜这样的专业眼动仪代表了很高的要求。它们是头戴式眼镜,带有四个红外摄像头(每只眼睛两个)和一个位于中心的摄像头。因此,输入是眼睛特写的高分辨率红外图像(距离眼睛5-10 cm之内)。相比之下,本研究的方法使用智能手机的单个前置RGB摄像头,在较大的观看距离(距眼睛25–40厘米)处,因此眼睛区域显得很小。尽管面临这些挑战,本研究提出的智能手机眼动仪仍有望达到与最新型移动眼动仪相当的精度。

验证标准动眼任务

作为研究验证,本文测试了以前使用大型显示器和昂贵的台式眼动仪进行的动眼任务的眼动研究的主要发现是否可以使用本文的方法复制到小型智能手机显示器上。如下所述,有22名参与者执行了前扫,平稳追踪和视觉搜索任务(研究2“方法”中的详细信息)。图3a显示了前扫任务的设置。计算了扫视潜伏期,这是一种常用的测量方法,它是从刺激出现到参与者移动眼睛的时间。如图3b所示,平均扫视潜伏期为210毫秒(中值167毫秒),与先前研究中观察到的200-250毫秒一致。

标准动眼任务的智能手机注视 

前扫视任务每次试验均以800毫秒的中央注视点开始,此后目标出现在随机位置并保持1000毫秒。要求参与者尽快找到目标。

前扫任务的扫视潜伏期分布。

平稳追踪任务要求参与者观察绿点沿圆圈移动时的情况。

黑色显示的来自单个用户的样本扫描路径(绿色显示为平面真实情况)。

来自所有用户和试次的人群热图。

为了调查平稳追踪的眼球运动,要求参与者执行两种类型的任务:一种是使对象沿圆周平滑移动,另一种是沿盒子移动(补充图5)。最近已经证明类似的任务对于检测脑震荡造成的眼动追踪失调是有用的。图3c-e显示了来自随机选择的参与者的凝视扫描路径,以及来自所有用户的平滑水平追踪任务的人群水平热图。与先前在台式机上的文献一致,参与者在此任务中表现出色,跟踪误差仅为0.39±0.02 cm。

 

补充图沿箱子形状运动的眼球追踪任务的眼动数据平均图

除了简单的动眼运动任务之外,还研究了视觉搜索,视觉搜索自1980年代以来一直是关注研究的重点领域。这里有两个众所周知的现象:(1)目标显著性的影响(目标与显示器周围分散注意力的项目之间的差异或对比度);(2)以及设置大小(显示的项目数)对视觉搜索行为的影响。

为了测试手机上这些眼动效果的存在,测量了22位参与者执行一系列视觉搜索任务时的注视模式。本文系统地改变了目标相对于干扰物的颜色强度或方向。当目标的颜色(或方向)看起来与干扰物相似(目标显著性较低)时,需要更多的注视点才能找到目标(见图4ac)。相反,当目标的颜色(或方向)看起来与干扰物不同(目标显著性较高)时,所需的注视次数就更少了(图4b,d)。结果发现,在所有用户和试验中,随着目标显著性的提高,用于寻找目标的注视物的数量显著减少(关于色彩强度对比,请参见图4e,f:F(3,63)= 37.36,p <10-5; 对于方向对比:F(3,60)= 22.60,p <10-5)。这些结果证实了目标显著性对视觉搜索的影响,这与桌面屏幕研究中发现的结果是一致的。

为了测试设定大小对视觉搜索的影响,我们将显示中的项目数从5、10更改为15。图4g显示,设定大小的效应取决于目标显著性。当目标显著性较低时(目标与分散器之间的方向差异,Δθ=7∘),找到目标的固定物数量随设定尺寸线性增加(斜率= 0.17;单向重复测量ANOVA F(2,40 )= 3.52,p = 0.04)。相反,当目标显著性为中等高度(Δθ=15∘)时,找到目标的注视点的数量不会随设置大小而显著变化(F(2,40)= 0.85,p = 0.44)。对于非常显著的目标(Δθ=75∘),我们发现固定大小对固定数量的负面影响(斜率= -0.06;F(2,40)= 4.39,p = 0.02)。这些发现与以前在台式机上的研究相一致。总而言之,在本文中使用智能手机眼动仪复制了有关动眼运动任务的主要发现,例如前扫,平稳跟踪和视觉搜索任务。

4视觉搜索中的智能手机注视  abe目标的颜色对比度对视觉搜索表现的影响。

当目标的对比度较低(即类似于干扰物)时,注视扫描路径。 

当目标具有高对比度(与干扰物不同)时的扫描路径。 

根据目标的颜色对比找到目标的注视物数量(该图显示平均值±s.e.m.n = 44-65次试验/对比度水平)。 

cd方向对比的相似图(目标和分散器之间的方向差异度,Δθ; n = 42-63次试验/对比水平)。

设定尺寸的影响。当显示屏中的项目数在51015之间变化时,用于寻找目标的注视点的数量;目标的方向对比度从低(Δθ=7∘)到中高(Δθ=15∘)到非常高(Δθ=75∘)不等。图表显示平均值±s.e.m. 注视次数(每组设置大小和Δθ的n = 4263次试验)。

验证自然图像

通过测试以前使用大型显示器的台式眼动仪获得的丰富刺激(例如自然图像)眼动研究发现是否可以使用我们的方法复制到小型显示器(例如智能手机)上,从而验证了本文的方法。关于自然图像上凝视的一些众所周知的现象是:凝视会受到以下因素的影响:

(a)正在执行的任务(自1967年Yarbus进行经典的眼动跟踪实验以来就知道了);

(b)场景中物体的显著性;

(c)倾向于注视场景中心。为了测试我们的智能手机眼动仪是否能够再现这些发现,我们从32位参与者在两种不同任务条件下观看自然图像时收集了数据:(1)自由观看和(2)视觉搜索目标(请参阅“方法”,研究3)。

5自然图像凝视取决于正在执行的任务  

这些列指的是:a原始图像;b自由观看期间的注视热图;c来自单个参与者自由观看的扫描路径示例;d视觉搜索目标物体(在每个图像的标题中指定)时注视热图;e来自单个参与者视觉搜索任务的扫描路径示例。

正如预期的那样,凝视模式在自由观看过程中更加分散,并且在视觉搜索过程中更加聚焦于目标对象及其可能的位置(参见图5)。例如,图5第三行显示,在自由观看期间,参与者花时间看着那个人,并且他指向场景中的标志,而在视觉搜索“汽车”时,参与者避开了标志,而是固定在人与车的对象上。在所有图像中,发现自由观看的凝视熵明显高于视觉搜索(16.94±0.03 vs. 16.39±0.04,t(119)= 11.14,p = 10-23)。视觉搜索表现的进一步分析表明,与先前的发现一致,找到目标的总注视时间随目标大小而减小(r = -0.56,p = 10-11; n = 120张图像),从而确认了更大的目标比较小的更容易找到。除大小外,发现目标显著性密度对找到目标的时间有显著影响(r = −0.30,p = 0.0011; n = 120张图像),即,显著的目标比非显著的目标更容易找到,与以前的文献一致。

6:在手机上自由观看时的凝视熵和中心偏差  

自由观看任务的所有图像上的凝视熵直方图,以及低熵图像与高熵图像的示例  

在所有用户和图像上注视点均值会发现中心偏向。

其次,测试了在智能手机上自由观看自然图像期间中心趋势的存在。图6a显示了这项研究中所有图像的凝视熵。低凝视熵的示例是场景中包含一个或两个显著对象的图像(例如,场景中的一个人或动物),而高熵图像包含多个感兴趣的对象(例如,多个人,带家具的室内空间)。专业的台式眼动仪报道了类似的发现。来自智能手机眼动仪平均所有用户和图像的注视点显示出中心偏差(请参见图6b),这与以前有关台式机的文献一致。

最后,由于对显著性已使用台式机眼动仪进行了广泛研究,因此我们直接比较了从智能手机眼动仪获得的凝视模式与从专用台式机眼动仪(例如Eyelink 1000)获得的凝视模式(使用OSIE数据集)。请注意,这里比较设置了较高的标准。 EyeLink 1000的台式机设置不仅包括专用硬件,其红外光源和红外摄像头在人眼附近具有高时空分辨率(最高2000 Hz),而且还使用了高度受控的下巴托设置(以及昏暗的照明条件)),并在大屏幕(22英寸,33×25∘视角)上显示图像。相比之下,本文的研究设置将智能手机的现有自拍相机(RGB)用于更自然的设置(自然的室内照明,无下巴托,只是手机的支架),并在小型移动屏幕(6英寸,中间视角12×9∘)上观看了图像)。因此,这两种设置在许多方面有所不同(大屏幕桌面与小屏幕移动,受控设置,眼动仪成本,采样率)。

7:自然图像观看中移动和桌面注视之间的比较左侧显示了最相似的移动和桌面热图,而右侧显示了最不相似的热图。

列指的是:ad原始图像; be移动注视热图,模糊宽度为24 pxcf桌面注视热图,模糊宽度为24 px(相当于1。桌面视角)。对于类似的结果,请参见补充图9和补充表1,其中较大的模糊宽度为67 px(对应于1。移动视角)。

尽管存在这些差异,但本研究仍然发现两种设置的凝视热图在质量上相似。图7显示了台式机与移动设备之间最相似和最不相似的热图(使用Pearson的相关性衡量的相似性)。我们的智能手机眼动仪能够检测到与昂贵的台式计算机类似的注视热点,主要区别在于移动手机的注视热图看起来更加模糊(请参阅补充讨论以进行进一步分析)。模糊是由于移动屏幕上的小尺寸显示和智能手机眼动仪的较低准确性/噪声(无下巴休息,眼睛附近没有红外摄像头)共同造成的。除了模糊之外,台式机和移动设备的注视热图在像素级别(r = 0.74)和对象级别(r = 0.90,请参见表1)都高度相关。这表明我们的智能手机眼动仪可以用于对静态图像和动态内容(当参与者滚动内容并与之交互或观看视频时)进行移动内容的显著性分析。

 

阅读理解任务测试

除了对动眼任务和自然图像的研究验证之外,还测试了智能手机眼动仪是否可以帮助检测阅读理解难度,参与者可以自然地滚动和阅读手机中的段落。17名参与者在手机上阅读了类似SAT的文章(具有滚动交互),并回答了两个选择题(请参阅“方法”,研究4)。问题之一是事实性的,可以通过在段落中找到相关摘录来回答。另一个问题需要更详细地解释该段落,称其为“解释性”任务。不出所料,研究结果发现事实和解释任务的注视模式是不同的。注视模式表现为注视会更多地集中在段落的特定部分以进行事实性任务,而在解释性任务更多地分散在段落中(见图8)。在所有用户和任务中,发现解释性任务的凝视熵高于事实性任务(8.14±0.16 vs. 7.71±0.15; t(114)= 1.97,p = 0.05)。

在事实性任务中,检查了参与者正确回答问题与否时注视方式是否存在差异。我们假设针对回答正确的参与者凝视应集中在段落的相关摘录中,而对于回答错误凝视应更分散或集中于段落中其他部分。9a显示,参与者正确回答后,在相关通过区域内花费的时间明显多于无关的时间(相关上的时间为62.29±3.63%,无关上的时间为37.7±3.63%; t(52)= 3.38,p = 0.001)。对于错误的回答,这种趋势被反转了,但差异不显著(相关的为41.97±6.99%,无关的为58.03±6.99%; t(12)= -1.15,p = 0.27)。

接下来研究了任务难度对注视和回答时间的影响。我们将任务难度量化为每个任务答案错误的百分比(请参见补充图6-7,以了解考虑到时间和准确性的任务难度的其他测量)。图9b-f显示了针对简单任务与困难任务的凝视热图示例,以及根据任务难度而变化的各种测量的散点图。正如预期的那样,回答时间随任务难度的增加而增加,但并不显著(Spearman等级相关性r = 0.176,p = 0.63)。随着任务难度的增加,文章上眼睛注视点数量增加(r = 0.67,p = 0.04)。仔细观察发现,最好的预测指标是在相关摘录上花费的凝视时间片段(按高度归一化),这与任务难度密切相关(r = -0.72,p = 0.02)。换句话说,随着任务难度的增加,参与者在寻找包含答案的相关摘录之前,会花费更多的时间查看段落中无关的摘录。这些结果表明,基于智能手机的凝视可以帮助检测阅读理解难度。

事实性任务与解释性任务的不同注视模式  

a向参与者显示的段落示例(出于版权原因,实际文本替换为虚拟)。绿色边框突出显示了事实性任务的相关摘录(显示该框仅用于可视化目的,参与者未看到此内容)。 

b针对事实性任务的人群注视热图,对用于(a)中的段落。 

ca)中段落解释性任务的热图。

df与(ac)相似,只是事实性任务出现在解释性任务之后。在这两个示例中,解释性任务比事实性任务的注视在文章中更分散。

阅读理解难度对事实性任务注视的影响

当参与者正确回答事实性问题或未回答事实性问题时,条形图显示段落相关部分的注视持续时间百分比(以高度标准化)。误差线表示平均值±s.e.m。(n = 53, 对于正确与错误回答的13个任务)。 

简单事实性任务的注视点热图示例; 

困难事实性任务。 

d散点图根据任务难度显示不同的度量标准。d回答问题的时间(以秒为单位)(包括阅读问题和文章所花费的时间); 

该段落的注视点数量; 

相关区域上的时间百分比,计算为相关段落部分上的总注视持续时间的百分比(通过高度标准化)。报告的统计相关性是Spearman秩序相关系数(n = 10个任务);双尾样本t检验。置信带代表自举的68%置信区间。

 

讨论

通过演示无需任何其他硬件的基于智能手机的精确眼动跟踪,本文一定程度上克服了专业眼动仪器的高成本和缺乏可扩展性的问题。利用智能手机的前置摄像头输入作为机器学习的输入,我们的模型在使用每个用户不到30 s的校准数据的情况下,可在手机屏幕上实现0.46 cm的误差(0.6–1∘视角)。这种准确性可以与最先进的移动眼动仪(例如Tobii眼镜)相提并论,后者至少贵100倍(约3万美元,而我们的价格约为150美元)。通过重现以前的关于动眼任务的眼动研究(包括加速运动,平稳追逐,视觉搜索)以及对自然图像的显著性分析来验证本文的方法,这些眼动研究是使用具有下巴架和3倍大显示器的笨重昂贵的台式眼动仪获得的。除了研究验证,我们还展示了智能手机的注视功能可以帮助参与者在手机上滚动阅读文章时检测阅读理解的难度。

与迄今为止在视觉研究中使用的高端眼动仪不同,我们的方法不需要任何专用硬件,价格便宜,并且可以与智能手机的现有前置摄像头配合使用。这提供了沿三个轴扩展眼动追踪研究的潜力:

1)在以前因高成本和复杂性而没有考虑眼动追踪的各种新应用中;

2)在更广泛和多样化的人群中,尤其是在智能手机普及率迅速提高的发展中国家;

3)在给定研究中涉及更多的参与者,因为我们的方法可用于按数量级将眼动追踪研究扩展到远程设置中的数千名参与者。

除此以外,本研究也有一些限制。本研究将参与者带入实验室,并使用固定的设备支架来避免将设备保持45分钟的压力,并避免头部姿势发生较大变化。未来的工作将探索更自然的设置,例如手持设备的远程设置。我们基于智能手机眼动仪的时间分辨率取决于所使用的手机(即自拍相机规格)。在本文中,我们使用了时间分辨率较低(30 Hz)的Pixel 2 XL手机,而移动Tobii眼镜为50 Hz,台式机Eyelink 1000为1000–2000 Hz。这限制了扫视延迟,速度和注视持续时间的精确测量。尽管高时间分辨率对于许多眼动跟踪任务并不重要,但是随着智能手机摄像头的时间分辨率不断提高(例如,最近手机的慢动作模式允许高达240 Hz),我们的结果将自动改善,从而实现更精确的眼动跟踪以几毫秒的分辨率进行测量。

尽管本文重点介绍了Pixel 2 XL智能手机,但我们的方法可以在各种设备上使用(请参见补充图3)。我们发现,智能手机的眼动追踪在以下设置下效果很好:正面姿势(类似于台式机眼动追踪研究);调整至适当的手机距离,使面部覆盖大部分前置摄像头框架;室内照明条件良好(避免在黑暗的房间,明亮的灯光,窗户或使用反光屏在背景中);并且参与者的视力正常,没有戴眼镜(以避免眼镜反射)。如补充图3c-f所示,一些主要的故障情况包括极端的头部姿势(倾斜/摇动/滚动),参与者往下看(眼睛看上去部分闭合)或将手机放在远处(眼睛看上去很小))。未来的工作包括改善模型在不同头部姿势,距离,设备和人群之间的鲁棒性和性能,以帮助使眼动追踪平民化。

从智能手机的眼睛跟踪中可以受益匪浅的一个领域是基于注视的可访问性交互。患有肌萎缩性侧索硬化症(ALS),锁定综合征,中风和多发性硬化症的人的言语和运动能力受损,从而限制了他们与手机/平板电脑接触和互动的能力。智能手机的眼动追踪可以通过注视进行交互,从而提供一种强大的方式来改善他们的生活。这需要在设备上实时估计凝视。在某些情况下,由于摇头或震颤可能还会带来其他挑战。然而,扩展眼睛跟踪以实现可访问性的潜力令人兴奋。

可以从智能手机的眼睛跟踪中受益的另一个领域是健康状况的筛查和监视。在某些健康状况下,例如自闭症谱系障碍(ASD),阅读障碍,脑震荡等,眼球运动行为是异常的。例如,与健康对照相比,患有ASD的患者倾向于避免注视眼睛,而是优先注视在鼻子或嘴巴上。患有脑震荡或轻度脑外伤的患者难以执行平稳追踪任务,例如跟踪在圆圈或方框中移动的物体。通过智能手机的眼睛跟踪将这些研究扩展到人群水平,我们可以将凝视作为一种可扩展的数字表型,用于筛查或监测健康状况的进展,从而可以通过提供及时,早期的干预措施并节省昂贵的医访来减少医疗保健支出,尤其是对于获得医疗服务有限的国家。

尽管智能手机的眼动跟踪可以启用各种有用的应用程序,但重要的是要牢记此技术的正确使用,要求用户对手头的特定应用程序进行明确批准和充分知情同意。在本文中,所有数据都是在用户明确同意的情况下在实验室环境中收集用于研究目的的。此外,允许用户在任何时候选择退出研究并要求删除其数据,而不会影响他们参与研究的报酬。通过将数据移动到我们的服务器中,对当前研究中的数据进行脱机处理,在服务器上对它们进行加密和存储(访问受限)以进行数据分析。我们计划通过在设备上完全运行模型来进一步减轻隐私问题。

总结:

本文演示的精确机器学习驱动的智能手机眼动追踪的准确性可与最新的专业移动眼动追踪器相媲美,从而有可能将眼动追踪研究的规模从实验室的几十名参与者扩展到远程设置的数千名参与者。这释放了许多领域的独特机会,包括:基本视觉研究,阅读和语言理解,可用性研究;此外,它还实现了社会公益应用,例如基于注视的交互功能,可访问性,检测教育中的理解困难,以及基于智能手机的医疗保健筛查/监视工具。随着后续手机硬件性能的提升,此类方法具有极为广阔的应用前景。

如需原文请添加思影科技微信:siyingyxf 或者18983979082获取,如对思影课程及服务感兴趣也可加此微信号咨询。觉得对您的研究有帮助,请给个转发,以及右下角点击一下在看,是对思影科技莫大的支持。

微信扫码或者长按选择识别关注思影

非常感谢转发支持与推荐

通过精准且价格合理的智能手机眼动追踪加快眼动研究相关推荐

  1. 交互技术前沿学习分享——利用眼动追踪改良广告界面

    通过之前的学习,我们接触了许许多多的交互方式,并通过p5/processing等初步接触了一些简单的用户交互方式.那么,当下最先进,或者未来有可能实现的交互模式是怎样的呢?今天我就来介绍一篇关于眼动追 ...

  2. 三星在研发VR一体机?眼动追踪公司曝出原型机

    Visual Camp日前发出的新闻稿似乎透露了三星VR一体机的早期版本. 有消息显示,三星在VR领域的探索并没有止步于Gear VR.为了摆脱对智能手机的依赖,这家公司正在开发不同的移动VR头显,也 ...

  3. android眼动追踪开源,Eyeboard:低成本的开源眼动跟踪解决方案

    腾讯科技讯(Kathy)北京时间12月13日消息,据国外媒体报道,Eyeboard是一个低成本的开源眼动跟踪解决方案,旨在帮助残疾用户更方便地进行沟通.它的设计者是高中刚毕业不久的路易斯·克鲁斯(Lu ...

  4. matlab 与eyelink,EyeLink眼动追踪系统

    精准的视频眼动追踪仪器 EyeLink 1000 Plus是高精密.高精确率的视频眼动仪,其采样率高达2000 Hz(双眼).该眼动仪有多种安装支架和镜头可供选择,能灵活运用于各种研究场景,适用于从婴 ...

  5. Nature Neuroscience:利用深度神经网络进行基于磁共振的眼动追踪

    文章来源于微信公众号(茗创科技),欢迎有兴趣的朋友搜索关注. 观察行为为了解认知和健康等多个核心方面提供了一扇窗,它也是许多功能磁共振成像(fMRI)研究中感兴趣或容易混淆的重要变量.为了让眼动追踪在 ...

  6. 中国眼动追踪市场趋势报告、技术动态创新及市场预测

    [出版商]贝哲斯咨询 [免费目录下载]眼动追踪技术通过记录用户的眼睛位置和动作来跟踪用户的视线.眼动追踪数据可提供有关人类行为和状况的独特见解,将人们与机器和设备交互的方式数字化,从而为企业提供开发创 ...

  7. 基于移动设备与CNN的眼动追踪技术简介

    眼动追踪是一项科学应用技术,用户无需与交互设备物理接触即可发送信息与接收反馈.从原理上看,眼动追踪主要是研究眼球运动信息的获取.建模和模拟,用途颇广.而获取眼球运动信息的设备除了红外设备之外,还可以是 ...

  8. 全球与中国眼动追踪硬件市场现状及未来发展趋势2022-2028

    根据QYR(恒州博智)的统计及预测,2021年全球眼动追踪硬件市场销售额达到了 亿美元,预计2028年将达到 亿美元,年复合增长率(CAGR)为 %(2022-2028).地区层面来看,中国市场在过去 ...

  9. 白炽灯护眼还是led护眼效果好?专家建议孩子用这种灯光更护眼

    现代社会,人们几乎离不开人造照明灯具,生活中的方方面面都需要照明,但是很多人没有注意到的是,这些照明灯具的光线对人眼影响特别大,就比如现在使用较多的台灯或室内照明顶灯,如果光源分别是白炽灯和led灯, ...

最新文章

  1. Python 微信机器人:调用电脑摄像头时时监控功能实现演示,调用电脑摄像头进行拍照并保存
  2. Flink – window operator
  3. python做硬件自动化测试仪器_基于Python PyVisa和GPIB的硬件测试仪器控制方法
  4. python开发效率高吗_从运行效率与开发效率比较Python和C++
  5. origin对独立曲线进行操作
  6. 计算机一级高级技师,高级工程师与高级技师职称有什么区别?快来了解一下吧...
  7. sql2000执行sql2005导出的数据脚本时出现“提示含有超过64K限度的行”(转)
  8. java 显示图片的一部分_求只显示图片上半部分三分之一的写法
  9. 【HDOJ6955】Xor sum(异或前缀和,01字典树)
  10. php ext在哪里,PHP Ext API
  11. 华为ensp命令大全_从零开始学习华为路由交换 | 配置接口IP
  12. 计算机桌面推流,OBS推流PPT电脑桌面投屏
  13. 【最优化基础】惩罚和障碍函数
  14. 插件框架篇一之scrollbars
  15. 在MyEclipse中,如何使用Git将项目上传到G码云仓库
  16. endnote x9打开闪退_Endnote X9 详细教程
  17. javaweb环境搭建—— 误删mysql服务(sc delete mysql)
  18. 结构健康监测平台发展现状
  19. Linux网易云问题(高分屏)
  20. 向 Oracle 数据库添加 ST_Geometry 类型

热门文章

  1. java体系结构最下层_JAVA的体系结构中,最下层是(),由适配器和JAVA OS组成,保证JAVA体系结构可以跨平台。...
  2. 周日我们能见证历史时刻吗?反正现在先预热!
  3. elementUI表格样式自定义修改
  4. 设置Tomcat编码
  5. 《Multilingual Code-Switching for Zero-Shot Cross-LingualIntent Prediction and Slot Filling》论文研读
  6. linux版本的qq下载地址,linux版本qq的安装
  7. 阿里面试官的”说一下从url输入到返回请求的过程“问的难度就是不一样!
  8. 微擎二次开发常用的1602个函数大全
  9. 流媒体基础知识(一)
  10. RPG游戏《黑暗之光》流程介绍与代码分析之(十四):角色技能系统的实现