受心理学启发，这项眼球追踪生成式模型大幅降低训练成本

现有的AR/VR技术通过沉浸的视觉和空间音频，以及6DoF手柄、手势交互，已经呈现出与2D媒介非常不同的优质体验。接下来，AR/VR还有望结合逼真体感反馈、眼球追踪等技术，为用户带来更丰富的交互。

目前，一些VR头显已经配备眼球追踪模块，Meta Quest Pro、PS VR2等已确定支持眼球追踪。尽管如此，理想的眼球追踪依然受到技术局限，在普遍适用性、延迟、准确性等方面都存在挑战。

实际上，除了技术提升外，训练眼球追踪算法也很重要。然而，训练算法需要大量有标记的眼球运动数据，然而这种生物数据通常涉及个人隐私，不容易采集，因此市面上缺少大规模的数据库。

因此，杜克大学的科研人员Maria Gorlatova和其团队决定研发一种受心理学启发的生成式模型：EyeSyn，它可以根据公开的图像和视频来合成大量逼真的眼球运动数据，这些数据带有标记，可降低AR/VR眼球追踪训练的成本。

眼球追踪的重要性

当谈及研发EyeSyn的原因，科研人员表示：眼球追踪在AR/VR领域有多种用途，比如内容开发者可根据眼球数据来分析用户的兴趣点、感受、偏好和偏见等信息，从而为用户量身定制内容。此外，延伸追踪也可以优化AR/VR虚拟化身的生动感、提升AR/VR交互体验、作为一种自然的输入方式、眼球身份认证、注视点渲染、动态变焦、AR HUD系统的驾驶员疲劳识别等等。

然而，市面上的一些眼球追踪技术采用机器学习、深度神经网络等技术来进行训练，这将需要收集一个有标记的大规模眼球运动数据集，包含来自数百人、一整个小时的数据。

收集真人数据面临三大困难：

1）不同人在不同视觉刺激、不同传感器、不同环境之中的表现存在高度差异；人眼阅读的文字材料的布局、格式不同，眼球运动也有无数种组合，因此收集大规模相关数据并不实际；

2）眼球数据与用户的心理和生理信息相关，因此构建眼球数据库可能涉及隐私安全；

3）收集眼球运动数据耗费人力和时间，尤其是在疫情期间难以展开大规模采集。

初创AR/VR公司很少有能力收集这样大规模的数据。因此，EyeSyn提供了一种低门槛工具，科研人员希望它可以帮助初创公司、开发者们创造受欢迎的AR/VR游戏。

准确、大量的数据

目前，EyeSyn已经合成180小时以上注视点数据，是现有同类数据集的18到45倍规模，数据合成过程无需大量的人力和时间，不侵犯隐私安全。

而为了验证EyeSyn的准确性，科研人员让虚拟眼球观看一段视频或浏览虚拟博物馆，并将虚拟眼球的运动与真人观众进行对比，变焦规律、反应方式足够接近。实验结果还显示，利用EyeSyn合成数据来训练的CNN分类模型，可达到90%准确率，可达到目前最好的标准。

经验证，EyeSyn可复制眼球追踪设备捕捉到的各种不同信号模式，具有多样性。在小样本学习场景中，它容易和迁移学习或元学习（meta-learning，教算法学会学习）结合，它无需大规模数据就能训练。

EyeSyn特点

EyeSyn的特点是：1）不同于生成对抗网络（GAN），EyeSyn不需要根据真实的眼动数据来训练；2）可根据图像和视频数据来生成多样化的大规模眼动数据集；3）EyeSyn可以模拟不同的眼动追踪设置，包括视觉距离、视觉刺激的渲染尺寸、采样频率和多样的对象。

具体来讲，EyeSyn可合成文本阅读、口头交流以及静态和动态场景感知四种情景中，眼球的运动规律，同时也可以模拟不同人的眼球运动差异。

在文本阅读情景中，EyeSyn引入了一种名为ReadGaze的模型，这实际上是一种基于文本识别的最佳观看位置检测模块，可识特定定文本刺激中的潜在注视点。此外，还开发了一个跳跃效果模拟器来模拟跳跃阅读的视觉行为。

而在模拟对话情景时，EyeSyn则采用VerbalGaze模型，其中包含面部区域追踪模组、注意力模型，以模拟在口头交流中固定和切换不同面部区域的视觉行为。而StaticScene和DynamicScene模型，则用来合成静态和动态场景感知中的眼球运动。

四种眼球运动模拟

接下来将更加详细的讲一讲，EyeSyn包含的合成模型的细节：

1）文本阅读：

在阅读过程中，人眼决策注视位置和注视时间是两个独立的过程，注视位置通常取决于单词的长度，或是与上一个注视位置之间的距离。人们普遍认为，读者试图将注意力集中在单词的中心，这被称为最佳观看位置（OVP），也是视觉系统识别单词所需时间最少的位置。注视持续时间由词的特征决定，特别是词长。

此外，在阅读中有时会出现单词跳读，这就是所谓的跳读效应。一般来说，跳过一个单词的概率与单词长度成反比。

根据上述规律，科研人员提出了一种ReadGaze模型，可模拟文本阅读中的视觉注意力。ReadGaze 由基于文本识别的 OVP 检测模块组成，用于识别给定文本刺激中的潜在注视点，以及用于模拟跳读视觉行为的跳读效果模拟器。

2）语言交流：

认知神经科学的研究表明，口头交流的参与者将大部分视觉注意力集中在他们的交流伙伴身上。具体来说，他们倾向于注视和扫描伴侣面部的不同区域。实际上，面部只占据视场角一小部分，人眼的主要关注点是眼睛、鼻子和嘴巴。

这个场景利用VerbalGaze模型来模拟，其中包括面部区域追踪模块，以及基于马尔可夫链的注意力模型。

3）静态和动态场景感知：

在检查复杂的视觉场景时，人类视觉系统不会处理场景的每个部分。相反，它选择场景的一部分，并以连续的方式将注意力集中在每个场景上。根据特征整合理论，视觉系统最初将整个场景以颜色、方向和空间频率等低级特征进行分类。然后，视觉注意力被连续引导到从周围环境中突出的每个显著区域。

注视点的选择也受到中心注视偏差的影响，这指的是人眼倾向于观看场景中心。

研究表明，场景中心是提取全局视觉信息的最佳位置，是动眼神经系统开始探索场景的起点。在这项模拟中，科研人员设计了两个生成模型：StaticScene和DynamicScene，分别模拟静态和动态场景感知（对象正在观看绘画或观看视频）中的眼球运动。其中，StaticScene基于显著区域注视点预测，而DynamicScene则基于视觉中心的注视点预测。

为了提升注视点信号模拟的逼真感，还引入注视模型，来模拟在注视某一点时产生的微眼跳、下意识微眼动，以及眼球追踪噪点，以模拟逼真的眼球注视运动。

心理学发现

实际上，人眼的运动非常复杂，面对外界的各种刺激会产生各种不同的反应。因此通过EyeSyn，科研人员也希望了解人眼观看世界和处理视觉信息的过程。

EyeSyn在实验中体现了多项心理学发现，比如在对话场景中，人们的注视点通常在讲话人的眼睛、鼻子、嘴巴之间交替。因此，EyeSyn配备了麦克风，在听到视频中有人说话时，便开始模拟人眼的自然运动，即注视点停留时间分布在讲话人的眼睛、鼻子、嘴巴之间。而患有自闭症、精神分裂、社交焦虑等神经发育或精神障碍的人，可能会在社交互动中表现出非典型的眼球运动模式，比如避免目光对视。

此外，视觉注意力的决策受到许多认知因素的影响，比如心理压力、认知任务、场景中显著的视觉区域等等。目前，EyeSyn的设计还没有考虑到这些因素。未来，可能需要结合心理学、神经科学、社会科学等其他知识，才能进一步探索万能的注视点模拟模型。

技术局限

尽管如此，目前EyeSyn的设计无法完全复制人类视觉处理的复杂机制，因此不能合成所有人的眼球运动。

理想的眼球追踪系统可捕捉瞳孔扩张、人眼快速扫视等微小动作，从而推测出人的实时状态/心情和关注点。甚至还可以分析一个人是在看漫画还是文学作品。另外，理想的眼球追踪有望提升AR/VR交互的上下文感知功能，并且动态识别使用者的情绪和认知负荷变化。

Gorlatova表示：目前EyeSyn的合成数据还不完美，未来通过更多次测试和运行，将可以生成一个具有规模的眼球运动合成数据集，用来培训机器学习分类算法。

未来科研人员计划将EyeSyn用来自闭症在社交场景中，注视点的变化，或者模拟精神分裂患者的非典型眼球运动模式。也可以应用于虚拟化身、动画、游戏、虚拟助手、VR社交等等场景。参考：杜克大学