现有的AR/VR技术通过沉浸的视觉和空间音频,以及6DoF手柄、手势交互,已经呈现出与2D媒介非常不同的优质体验。接下来,AR/VR还有望结合逼真体感反馈、眼球追踪等技术,为用户带来更丰富的交互。

目前,一些VR头显已经配备眼球追踪模块,Meta Quest Pro、PS VR2等已确定支持眼球追踪。尽管如此,理想的眼球追踪依然受到技术局限,在普遍适用性、延迟、准确性等方面都存在挑战。

实际上,除了技术提升外,训练眼球追踪算法也很重要。然而,训练算法需要大量有标记的眼球运动数据,然而这种生物数据通常涉及个人隐私,不容易采集,因此市面上缺少大规模的数据库。

因此,杜克大学的科研人员Maria Gorlatova和其团队决定研发一种受心理学启发的生成式模型:EyeSyn,它可以根据公开的图像和视频来合成大量逼真的眼球运动数据,这些数据带有标记,可降低AR/VR眼球追踪训练的成本。

眼球追踪的重要性

当谈及研发EyeSyn的原因,科研人员表示:眼球追踪在AR/VR领域有多种用途,比如内容开发者可根据眼球数据来分析用户的兴趣点、感受、偏好和偏见等信息,从而为用户量身定制内容。此外,延伸追踪也可以优化AR/VR虚拟化身的生动感、提升AR/VR交互体验、作为一种自然的输入方式、眼球身份认证、注视点渲染、动态变焦、AR HUD系统的驾驶员疲劳识别等等。

然而,市面上的一些眼球追踪技术采用机器学习、深度神经网络等技术来进行训练,这将需要收集一个有标记的大规模眼球运动数据集,包含来自数百人、一整个小时的数据。

收集真人数据面临三大困难:

1)不同人在不同视觉刺激、不同传感器、不同环境之中的表现存在高度差异;人眼阅读的文字材料的布局、格式不同,眼球运动也有无数种组合,因此收集大规模相关数据并不实际;

2)眼球数据与用户的心理和生理信息相关,因此构建眼球数据库可能涉及隐私安全;

3)收集眼球运动数据耗费人力和时间,尤其是在疫情期间难以展开大规模采集。

初创AR/VR公司很少有能力收集这样大规模的数据。因此,EyeSyn提供了一种低门槛工具,科研人员希望它可以帮助初创公司、开发者们创造受欢迎的AR/VR游戏。

准确、大量的数据

目前,EyeSyn已经合成180小时以上注视点数据,是现有同类数据集的18到45倍规模,数据合成过程无需大量的人力和时间,不侵犯隐私安全。

而为了验证EyeSyn的准确性,科研人员让虚拟眼球观看一段视频或浏览虚拟博物馆,并将虚拟眼球的运动与真人观众进行对比,变焦规律、反应方式足够接近。实验结果还显示,利用EyeSyn合成数据来训练的CNN分类模型,可达到90%准确率,可达到目前最好的标准。

经验证,EyeSyn可复制眼球追踪设备捕捉到的各种不同信号模式,具有多样性。在小样本学习场景中,它容易和迁移学习或元学习(meta-learning,教算法学会学习)结合,它无需大规模数据就能训练。

EyeSyn特点

EyeSyn的特点是:1)不同于生成对抗网络(GAN),EyeSyn不需要根据真实的眼动数据来训练;2)可根据图像和视频数据来生成多样化的大规模眼动数据集;3)EyeSyn可以模拟不同的眼动追踪设置,包括视觉距离、视觉刺激的渲染尺寸、采样频率和多样的对象。

具体来讲,EyeSyn可合成文本阅读、口头交流以及静态和动态场景感知四种情景中,眼球的运动规律,同时也可以模拟不同人的眼球运动差异。

在文本阅读情景中,EyeSyn引入了一种名为ReadGaze的模型,这实际上是一种基于文本识别的最佳观看位置检测模块,可识特定定文本刺激中的潜在注视点。此外,还开发了一个跳跃效果模拟器来模拟跳跃阅读的视觉行为。

而在模拟对话情景时,EyeSyn则采用VerbalGaze模型,其中包含面部区域追踪模组、注意力模型,以模拟在口头交流中固定和切换不同面部区域的视觉行为。而StaticScene和DynamicScene模型,则用来合成静态和动态场景感知中的眼球运动。

四种眼球运动模拟

接下来将更加详细的讲一讲,EyeSyn包含的合成模型的细节:

1)文本阅读:

在阅读过程中,人眼决策注视位置和注视时间是两个独立的过程,注视位置通常取决于单词的长度,或是与上一个注视位置之间的距离。人们普遍认为,读者试图将注意力集中在单词的中心,这被称为最佳观​​看位置 (OVP),也是视觉系统识别单词所需时间最少的位置。注视持续时间由词的特征决定,特别是词长。

此外,在阅读中有时会出现单词跳读,这就是所谓的跳读效应。一般来说,跳过一个单词的概率与单词长度成反比。

根据上述规律,科研人员提出了一种ReadGaze模型,可模拟文本阅读中的视觉注意力。ReadGaze 由基于文本识别的 OVP 检测模块组成,用于识别给定文本刺激中的潜在注视点,以及用于模拟跳读视觉行为的跳读效果模拟器。

2)语言交流:

认知神经科学的研究表明,口头交流的参与者将大部分视觉注意力集中在他们的交流伙伴身上。具体来说,他们倾向于注视和扫描伴侣面部的不同区域。实际上,面部只占据视场角一小部分,人眼的主要关注点是眼睛、鼻子和嘴巴。

这个场景利用VerbalGaze模型来模拟,其中包括面部区域追踪模块,以及基于马尔可夫链的注意力模型。

3)静态和动态场景感知:

在检查复杂的视觉场景时,人类视觉系统不会处理场景的每个部分。相反,它选择场景的一部分,并以连续的方式将注意力集中在每个场景上。根据特征整合理论,视觉系统最初将整个场景以颜色、方向和空间频率等低级特征进行分类。然后,视觉注意力被连续引导到从周围环境中突出的每个显著区域。

注视点的选择也受到中心注视偏差的影响,这指的是人眼倾向于观看场景中心。

研究表明,场景中心是提取全局视觉信息的最佳位置,是动眼神经系统开始探索场景的起点。在这项模拟中,科研人员设计了两个生成模型:StaticScene和DynamicScene,分别模拟静态和动态场景感知(对象正在观看绘画或观看视频)中的眼球运动。其中,StaticScene基于显著区域注视点预测,而DynamicScene则基于视觉中心的注视点预测。

为了提升注视点信号模拟的逼真感,还引入注视模型,来模拟在注视某一点时产生的微眼跳、下意识微眼动,以及眼球追踪噪点,以模拟逼真的眼球注视运动。

心理学发现

实际上,人眼的运动非常复杂,面对外界的各种刺激会产生各种不同的反应。因此通过EyeSyn,科研人员也希望了解人眼观看世界和处理视觉信息的过程。

EyeSyn在实验中体现了多项心理学发现,比如在对话场景中,人们的注视点通常在讲话人的眼睛、鼻子、嘴巴之间交替。因此,EyeSyn配备了麦克风,在听到视频中有人说话时,便开始模拟人眼的自然运动,即注视点停留时间分布在讲话人的眼睛、鼻子、嘴巴之间。而患有自闭症、精神分裂、社交焦虑等神经发育或精神障碍的人,可能会在社交互动中表现出非典型的眼球运动模式,比如避免目光对视。

此外,视觉注意力的决策受到许多认知因素的影响,比如心理压力、认知任务、场景中显著的视觉区域等等。目前,EyeSyn的设计还没有考虑到这些因素。未来,可能需要结合心理学、神经科学、社会科学等其他知识,才能进一步探索万能的注视点模拟模型。

技术局限

尽管如此,目前EyeSyn的设计无法完全复制人类视觉处理的复杂机制,因此不能合成所有人的眼球运动。

理想的眼球追踪系统可捕捉瞳孔扩张、人眼快速扫视等微小动作,从而推测出人的实时状态/心情和关注点。甚至还可以分析一个人是在看漫画还是文学作品。另外,理想的眼球追踪有望提升AR/VR交互的上下文感知功能,并且动态识别使用者的情绪和认知负荷变化。

Gorlatova表示:目前EyeSyn的合成数据还不完美,未来通过更多次测试和运行,将可以生成一个具有规模的眼球运动合成数据集,用来培训机器学习分类算法。

未来科研人员计划将EyeSyn用来自闭症在社交场景中,注视点的变化,或者模拟精神分裂患者的非典型眼球运动模式。也可以应用于虚拟化身、动画、游戏、虚拟助手、VR社交等等场景。参考:杜克大学

受心理学启发,这项眼球追踪生成式模型大幅降低训练成本相关推荐

  1. OptiTrack专为VR主题公园推出了主动追踪方案,可降低40%成本

    此次OptiTrack Active方案的推出,或许会进一步推动更多的主题公园使用它们成本有所降低的定位方案. 从索尼申请新专利改善位置追踪到Valve准备推出新一代Lighthouse基站,越来越多 ...

  2. 生成式模型、判别式模型的区别?

    生成式模型.判别式模型的区别? ​ 对于机器学习模型,我们可以根据模型对数据的建模方式将模型分为两大类,生成式模型和判别式模型.如果我们要训练一个关于猫狗分类的模型, 对于判别式模型,只需要学习二者差 ...

  3. NLP实践——以T5模型为例训练seq2seq模型

    NLP实践--以T5模型为例训练seq2seq模型 0. 介绍 1. 数据下载与加载 2. 创建模型 3. 训练评估函数 4. 模型训练 5. 模型预测 0. 介绍 回顾这两年NLP领域的研究,生成式 ...

  4. 眼球追踪技术是VR下一个突破口?

    [导读] 眼球追踪技术自医疗研发而始,经过数十年漫长的技术积累以后,已经开始逐渐升温,进入商业化应用阶段,被陆续用在了电脑.手机.VR头显甚至汽车等不同设备上. 关键词:眼球追踪技术VR 眼球追踪技术 ...

  5. 吴恩达创办Coursera是受他启发!74岁老父亲自述终身学习路,8年学完146门课程

    大数据文摘出品 作者:牛婉杨.魏子敏 吴恩达这个名字你一定不陌生,他是当今人工智能和机器学习领域国际最权威的学者之一.作为斯坦福大学计算机科学系和电子工程系的副教授,以及在线教育平台Coursera的 ...

  6. 预测学习:深度生成式模型、DcGAN、应用案例、相关paper

    前言 图像模式处理相关任务有识别.检测.分割.追踪.而与图像Pixel级别相关的任务,则有增强.编码.压缩.复原与重构.以及与时间相关的图像预测. 自从2012年AlexNet在ImageNet分类获 ...

  7. 生成式模型 生成对抗网络——资料梳理(专访资料 + 论文分类)

    转载自:http://blog.csdn.net/solomon1558/article/details/52338052 文献整理 题目 主要内容                           ...

  8. BENDR for BCI : 多伦多大学研究者提出受BERT启发的深度神经网络学习​海量EEG 数据...

    从预测文本到智能语音控制,人机交互近年来得到了快速的发展.许多科学家设想下一个前沿领域是脑机接口(BCI),直接的神经连接,利用脑电图(EEG)信号捕捉到的脑电活动. 为了开发能够更好地利用公开的大量 ...

  9. 3页论文被引用17915次!88岁物理学泰斗温伯格去世,霍金《时间简史》受他启发...

    杨净 发自 凹非寺 量子位 报道 | 公众号 QbitAI 这周末,整个物理学界都在哀恸! 世界上最伟大物理学家之一,粒子物理集大成者--Steven Weinberg (史蒂芬·温伯格)去世,享年8 ...

最新文章

  1. JAXB在Java 9/10并且使用Tomcat 9的问题
  2. STM32下载程序时的一个奇怪现象
  3. bzoj 3670 [NOI2014]动物园
  4. python和java选择哪个-Java、Python你会选择哪个?老男孩python
  5. linux NFS共享
  6. 中国工业企业数据库 | 特殊样本统计
  7. 银行支付系统大小额(一代支付)、超级网银(二代支付)
  8. R语言使用strsplit函数按照指定的分隔符号进行数据拆分、分裂(split)、分割后的数据类型为列表、unlist函数将拆分后生成的列表list转化为向量vector
  9. 这就是我不建议去外包公司开发的原因?
  10. 19-备忘录模式Quarkus实现
  11. 2017-9-13 NOIP模拟赛[xxy]
  12. JUL(java.util.logging)java原生官方日志 使用与配置--解决jul不输出显示日志问题
  13. android 屏幕分辨率获取,Android获取屏幕分辨率的三种方法
  14. wincc远程服务器配置,wincc连接远程opc服务器
  15. 如何组织可持续的团队内部分享
  16. html如何去除左右滑条,移动端左右两边滑动,并且去除滚动条
  17. 法拉科机器人接头_【发那科】图解FANUC机器人I/O信号板
  18. 三星s7edge手机无法连接adb问题
  19. jQuery是什么?如何使用?
  20. 在BASH下简单实现十进制到二进制和十六进制的转换

热门文章

  1. 【博学谷学习记录】超强总结,用心分享|大数据课程-学习第三周总结
  2. JumpServer部署使用
  3. PYNQ-Z2开发板
  4. C语言qsort函数解析(和使用方法)
  5. python连接wifi_python 连接wifi脚本
  6. 控制台 钢铁雄心2_钢铁雄心2游戏秘籍指令/科技/事件代码
  7. InnoDB中的索引类型
  8. 【阅读笔记】Differentiable plasticity: training plastic neural networks with backpropagation
  9. 在delphi中引用第三方控件时,找不到dcu的解决办法
  10. 测试用例设计的八大要素及ANSI/IEEE 829标准和编写示例