人机交互论文导读——FaceSight: Enabling Hand-to-Face Gesture Interaction on ARGlasses with a Downward-Facing
这是一篇由清华团队于2021年5月份发表于CHI上面的一篇高质量论文。题为:在具有向下摄像头视觉的 AR 眼镜上实现手对脸手势交互的文章,介绍了 FaceSight,就是一种⽤于 AR 眼镜的基于计算机视觉的手对脸手势感应技术。 它将红外摄像头固定在 AR 眼镜的桥架上,以提供对下⽅⾯部和手部行为的额外感知能力(图 1)。检测手脸接触,并训练卷积神经网络(CNN)模型对手对脸手势进行分类。输入特征包括手势识别、鼻子变形估计和连续指尖运动。
相机镜头周围有六个红外灯作为主动光源。这种安装方式的好处在于可以在⾼分辨率图像中捕获⽤⼾的⾯部和手部,以便检测到丰富而微妙的手对脸手势。而且通过调节红外光源的发光强度,可以只照亮前景(鼻子、脸颊和手),而背景⼏乎是暗的。这不仅简化了计算机视觉过程,还减轻了捕捉周围环境的隐私问题。第三,将摄像头连接到 AR 眼镜的鼻梁架上保证了紧凑的外形尺⼨,这就使得穿戴很轻松便捷。
区分⾯部不同位置上的触摸点是⽤于手对脸手势交互的设计空间的第一个特征
维度。定位触摸点可以通过计算机视觉⽅法来实现。
FaceSight 可以捕捉到⼤部分区域点击和滑动,而点击和滑动是现代触摸屏上最常见的输入⽅式,因此将它们转换为手对脸手势⼏乎不需要⽤⼾的学习努力。
此外,考虑不同类型的点击,包括单击、双击和长按(即停留⼏秒钟),可以进一步扩⼤手势集。
脸颊和下巴的光滑表⾯⾮常适合指尖滑动来完成平移或缩放任务。研究人员设计了
三个滑动手势。第一个是手在脸颊的一侧垂直滑动。两只脸颊两侧的手可以通过这种⽅式控制不同的滚动条,例如两侧的⾳量条和亮度条。第⼆个是双手同时在脸颊两侧垂直滑动,第三个是一只手在下巴上⽔平滑动。
鼻子变形作为输入如图所示,摄像机就在鼻子的正上⽅,这样⽤⼾的鼻子就可以被摄像机以⾼分辨率捕捉到。当鼻子被手指推或捏时,可以检测到鼻子的轻微变形。变形可⽤作连续输入信号,以启⽤基于鼻子的输入技术。例如,可以通过推动鼻子或使⽤不同程度的推动压力来触发不同的功能来控制滚动条。研究人员提出了两种不同压力的推鼻子手势,一种是轻微变形的轻推,另一种是会使鼻子明显变形的粗暴推。
这篇文章中一共提出的 21 种手势,包括七个手对脸颊手势、六个手对鼻子手势、四个手对嘴手势以及四个手对下巴手势,星号标记新颖的手对脸手势。
这个流程图逐步说明了识别流程。给定从红外相机捕获的灰度输入图像,⾸先通过应⽤一些亮度特征来分割手、鼻子、嘴巴、左右脸颊。然后,进行了一个四阶段的流程来检测手对脸的手势:1)检测触摸接触。 2)如果在第一阶段检测到触摸,则识别触摸的位置3) 使⽤卷积神经网络 (CNN) 模型对在该位置执行的手势进行分类。CNN 模型分别针对每个位置进行训练模型,训练的模型包含两个卷积层、一个2×2最⼤池化层和一个全连接层。 4)如果分类手势属于之前设定的手势类别,然后进一步运行相应的算法来确定完成某些具体应用所需的交互参数。
实验环节一共招募了 10 名参与者(2 名⼥性,8名男性),他们的年龄从 18 岁到 55 岁不等(平均年龄 = 27.8),他们都惯用右手,在日常⽣活中通常戴眼镜。将每个滑动手势扩展为两个不同的手势,这些手势具有相反的运动,⽤于评估指尖定位性能,例如向上/向下滑动,并向左/向右滑动。参与者被要求以随机顺序执行每一个手势 60 次。
为了获取训练神经网络模型的数据,研究人员使⽤分割⽅法从录制的视频中获得了每一帧的手部区域,创建了五个与⾯部部位相关的数据集:鼻子、嘴巴、下巴、左脸颊和右脸颊。CNN 模型分别针对五个数据集进行了训练,此外,研究人员还添加了两个额外的数据集来评估指尖滑动和鼻子变形估计的准确性。
通过计算,接触检测算法召回率为97.90%。在这些有效的触摸中,位置识别的平均准确率为 94.69%
表 2 为触摸位置识别的混淆矩阵。⼤多数错误识别发⽣在: 1)鼻子和脸颊; 2)嘴巴和下巴,尤其是在做嘘声或抓下巴时; 3)嘴和脸颊。
在手势识别过程中,所有模型都训练了 10 个 epoch。得到的识别准确率如如表3所示。:鼻子 96.18%(5 类),嘴巴 99.53%(3类),下巴94.00%(3 类),左脸颊 94.65%(4 类),右脸颊 97.73%(5类) . 5个分类模型的平均准确率为96.42%。
鼻推估计和滑动的识别精度。结果如表 4 所示。他们的⽅法在识别两个鼻翼上的两种不同的推鼻压力⽅⾯达到了 94.12% 的准确率。同时, 6种滑动手势的识别准确率为94.67%总的来说,对于所有手势,通过十个⽤⼾的数据进行验证,FaceSight 实现了83.06% 的整体分类准确率。
基于论文中提到的手势集,他们设计并开发了五种 AR 应⽤程序和十⼆种交互技术,以展示FaceSight 的潜在⽤途。这五个应⽤程序包括主页、视频播放器、照⽚库、联系人和语⾳助手。
借助 FaceSight,他们允许⽤⼾在下巴上进行触摸手势以与主界面进行交互。⽤⼾可以⽤⻝指和中指轻敲下巴来调⽤主界⾯。然后她可以凝视特定的图标并⽤一根手指轻敲她的脸颊或下巴作为选择以打开相应的应⽤程序。
视频播放器 他们设计了六种交互技术,让⽤⼾可以通过 FaceSight 控制视频播放器:暂停/恢复、快进、快退、播放下一个视频、播放上一个视频和静⾳。
照⽚库 应⽤程序包括⽤⼾拍摄的所有照⽚。⽤⼾可以⽤她的⻝指在她的脸颊上垂直滑动来浏览图⽚。她还可以通过凝视并点击脸颊来选择图像,然后⽤她的两个⻝指在每个脸颊上一起滑动以缩放图⽚(向下滑动以缩小,向上滑动以放⼤)。
拨打电话时,FaceSight 允许⽤⼾通过执行电话手势快速打开联系人应⽤程序。打开联系人应⽤程序后,⽤⼾可以凝视⽬标联系人并点击她的脸颊进行通话。
语⾳助手,使⽤FaceSight,⽤⼾可以通过掩嘴手势直接与语⾳助手对话,从而自动激活语⾳助手,并响应⽤⼾的语⾳输入。如果⽤⼾松开她的手,语⾳助手应⽤程序会⽴即关闭。
在实验过程中,招募了另外10 名参与者(8 男,2 ⼥) ,总共有十⼆个任务,其中,Home应⽤对应两个任务(Return home、Select)。视频播放器应⽤程序有六个任务(暂停/播放、快进、快退、播放下一个视频、播放上一个视频和静⾳)。照⽚库应⽤程序具有两个任务(页⾯滚动,图⽚缩放)。联系人应⽤程序和语⾳助手应⽤程序都与任务(激活)相关。
图 9:他们定制的 AR 应⽤程序中十⼆种⾯对⾯交互技术的主观评分。 1=⾮常不同意,7=⾮常同意。对“疲劳”、“健康焦虑”和“社会关注”三个指标的得分进行反向评分。
‧ 疲劳:“做手势让我感到疲倦。” (分数是反转)
‧健康焦虑:“这个姿势引起了我对健康的考虑。” (分数颠倒了)
‧社会关注度:“做这个手势会引起我的社会关注度”(分数颠倒了)
‧ 易学性:“该技术很容易学习。”
‧ 享受:“这项技术使⽤起来很有趣。”
‧ 使⽤意愿:“我会在我的 AR 眼镜上使⽤该技术。”
图 9 显示了参与者对手势(疲劳、健康焦虑和社会关注)和互动技巧(易学性、享受性、使⽤意愿)的平均得分。总的来说,参与者对五个示例应⽤程序中的交互技术表示赞赏。他们认为交互技术使⽤起来很有趣且易于学习,尤其是执行“嘘”手势以使应⽤程序静⾳,在每位参与者的“使⽤乐趣”指标中都获得了“7”分。
此外,研究者还要求参与实验用户通过 7 点李克特量表的三个陈述来反映他们对于外形因素的感受:
‧ 您是否在社会上接受外形尺⼨?
‧您是否担心自⼰的脸被相机曝光?
‧您是否认为对于相机物理突出而缩小了现实世界的视野?
在李克特 7 点量表中,7 表示最积极的感觉,而 1 表示最消极的感觉。关于外形的主观感受。图 10 从三个⽅⾯反映了? FaceSight 增强型摄像头使⽤的主观评价(外形尺⼨的社会可接受性、隐私问题和摄像头意识)。参与者普遍接受了外形尺⼨(平均=5.2 ±1.32) 。他们对隐私问题也保持积极态度(平均值=5.9 ±0.99)。对于摄像头遮挡真实世界视野的问题(平均值=6.4 ±0.52),两名参与者在整个过程中没有注意到摄像头突出,而其他八名参与者则注意到了。尽管如此,他们中的⼤多数人还是觉得,“该设备看起来⾮常透明且不清晰。它只有在专注于它时才能看到。”结果表明,将相机紧凑地安装在 AR 眼镜上是社会可接受的,不会影响⽤⼾体验。
人机交互论文导读——FaceSight: Enabling Hand-to-Face Gesture Interaction on ARGlasses with a Downward-Facing相关推荐
- 人机交互论文导读——EarBuddy: Enabling On-Face Interaction via Wireless Earbuds
这是一篇清华的团队发表于2020年四月CHI上面的论文,题为Enabling On-Face Interaction via Wireless Earbuds,也就是通过无线耳机实现的在脸部的交互,研 ...
- 【论文笔记】Enabling technologies and tools for digital twin
论文标题:Enabling technologies and tools for digital twin 论文链接:https://www.sciencedirect.com/science/art ...
- 关于计算机视觉的那些论文 | CCF推荐论文导读
目 录 1 Quality Evaluation for Image Retargeting With Instance Semantics 2 PFAN++: Bi-Directional Imag ...
- mysql8.0其他机器访问_论文导读|基于机器学习的高速缓存预取
作者:北京大学杨磊 这篇文章通过机器学习方法预测未来访问来解决LSM-tree存储引擎下的缓存失效问题,目前该论文已经被数据库顶会VLDB2020接收. 问题背景 传统的缓存替换机制,比如LRU.LF ...
- 3维线程格 gpu_论文导读 | GPU加速子图同构算法
GPU加速子图同构算法 作者: 曾立 邹磊 M. Tamer Özsu 胡琳 张藩 论文链接:https://arxiv.org/abs/1906.03420 本次论文讲解的是曾立.邹磊.M. Tam ...
- 计算机人机交互接口论文,人机交互论文中英对照.doc
人机交互论文中英对照.doc (6页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 9.9 积分 An Agenda for Human-Computer ...
- Interactive natural language question answering over knowledge graphs论文导读
论文导读 目录 Abstract introduction 1 抛砖引的玉(砖见于图谱构建综述吧) 2 现有方法介绍 3 问题驱动 4 挑战与贡献 Interaction approach overv ...
- 论文导读:Deep Attentive Learning for Stock Movement Prediction From Social Media Text and Company Correl
1. Introduction 股票走势受到多方面影响,没有了解相关信息的投资决策会面临金融风险以及金钱损失,而仔细考虑过的投资可以使收益增大.传统的方法依赖于时间序列,以及对股票的分析,比如利用历史 ...
- 论文导读 | 基于多臂赌博机(MAB)建模的SimRank计算
北京大学 刘钰 原文<SimTab: Accuracy-Guaranteed SimRank Queries through TighterConfidence Bounds and Multi ...
最新文章
- maven的安装和环境配置的过程记录
- springIllegalArgumentException Can not set field to $Proxy 在spring中使用事物或AOP遇到的错误
- mysql数据库程序设_MySQL数据库程序设计
- python正则表达式排除字符_利用正则表达式排除特定字符串
- 使用apache的HttpGet\HttpPost获取返回内容编码问题
- Windows堆栈区别[转]
- django xadmin出现的问题
- 2021考研c语言编程题,2021c语言编程例题及答案.docx
- codeforces798C - Mike and gcd problem (数论+思维)
- Nginx 配置参数
- Linux中使用sftp的常用命令
- CMOS密码清除方法
- ajax双子星,荷兰双子星德里赫特和德容哪个厉害
- 一文带你了解华为私有云
- 小企业会计准则 ——主要账务处理和财务报表(2)
- 音视频开发系列(2)PCM音量控制(高级篇)
- SSB数据集导入ClickHouse
- 微信小程序-001-抽签功能-000-目录概要
- 台式计算机亮度设置,台式电脑显示器屏幕亮度怎么调节
- 通过meta代码强制浏览器使用WebKit内核极速模式
热门文章
- App 流量常见测试方法
- 使用xml的时候出现org.eclipse.emf.ecore.xmi.FeatureNotFoundException: Feature 'context-parm' not found.
- c# excel文件读写操作
- 一个程序员对浏览器的使用
- LeetCode - 1109 - 航班预定统计
- 正则表达式引擎的构建——基于编译原理DFA(龙书第三章)——5 DFA最小化
- Java并发系列(11)——ThreadPoolExecutor实现原理与手写
- node离线安装(linux环境)
- 为什么现在面试总是面试造火箭?
- 你是如何理解 HTML 语义化的?