Face-Mic:通过AR/VR运动传感器捕捉的细微面部动态来推断实时语音和说话人身份

  • i. 文章目录
    • Abstract
    • 1 INTRODUCTION
    • 2 PRELIMINARIES
      • 2.1 Speech-related Facial Dynamics
      • 2.2 Capturing Facial Dynamics via Motion Sensors in AR/VR Headsets
    • 3 ATTACK OVERVIEW AND THREAT MODEL
    • 4 ATTACK DESIGN
      • 4.1 Challenges
      • 4.2 System Overview
    • 5 DATA PREPROCESSING
      • 5.1 Speech Detection and Segmentation
      • 5.2 Body Motion Artifact Removal
    • 6 FEATURE EXTRACTION FOR FACIAL MOVEMENT AND BONE-BORNE VIBRATION
    • 7 DEEP LEARNING-BASED SENSITIVE INFORMATION DERIVATION FRAMEWORK
      • 7.1 CNN-based Sensitive Information Derivation
      • 7.2 Unsupervised Domain Adaptation
    • 8 ATTACK EVALUATION
      • 8.1 Experimental Setup
      • 8.2 Gender Detection
      • 8.3 Speaker Identification
      • 8.4 Speech Recognition
      • 8.5 Impacts of Body Movements
      • 8.6 Impact of Training Data Size
    • 9 RELATED WORK
    • 10 DISCUSSION
      • 10.1 Potential Defenses
      • 10.2 Potential Attack Improvement
    • 11 CONCLUSION

i. 文章目录

Abstract

摘要: 增强现实/虚拟现实(AR/VR)已经从3D沉浸式游戏扩展到更广泛的应用,如购物、旅游、教育。最近出现了从手持控制器主导的交互到通过语音界面主导的耳机交互的巨大转变。在这项工作中,我们发现当用户戴着面部安装的AR/VR设备时,使用语音界面存在严重的隐私风险。具体来说,我们设计了一种窃听攻击 Face-Mic,它利用 AR/VR 耳机中的零许可运动传感器捕获的与语音相关的细微面部动态,从实时人类语音中推断出高度敏感的信息,包括说话者的性别、身份和语音内容。Face-Mic 基于 AR/VR 头戴式设备紧密安装在用户面部这一关键见解,允许头戴式设备上的潜在恶意应用程序在佩戴者说话时捕捉潜在的面部动态,包括面部肌肉的运动和骨骼振动,它编码私人生物特征和语音特征。为了减轻肢体动作的影响,我们开发了一种信号源分离技术来识别和分离与语音相关的面部动态和其他类型的肢体动作。我们进一步提取了关于这两种面部动态的代表性特征。我们通过开发基于深度学习的框架,获取用户的性别和身份,提取语音信息,成功地展示了通过AR/VR头盔的隐私泄露。使用四种主流VR头戴设备进行了大量的实验,验证了Face-Mic的广泛性、有效性和高精度。
CCS CONCEPTS
安全与隐私→硬件攻击与对策。
KEYWORDS
面部动力学; 增强现实/虚拟现实耳机; 演讲和演讲者隐私

1 INTRODUCTION

增强现实/虚拟现实(AR/VR)设备具有创建3D虚拟世界的能力,用户可以沉浸其中并与之互动,吸引了数百万用户。市场规模正在急剧扩大,预计到2023年将达到123亿美元。面部安装设备(如VR头戴式设备)的快速发展促进了AR/VR应用的广泛应用,包括沉浸式多人游戏、虚拟购物和银行。随着AR/VR领域从3D沉浸式游戏扩展到更广泛的应用,AR/VR设备的控制逻辑在很大程度上已经从控制器主导的交互(主要为游戏设计)转向通过语音用户界面的耳机主导的交互。例如,Oculus Quest支持语音输入网址,控制耳机,以及探索商业产品。然而,语音接口在AR/VR场景中的频繁使用,如果恶意行为者能够监听到这种通信媒介,可能会导致严重的隐私泄露。例如,攻击者可以在 AR/VR 语音通信期间窥探敏感信息,例如信用卡号码和私人医疗保健/银行交易信息。此外,头戴式耳机佩戴者的个人身份信息,例如性别和身份,可能会泄露给对手,这可能会被用于有针对性的广告和欺诈。
由于这些与语音相关的隐私问题,AR/VR 耳机供应商对语音访问有严格的政策,并且需要明确许可才能使用麦克风。考虑到基于智能手机的操作系统(如Android和iOS)的隐私政策,低成本的纸板耳机自然需要最高级别的许可才能访问麦克风。类似的政策也适用于高端独立耳机的操作系统。因此,对于运行在这些耳机上的行为不端的应用程序来说,获取麦克风并收听语音通信并不容易。相比之下,访问 VR 耳机中内置的运动传感器通常不需要用户许可,因为几乎所有的 AR/VR 应用程序都需要利用运动传感器来跟踪用户的头部运动并模拟虚拟环境中的相应运动。这些零许可运动传感器能被攻击者用来推断耳机用户的实时语音和说话人隐私吗?
在本文中,我们探讨了这个问题,并展示了一种针对 AR/VR 设备的新窃听攻击 Face-Mic。我们的关键观点是,耳机紧密地安装在用户的头部,并按在面部的不同部位,如图1所示。

这种独特和基本的特征存在于低成本的纸板耳机(如谷歌cardboard)和高端的独立耳机(如Oculus Quest, HTC Vive),它使耳机容易受到潜在面部肌肉的动态影响,它可以反映说话内容以及佩戴者独特的私人生物特征(如说话行为和组织特性)。此外,在语音发音过程中,声带产生的传导振动(即骨传导振动)可以通过颅骨传播,从而振动AR/VR耳机。通过分析捕获的面部动态,我们表明,对于纸板耳机和独立耳机,攻击者可以轻松推断出敏感的语音和说话者信息,这引发了极端的隐私问题。
Fundamental Differences from Existing Attacks.
与之前的攻击相比,Face-Mic表现出几个关键的不同之处。首先,这是第一个针对 AR/VR 耳机的基于运动传感器的语音窃听攻击,这代表了对在现实世界中迅速发展的新兴用户交互范式的威胁。 其次,Face-Mic 旨在捕获设备佩戴者的实时人类语音,而之前的攻击只能通过智能手机运动传感器捕获语音,这些语音已通过以下方式重放:(1)外部扬声器,其相关的振动通过共享的表面传播到达智能手机,或(2)智能手机的内置扬声器,通过智能手机本体产生混响。智能手机运动传感器通常不会受到设备用户实时语音的影响,这可以防止这些先前的攻击窃听佩戴者的空中语音。第三,Face-Mic通过耳机佩戴者说话时产生的细微面部动态来提取语音和说话者的信息,这是一个非常具有挑战性的工作,因为在沉浸式AR/VR场景中,用户的身体动作会带来显著的干扰(我们能够克服这个挑战)。
Challenges Addressed in Eliciting Speech via Facial Dynamics. 要依靠内置的运动传感器实现这种窃听攻击,我们在实践中面临着以下几个挑战:1)身体运动伪影的显著影响:在AR/VR场景中,耳机佩戴者通常通过大规模的身体运动与虚拟世界进行交互。因此,Face-Mic需要消除这些运动伪影,以实现可靠的面部动态提取。2)对语音和说话人特征的反应不明确:面部动力学与说话人/语音特征之间的关系尚不清楚,因此我们需要探索面部运动/骨传振动与语音之间的关系。3)运动传感器采样率低:AR/VR耳机内置的运动传感器采样频率有限,检测85Hz~ 20kHz的实时语音振动及其谐波具有很高的挑战性。
Proposed Face-Mic via Facial Dynamics Captured by AR/VR Motion Sensors. FaceMic基于采集到的运动传感器数据,首先利用信号源分离技术去除人体运动的伪像,该技术利用时频分析从其他类型的身体运动中分离出与语音相关的面部运动。然后,我们的攻击系统根据面部肌肉运动和骨传导振动的独特频段将它们分开。通过研究面部肌肉运动和骨传导振动的特征,我们从耳机中提取了两组特征,分别是3D加速度、速度和位移,捕捉了受害者独特的私人生物特征和敏感的语音内容。根据提取的特征,Face-Mic通过开发基于深度学习的框架进行性别检测、用户识别和语音识别。我们的主要贡献总结如下:

  • 据我们所知,Face-Mic 是第一个在使用面部 AR/VR 设备时利用与实时人类语音相关的面部动态来推断私人和敏感信息的攻击。通过使用零权限内置运动传感器,Face-Mic 可以揭示耳机佩戴者的性别/身份并提取语音信息。
  • 我们深入研究了说话者与语音特征之间的关系,以及AR/VR耳机运动传感器捕捉到的三种振动类型,包括语音相关的面部运动、骨传导振动和空气振动。我们发现,在运动传感器读数中显示的语音效果是由面部运动和骨传导振动主导的。
  • 我们设计了一系列技术来推断耳机佩戴者的性别、身份和简单语音,如身体运动伪像去除算法、基于面部动力学的特征提取、基于深度学习的敏感信息推导等。
  • 我们通过对 4 个主流 VR 耳机和 45 名志愿者进行广泛的实验来验证概念验证攻击。结果表明,Face-Mic 可以获得耳机佩戴者的性别、身份和简单的语音信息。

2 PRELIMINARIES

2.1 Speech-related Facial Dynamics

AR/VR运动传感器可以捕捉到三种与语音相关的面部动力学:语音相关的面部运动、骨传导振动和空气传导振动。
Speech-associated Facial Movements. 在语言产生过程中,人类的面部肌肉会有规律地收缩和放松,这些肌肉会对语音信息(如音素、节奏、响度)和生物特征(如说话行为、面部形状、肌肉和组织属性)进行编码。具体来说,如图2(a)所示,涉及人类语言的肌肉有12对,可以分为两组:面部上肌和口周肌。

上面部肌肉是指眼眶周围的肌肉,包括皱肌、上皱肌等。在佩戴AR/VR耳机时,这些肌肉与设备直接接触,因此用户说话时肌肉的收缩/放松可以直接在3D空间中移动和旋转耳机,内置的运动传感器可以捕捉到这一点。另一方面,口周肌是环绕嘴巴的一组肌肉,包括降角、颧大肌等,通常与AR/VR耳机不直接接触。然而,在语音生成过程中,嘴巴周围肌肉的强烈收缩/放松可能会传播到与耳机接触的面部组织,从而间接影响AR/VR运动传感器的读数。
Bone-borne Vibrations. 骨传导振动是由人类声带产生的声波振动,然后通过颅骨传播。作为发声的关键器官,当人类说话时,声带调节从肺部排出的空气流动。然后,这些振动被声道过滤和调节,形成人类可识别的语言。其中一部分振动信号通过颅骨传播,因此可以通过安装在用户头部的AR/VR耳机内置的运动传感器来测量振动,如图2(b)所示。由于振动信号是由人的声音产生系统直接产生的,所以它们与人类可识别的语音信号具有高度的相关性。此外,骨传导的振动还可以捕捉用户声音产生系统中独特的生物特征。
Airborne Vibrations. 空气中的振动是在空气中传播的声波振动。现有研究(如[34,41])表明,智能手机和智能手表中的加速度计可以对近距离(如智能手表30厘米)空中的人类声音做出反应。因此,由于用户的嘴和AR/VR耳机之间的物理距离很短,AR/VR运动传感器很可能也可以捕捉到这种微小的空中振动。

2.2 Capturing Facial Dynamics via Motion Sensors in AR/VR Headsets

大多数AR/VR设备都配备了运动传感器,通常包括一个三轴加速度计和一个三轴陀螺仪。除了测量设备的加速度/角速度,这些运动传感器还能接收传导和空中振动,使AR/VR耳机能够捕捉上述三种面部动态。为了证明使用内置运动传感器窃听人类实时语音的可行性,我们在两款具有代表性的AR/VR头盔上进行了初步实验,测试了语音效果:一个硬纸板耳机(Google cardboard with Nexus 6)和一个独立的耳机(Oculus Quest),它们的运动传感器的采样率分别为227Hz和1000Hz。
Capturing Live Human Speech via AR/VR Headsets. 为了检查现场人类讲话的效果,我们要求一名志愿者戴上这两个耳机,如图 3 (a) 所示,然后说几个词(即“one”、“oh”)。

Oculus Quest和Google Cardboard的原始加速度计和陀螺仪读数分别如图4 (a)和(b)所示。

我们可以发现,将耳机戴在用户的脸上,内置的加速度计和陀螺仪可以对被试者的语音做出反应,呈现出明显的信号波动。这样的信号波动可以在两个传感器的所有三个轴上观察到,表明它们对语音相关的面部动态高度敏感。然后对运动传感器的读数进行短时傅里叶变换,在时频域对语音进行分析,得到如图5(a)所示的频谱图。

对于 Oculus Quest,我们发现除了低频范围(例如,<100Hz)有较强的响应外,频谱图在高频(例如,100~500Hz)也表现出较高的能量。同时,由于采样率较低,Google Cardboard只能捕获114Hz以下的响应。
Response Verification for Facial Dynamics. 为了进一步确定在运动传感器的读数中捕捉到什么类型的面部动态,我们进行了一个实验,要求受试者在不发音的情况下执行“one”和“oh”的面部动作,因此只涉及面部动作。我们在图 5 (b) 中展示了 Oculus Quest 和 Google Cardboard 的相应频谱图。 一个有趣的发现是,与图 5 (a) 中的频谱图相比,图 5 (b) 中只保留了低频响应,而高频响应 (>100Hz) 消失了。因此,我们可以安全地将运动传感器的低频响应归因于面部运动。此外,为了研究空气振动的影响,我们在如图3 (b)所示的情况下,向安装在人体头部的耳机重播语音(即“one”、“oh”),而播放设备(即智能手机扬声器)和耳机之间没有任何物理接触。如图5 ©所示,在100~500Hz的高频波段只能观测到微弱的能量。与图 5 (a) 中所有三种面部动力学的频谱图相比,以及仅涉及面部运动的图 5 (b),我们可以发现骨传播和空气传播的振动具有重叠的响应,而骨传播的振动比相应的空气传播的振动要强得多。
通过以上所有观察,我们得出结论,与语音相关的面部运动主要影响低频(<100Hz)运动传感器读数,而骨传振动强烈影响高频(例如,>100Hz)的传感器读数 )。请注意,尽管男性扬声器的声带可以产生低至85Hz的声音,但人类的头骨只能对更高频率的声音振动做出反应,通常超过250Hz。因此,骨传导振动在100Hz以下没有很强的能量。由于空气振动与骨传导振动具有相似的物理特性和时频模式,但其响应要弱得多,因此我们将这两种振动同时视为骨传导振动。因此,在本文的其余部分中,我们利用面部运动和骨传导振动(包括空气振动)来实现Face-Mic。

3 ATTACK OVERVIEW AND THREAT MODEL

Privacy Leakage. Face-Mic可以显示用户喜欢的AR/VR游戏、AR/VR旅行记录、观看/购物喜好等与用户身份相关的私人信息,这对广告公司来说是一笔可观的收入。为了获取身份信息,攻击者可以窃听各种 AR/VR 场景中的语音,例如多人游戏和 AR/VR 会议期间的对话。与此同时,攻击者还可以检测出受害者的性别,可以在未经用户许可的情况下,用于宣传针对性别的产品或分析购买AR/VR产品、上网、使用AR/VR社交媒体时的针对性别的行为。更重要的是,Face-Mic可以获得简单的语音内容,即数字和文字。这两种类型的语音内容可用于推断大量敏感信息,如社会安全号码、电话号码、密码、交易和医疗保健信息。暴露这些信息可能会导致身份盗窃、信用卡诈骗、机密信息和医疗保健信息泄露,从而使用户的安全和隐私处于高风险。为了获取此类敏感的语音信息,攻击者可以在受害者在虚拟通信过程中使用语音听写或与其他人聊天时发起攻击。
Adversary’s Capability. 我们假设攻击者在受害者的AR/VR设备上安装了一个恶意应用程序,通过欺骗受害者安装该应用程序或将该应用程序发布到应用商店。恶意应用程序在后台收集运动传感器数据,并将数据发送到远程攻击者进行性别/说话人检测和语音识别。由于访问运动传感器不需要任何许可,应用程序可以伪装成任何AR/VR应用程序(如AR/VR游戏,网页浏览器)。这种基于恶意应用的威胁模型在智能手机上已经显示出了其有效性,它可以直接应用到以智能手机为中央处理单元的纸板耳机上。我们在两大主流AR/VR编程平台(Oculus、OpenVR)上的研究也证实了这种威胁模型对于独立的头戴式设备是可行的。我们构建了一个基于Oculus SDK (v23)的AR/VR应用,并成功使用了

论文阅读:Face-Mic: Inferring Live Speech and Speaker Identity via Subtle Facial Dynamics Captured by相关推荐

  1. 【论文阅读】 Beyond Inferring Class Representatives: User-Level Privacy Leakage From Federated Learning

    本文提出了一种 multi-task 的 GAN(multi-task GAN for Auxiliary Identification (mGAN-AI)) ,可以恢复 client 级别的多种隐私 ...

  2. 【论文阅读】面部表情识别综述(2018年)(Deep Facial Expression Recognition: A Survey)

    论文地址:https://ieeexplore.ieee.org/abstract/document/9039580 百度网盘地址:https://pan.baidu.com/s/1A8NKT_wz4 ...

  3. 【论文阅读】超分辨率——Towards Real-World Blind Face Restoration with Generative Facial Prior

    Towards Real-World Blind Face Restoration with Generative Facial Prior利用生成式人脸先验进行真实世界盲目的人脸重构 1. Intr ...

  4. On Inferring Autonomous System Relationships in the Internet 论文阅读笔记

    On Inferring Autonomous System Relationships in the Internet 论文阅读笔记 #拓扑推断 AS 拓扑推断相关的研究(较早)可参考:AS Rel ...

  5. 论文阅读:《A Wavenet For Speech Denoising》

    论文地址:A Wavenet For Speech Denoising 项目地址:Github-speech-denoising-wavenet 其他资料:演示地址 摘要 目前,大多数语音处理技术使用 ...

  6. 3D目标检测论文阅读多角度解析

    3D目标检测论文阅读多角度解析 一.前言 CNN(convolutional neural network)在目标检测中大放异彩,R-CNN系列,YOLO,SSD各类优秀的方法层出不穷在2D图像的目标 ...

  7. 【论文阅读】Learning Traffic as Images: A Deep Convolutional ... [将交通作为图像学习: 用于大规模交通网络速度预测的深度卷积神经网络](2)

    [论文阅读]Learning Traffic as Images: A Deep Convolutional Neural Network for Large-Scale Transportation ...

  8. 论文阅读:Natural Language Processing Advancements By Deep Learning: A Survey

    文章目录 一.介绍 二.背景 1.人工智能和深度学习 (1)多层感知机 (2)卷积神经网络 (3)循环神经网络 (4)自编码器 (5)生成对抗网络 2.NLP中深度学习的动机 三.NLP领域的核心概念 ...

  9. [论文阅读] (12)英文论文引言introduction如何撰写及精句摘抄——以入侵检测系统(IDS)为例

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  10. 【论文阅读】Attention Based Spatial-Temporal GCN...Traffic Flow Forecasting[基于注意力的时空图卷积网络交通流预测](1)

    [论文阅读]Attention Based Spatial-Temporal Graph Convolutional Networks for Traffic Flow Forecasting[基于注 ...

最新文章

  1. [uboot]Issue list
  2. html用JQuery自定义表单验证。
  3. 指针和指针的指针_网络上的iPad指针
  4. ajax使用html()后样式无效,jquery.ajax使用字符串拼接后内联css样式失效
  5. ZooKeeper1 利用虚拟机搭建自己的ZooKeeper集群
  6. pycharm显示全部数据_PyCharm第一次安装及使用教程
  7. 线性规划图解法求最优解_高中数学:简单的线性规划问题
  8. Linux基础学习六:Nginx的使用教程
  9. 什么是处理机的态?为什么要区分处理机的态?
  10. 【转】STL中map用法详解
  11. 为什么天才容易患阅读障碍症_王俊凯因“耳石症”缺席跨年晚会,这种病与熬夜玩手机有关?...
  12. ROS_melodoc编译运行SVO错误的解决方案
  13. linux 触摸屏多点触摸改成单点触摸 驱动调试
  14. Gartner技术成熟曲线详解
  15. python,ffprobe获取视频信息
  16. 网络安全行业常见的权威职业证书有哪些?
  17. 裴蜀定理、拓展欧几里得及其证明
  18. 阿蒙森 斯科特_斯科特的糖尿病解释:飞机类比
  19. shell脚本基础日常练习
  20. 80端口或8080端口被占用的解决办法

热门文章

  1. html5中span作用,span标签的作用与用法总结
  2. 矩阵转置行列式的运算规律
  3. 深澜系统服务器架构,S7510E-X结合深澜服务器做Portal无感知认证终端不定时掉线经验案例...
  4. VBS让室友成为你儿子
  5. Jquery colorbox不错的遮罩
  6. 使用linux,导出mysql数据库信息,连接聚石塔
  7. 如何把一份pdf文件拆分为多个?
  8. 正则解决大写金额转换
  9. 高速公路计算机网络安全,计算机网络安全技术在高速公路收费网络的应用
  10. Hadoop加速器GridGain