一、论文信息

标题:SIEVE: Secure In-Vehicle Automatic Speech Recognition Systems

作者:Shu Wang, Jiahao Cao, Kun Sun, Qi Li

单位:Center for Secure Information Systems, George Mason University;Institute for Network Sciences and Cyberspace, Tsinghua University; Beijing National Research Center for Information Science and Technology

会议:Usenix security 2020

二、相关背景

由于传感器技术和人工智能算法的快速发展,自动驾驶汽车正在成为我们日常生活中不可逆转的趋势。最新的车载语音控制系统为司机和乘客提供了与无人驾驶汽车互动的便捷方式。然而,车载语音控制系统的核心模块即自动语音识别(ASR)模块容易受到各种对抗性语音指令攻击。特别是,由于大多数车载ASR系统默认支持扬声器独立识别,乘客可以向ASR系统发出恶意指令,从而控制关键的车载系统。此外,远程攻击者可能会将语音命令隐藏到歌曲中,当通过汽车喇叭或智能手机喇叭播放歌曲时,ASR系统可以识别歌曲中的恶意语音命令,这可能会导致无人驾驶汽车出现意想不到的行为甚至事故。

目前,已经提出了许多对策来防御ASR系统对抗对抗性语音命令。利用短期谱特征或韵律特征来区分不同的用户。然而,由于人声的特征通常是低维度的,高级乘客可以模仿司机的声音,绕过现有的防御系统。此外,现有的识别用户身份的方法在嘈杂的环境下通常是不可靠的,而车载ASR系统对对抗语音命令攻击要求更高的安全保障,以防止可能的交通事故。

此外,为了防止扬声器发出恶意的声音命令,研究人员设计了一些方法来识别声音命令是来自人类还是扬声器。它们依靠光谱特征和噪声特征来区分人和说话人,它们都基于一个基本假设,即语音指令来自单一来源。然而,在无人驾驶汽车的情况下,恶意的语音命令可能来自多个来源(例如,多个汽车扬声器)。因此,多源声音和单源声音的不同特征可能会干扰人的声音和非人的声音的区分

三、主要内容

实现了一个SIEVE系统的原型,并在不同的驾驶条件下进行了真实的研究。实验结果表明,在车载ASR系统上,SIEVE可以击败各种对抗性语音指令。

四、风险分析

(1)恶意的语音命令可能来自车辆的扬声器。人们在播放音乐或打电话时,将手机连接到汽车音响系统是很常见的。此外,CD/DVD 通常通过扬声器播放。由于音乐可能从各种不可信的来源下载,攻击者可能编辑音频文件的音轨,通过一个或多个扬声器发出恶意命令。特别是,装甲攻击者可能通过最小化恶意和原始音频样本之间的差异来隐藏对抗命令。此外,当电话通过蓝牙与车载扬声器连接时,另一边的人可能会无意或有意地向ASR系统发出语音指令。
(2)如果司机在打电话或播放音乐时将智能手机设置为移动扬声器(免提模式),则可能会从司机的智能手机发出恶意命令。同样,乘客的智能手机也可能被利用来发出恶意指令。因此,有必要识别来自移动设备(如智能手机)的扬声器发出的语音命令。
(3)乘客可能会向ASR系统发出危险的人类语音指令。例如,孩子们可能会无意中对汽车发出错误的指令,或者故意扰乱娱乐系统。此外,我们假设恶意乘客可能会携带或留下一些专用的便携式硬件,以发动高级攻击,例如在人类听不见的频率范围内的攻击(尽管大多数专用硬件设备的尺寸可能都不小)。

五、实验要点


① SIEVE识别并过滤掉来自多个汽车扬声器的多源语音指令

由于合法的人类语音指令总是单源信号,所以SIEVE识别并过滤掉来自多个汽车扬声器的多源语音指令。多源检测是基于一个关键的观点,即当同一信号在短时间内从多个源接收多次时,接收信号的重叠将扩大信号在时域的相关性。因此,SIEVE可以通过对信号重叠进行自相关分析来识别多源语音指令。

当攻击者使用多个车载扬声器进行语音指令攻击时,由于麦克风在不同时刻多次捕捉相同的信号,混响效应会扩大。由于同一信号的多个副本在小时间内的重叠扩大了信号的时域相关性,因此可以计算信号的线性预测(LP)残差来判断语音指令是否来自多个扬声器。此外,利用希伯特包络和局部增强技术对显著激励进行增强。其基本思想是,在麦克风捕捉到的音频信号中,显著激励瞬间的相对时间延迟保持不变。因此,通过累积整个语音指令信号的自相关结果,我们可以比较不同的模式来区分单源信号和多源信号。与其他方法相比,采用LP残差法,因为它可以达到更高的检测精度。

② 区分人的声音和单个扬声器的声音。
开发了两种新的方法,即功率谱验证和局部极值交叉检验,以检测来自电子扬声器的声音。由于普通扬声器可以抑制低频信号的功率,因此我们使用功率谱密度来区分人声和重播声。为了逃避我们的功率谱检查,攻击者可能会设计一个反滤波器来补偿扬声器的频率响应。我们可以通过在时域进行局部极值验证来击败这种装甲攻击。将这两种检测方法结合在频域特征和时域特征上,可以准确地检测出来自扬声器的声音。

③ 区分司机和乘客。
我们使用双麦克风来决定语音指令的方向。双麦克风由一对麦克风(m1和m2)组成,它们彼此靠近(例如5厘米)。当一个声音被两个麦克风捕获时,由于源与麦克风之间的距离远远大于两个麦克风之间的距离,我们使用一个远场模型来测量到达时间(TDOA)。为了最大限度地提高检测精度,我们将双麦克风定位在两个麦克风连线垂直于驾驶员座椅与两个麦克风中点连线的方向,如图1所示,双通道信号的互相关函数可以有效地测量两通道之间的时延。如图2所示,角度范围(车内)可以被划分为多个小饼状区域。当声音传播方向垂直于这两个麦克风时,测量可以达到对驱动器识别的最高精度。

当有声音来自驾驶员的方向时,互相关函数几乎是中心对称的。当声音来自任何乘客时,互相关函数就会偏离。在图2中,灰色区域代表了不同乘客的识别区域。在大多数情况下,它可以准确地区分司机和乘客的方向,我们在真实世界的实验中证实了这一点。在某些情况下,它是具有挑战性的区分司机和乘客坐在司机后面(也就是说,PRL),特别是,当司机可能倾向于右边的司机的位置(例如,休息他们的胳膊放在汽车扶手)和乘客可能会向前倾斜,头部靠近驾驶座的头枕。我们开发了一种频谱辅助检测技术,将特定声音的位置与特定声音的频谱特征相结合,以提高检测精度。

实验结果: 当汽车在嘈杂的街道上行驶时,SIEVE在区分人声和非人声方面的准确率可达96.75%。它可以进一步从人的声音中识别驾驶员的声音,准确率达到96.76%。

SIEVE: Secure In-Vehicle Automatic Speech Recognition Systems 论文报告相关推荐

  1. SoK: The Faults in our ASRs: An Overview of Attacks against Automatic Speech Recognition (题目过长)阅读笔记

    目录 前言 正文 总结 "精读"笔记 Introduction Background Attacks against VPSes Attack threat model taxon ...

  2. NLP之ASR:语音识别技术(Automatic Speech Recognition)的简介、发展历史、案例应用之详细攻略

    NLP之ASR:语音识别技术(Automatic Speech Recognition)的简介.发展历史.案例应用之详细攻略 目录 语音识别技术(Automatic Speech Recognitio ...

  3. “Imperceptible,Robust,and Targeted Adversaria lExamples for Automatic Speech Recognition”

    背景: 1.对抗样本大多用于图像领域: 2.目前用于音频的对抗样本有两个缺点: (1)容易被人类察觉 改进方法:频率掩蔽.通过使用另外一种充当"掩蔽器"的信号对对抗性样本进行掩护 ...

  4. 语音识别(ASR)论文优选:端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  5. 语音识别论文:Comparing the Benefit of Synthetic Training Data for Various Automatic Speech Recognition Arc

    声明:我主要从事语音合成,对语音识别的学习主要出于兴趣.文章内容摘要如有错误,还望读者指出,共同​学习进步. 欢迎关注微信公众号:低调奋进 Comparing the Benefit of Synth ...

  6. 【论文学习】《Who is Real Bob? Adversarial Attacks on Speaker Recognition Systems》

    <Who is Real Bob? Adversarial Attacks on Speaker Recognition Systems>论文学习 文章目录 <Who is Real ...

  7. The LeVoice Far-field Speech Recognition System for VOiCES from a Distance Challenge 2019

    The LeVoice Far-field Speech Recognition System for VOiCES from a Distance Challenge 2019 Yulong Lia ...

  8. Kaldi学习笔记——The Kaldi Speech Recognition Toolkit(Kaldi语音识别工具箱)(上)

    最近看了有关KALDI的论文,在这里介绍一下. Abstract: We describe the design of Kaldi, a free, open-source toolkit for s ...

  9. Whither Speech Recognition: 25年又一个25年

    Pierce's harsh criticism Whither Speech Recognition - J.R. Pierce, 1969 In deception, studied and ar ...

最新文章

  1. Java 里的HashMap(HashTable) 简介.
  2. Linux+DDoS deflate 预防DDoS
  3. python顺序结构实验_Python程序设计实验报告二:顺序结构程序设计
  4. 化工原理少学时答案解析_化工原理 少学时 思考题答案
  5. java 和 区别_java 和 =的区别
  6. mysql多客户端数据不同步_一种多终端设备上的数据同步方法
  7. C语言 #define
  8. 【iCore2模块】VGA模块样板谍照!
  9. 小红书面试题——paddingNum,用逗号分割数字串
  10. 使用DataBinding的Android SearchView示例教程
  11. Kotlin中变量不同于Java: var 对val(KAD 02)
  12. 2003系统企业版镜像服务器,Windows Server 2003 R2/SP2简体中文企业版原版镜像
  13. kubadm运行逻辑——init-certs证书的生成与创建
  14. win10没法进入安全模式的处理办法
  15. Lab颜色空间及其应用
  16. OpenCV+MFC 显示图像
  17. CMOS和CCD相机对比
  18. Fitbit协助执法部门破获一起犯罪案件
  19. 快手2020春季实习生及校招补招程序B卷
  20. 2022我的校招求职历程

热门文章

  1. 四级准考证在电脑上什么格式
  2. DC域控服务器与辅助DC域控服务器创建
  3. CrowdCounting将标注信息加到图片上可视化
  4. vue中实现拖拽功能
  5. Vue生命周期中钩子函数理解简记
  6. 蓝桥杯 2012 3 拼音字母
  7. 2021-08-01数据导出到Excel表格
  8. 微信小程序开发选取相册照片/拍照API调用
  9. Win7操作系统下安装Visual C++6.0详细操作手册(亲验有效)
  10. SpringBoot个人博客系统(含源码+数据库)