SIEVE: Secure In-Vehicle Automatic Speech Recognition Systems 论文报告

一、论文信息

标题：SIEVE: Secure In-Vehicle Automatic Speech Recognition Systems

作者：Shu Wang, Jiahao Cao, Kun Sun, Qi Li

单位：Center for Secure Information Systems, George Mason University；Institute for Network Sciences and Cyberspace, Tsinghua University; Beijing National Research Center for Information Science and Technology

会议：Usenix security 2020

二、相关背景

由于传感器技术和人工智能算法的快速发展，自动驾驶汽车正在成为我们日常生活中不可逆转的趋势。最新的车载语音控制系统为司机和乘客提供了与无人驾驶汽车互动的便捷方式。然而，车载语音控制系统的核心模块即自动语音识别(ASR)模块容易受到各种对抗性语音指令攻击。特别是，由于大多数车载ASR系统默认支持扬声器独立识别，乘客可以向ASR系统发出恶意指令，从而控制关键的车载系统。此外，远程攻击者可能会将语音命令隐藏到歌曲中，当通过汽车喇叭或智能手机喇叭播放歌曲时，ASR系统可以识别歌曲中的恶意语音命令，这可能会导致无人驾驶汽车出现意想不到的行为甚至事故。

目前，已经提出了许多对策来防御ASR系统对抗对抗性语音命令。利用短期谱特征或韵律特征来区分不同的用户。然而，由于人声的特征通常是低维度的，高级乘客可以模仿司机的声音，绕过现有的防御系统。此外，现有的识别用户身份的方法在嘈杂的环境下通常是不可靠的，而车载ASR系统对对抗语音命令攻击要求更高的安全保障，以防止可能的交通事故。

此外，为了防止扬声器发出恶意的声音命令，研究人员设计了一些方法来识别声音命令是来自人类还是扬声器。它们依靠光谱特征和噪声特征来区分人和说话人,它们都基于一个基本假设，即语音指令来自单一来源。然而，在无人驾驶汽车的情况下，恶意的语音命令可能来自多个来源(例如，多个汽车扬声器)。因此，多源声音和单源声音的不同特征可能会干扰人的声音和非人的声音的区分

三、主要内容

实现了一个SIEVE系统的原型，并在不同的驾驶条件下进行了真实的研究。实验结果表明，在车载ASR系统上，SIEVE可以击败各种对抗性语音指令。

四、风险分析

（1）恶意的语音命令可能来自车辆的扬声器。人们在播放音乐或打电话时，将手机连接到汽车音响系统是很常见的。此外，CD/DVD 通常通过扬声器播放。由于音乐可能从各种不可信的来源下载，攻击者可能编辑音频文件的音轨，通过一个或多个扬声器发出恶意命令。特别是，装甲攻击者可能通过最小化恶意和原始音频样本之间的差异来隐藏对抗命令。此外，当电话通过蓝牙与车载扬声器连接时，另一边的人可能会无意或有意地向ASR系统发出语音指令。
（2）如果司机在打电话或播放音乐时将智能手机设置为移动扬声器(免提模式)，则可能会从司机的智能手机发出恶意命令。同样，乘客的智能手机也可能被利用来发出恶意指令。因此，有必要识别来自移动设备(如智能手机)的扬声器发出的语音命令。
（3）乘客可能会向ASR系统发出危险的人类语音指令。例如，孩子们可能会无意中对汽车发出错误的指令，或者故意扰乱娱乐系统。此外，我们假设恶意乘客可能会携带或留下一些专用的便携式硬件，以发动高级攻击，例如在人类听不见的频率范围内的攻击(尽管大多数专用硬件设备的尺寸可能都不小)。

五、实验要点

① SIEVE识别并过滤掉来自多个汽车扬声器的多源语音指令

由于合法的人类语音指令总是单源信号，所以SIEVE识别并过滤掉来自多个汽车扬声器的多源语音指令。多源检测是基于一个关键的观点，即当同一信号在短时间内从多个源接收多次时，接收信号的重叠将扩大信号在时域的相关性。因此，SIEVE可以通过对信号重叠进行自相关分析来识别多源语音指令。

当攻击者使用多个车载扬声器进行语音指令攻击时，由于麦克风在不同时刻多次捕捉相同的信号，混响效应会扩大。由于同一信号的多个副本在小时间内的重叠扩大了信号的时域相关性，因此可以计算信号的线性预测(LP)残差来判断语音指令是否来自多个扬声器。此外，利用希伯特包络和局部增强技术对显著激励进行增强。其基本思想是，在麦克风捕捉到的音频信号中，显著激励瞬间的相对时间延迟保持不变。因此，通过累积整个语音指令信号的自相关结果，我们可以比较不同的模式来区分单源信号和多源信号。与其他方法相比，采用LP残差法，因为它可以达到更高的检测精度。

② 区分人的声音和单个扬声器的声音。
开发了两种新的方法，即功率谱验证和局部极值交叉检验，以检测来自电子扬声器的声音。由于普通扬声器可以抑制低频信号的功率，因此我们使用功率谱密度来区分人声和重播声。为了逃避我们的功率谱检查，攻击者可能会设计一个反滤波器来补偿扬声器的频率响应。我们可以通过在时域进行局部极值验证来击败这种装甲攻击。将这两种检测方法结合在频域特征和时域特征上，可以准确地检测出来自扬声器的声音。

③ 区分司机和乘客。
我们使用双麦克风来决定语音指令的方向。双麦克风由一对麦克风(m1和m2)组成，它们彼此靠近(例如5厘米)。当一个声音被两个麦克风捕获时，由于源与麦克风之间的距离远远大于两个麦克风之间的距离，我们使用一个远场模型来测量到达时间(TDOA)。为了最大限度地提高检测精度，我们将双麦克风定位在两个麦克风连线垂直于驾驶员座椅与两个麦克风中点连线的方向，如图1所示，双通道信号的互相关函数可以有效地测量两通道之间的时延。如图2所示，角度范围(车内)可以被划分为多个小饼状区域。当声音传播方向垂直于这两个麦克风时，测量可以达到对驱动器识别的最高精度。

当有声音来自驾驶员的方向时，互相关函数几乎是中心对称的。当声音来自任何乘客时，互相关函数就会偏离。在图2中，灰色区域代表了不同乘客的识别区域。在大多数情况下，它可以准确地区分司机和乘客的方向，我们在真实世界的实验中证实了这一点。在某些情况下,它是具有挑战性的区分司机和乘客坐在司机后面(也就是说,PRL),特别是,当司机可能倾向于右边的司机的位置(例如,休息他们的胳膊放在汽车扶手)和乘客可能会向前倾斜,头部靠近驾驶座的头枕。我们开发了一种频谱辅助检测技术，将特定声音的位置与特定声音的频谱特征相结合，以提高检测精度。

实验结果： 当汽车在嘈杂的街道上行驶时，SIEVE在区分人声和非人声方面的准确率可达96.75%。它可以进一步从人的声音中识别驾驶员的声音，准确率达到96.76%。