《ASVspoof 2015: the First Automatic Speaker Verification Spoofing and Countermeasures Challenge》论文学习

文章目录

《ASVspoof 2015: the First Automatic Speaker Verification Spoofing and Countermeasures Challenge》论文学习
- 摘要
- 1 介绍
- 2 ASVspoof数据库和协议
- - 2.1 训练数据
  - 2.2 开发数据
  - 2.3 评估数据
- 3 动机:欺骗攻击降低ASV性能
- 4 协议，度量和结果
- - 4.1 协议
  - 4.2 度量
  - 4.3 结果
- 5 讨论与未来工作
- 6 结论

摘要

越来越多的独立研究已经证实了自动说话人验证( ASV )技术对欺骗干扰的脆弱性。
然而，与其他生物识别方式相比， ASV 的欺骗和对抗研究仍处于起步阶段。
目前阻碍研究进展的一个障碍是缺乏标准，这阻碍了对不同研究人员产生的结果进行比较。
ASVspoof 计划旨在通过提供标准语料库、协议和度量来支持共同的评估来克服这一瓶颈。
本文介绍了第一届的情况，总结了结果，并讨论了未来的挑战和研究方向。

关键词 —— 说话人验证，欺骗，反欺骗，反措施，欺骗检测

1 介绍

自动说话人验证( ASV )提供了一个低成本和灵活的生物识别解决方案的人身份验证。
虽然 ASV 系统的可靠性现在被认为足以支持大众市场的采用，但人们担心该技术容易受到欺骗，也被称为表示攻击。
欺骗是指一种攻击，欺骗者通过伪装成另一个注册人员来操作生物识别系统。
已知的漏洞包括通过模仿、重放、语音合成和语音转换(《Spoofing and countermeasures for speaker verification: A survey》)进行的攻击。

保护 ASV 系统免受欺骗的一般策略有两种：第一种是继续追求一般意义上更健壮的 ASV 技术；第二种更流行的方法是围绕开发新的欺骗干扰对策。
针对重放攻击(《Preventing replay attacks on speaker verification systems》，《Detecting replay attacks from far-field recordings on speaker verification systems》，《Re-assessing the threat of replay spoofing attacks against automatic speaker verification》，《A study on replay attack and anti-spoofing for text-dependent speaker verification》)，语音合成(《Detection of synthetic speech for the problem of imposture》，《Evaluation of speaker verification security and detection of HMM-based synthetic speech》，《Synthetic speech detection using temporal modulation feature》，《A cross-vocoder study of speaker independent synthetic speech detection using phase information》)，语音转换(《Detecting converted speech and natural speech for anti-spoofing attack in speaker recognition》，《A study on spoofing attack in state-of-the-art speaker verification: the telephone speech case》，《A new speaker verification spoofing countermeasure based on local binary patterns》，《Spoofing countermeasures to protect automatic speaker verification from voice conversion》)和非语音、人工信号(《Spoofing countermeasures for the protection of automatic speaker recognition systems against attacks with artificial signals》)的对策已被报告。
关于最近的调查，读者可以参考《Spoofing and countermeasures for speaker verification: A survey》。
虽然目前没有其他选择，但使用非标准数据库、协议和指标导致了两个重大问题：(i)缺乏对可比和可重复研究的支持；(ii)缺乏泛化的对策。

专注于高度特定的欺骗攻击和使用非标准数据库常常会阻碍不同结果的比较。
例如，许多涉及语音转换欺骗攻击的工作是通过 NIST 说话人识别评估( SRE )数据集执行的，通常使用不同的语音转换算法、协议和度量。
华尔街日报( WSJ )的数据集在涉及合成语音欺骗攻击的工作中一直很流行，但同样也有各种各样的实验配置。
由于数据库、协议和度量多样性(《Spoofing and countermeasures for speaker verification: a need for standard corpora, protocols and metrics》)的存在，不同实验结果之间的比较是极其复杂的，如果不是近乎无意义的话。

缺乏泛化的对策是由于在其发展过程中不恰当地使用了先前的信息而造成的。
现有的大多数对策都是通过使用与将要被检测的相同的欺骗方法产生的训练数据进行优化。
这显然不代表真实的用例场景，在实际用例场景中，不可能知道欺骗攻击的确切性质。
最好的情况是，用这些方法产生的研究结果夸大了对策性能；最坏的情况是，它们掩盖了问题的真实尺度。需要通用的对策(《A one-class classification approach to generalised speaker verification spoofing countermeasures using local binary patterns》，《Joint speaker verification and anti-spoofing in the i-vector space》)来检测以前未被发现的欺骗干扰攻击，即未知欺骗干扰攻击。

ASVspoof 挑战旨在通过以下方法激励进一步的发展：(i)通过多种不同算法实现的不同欺骗攻击来收集和分配标准数据集；(ii)一系列的竞争评估。
继 2013 年 INTERSPEECH 在法国里昂举行的 “欺骗干扰与自动扬声器验证对策” (《Spoofing and countermeasures for automatic speaker verification》)特别会议之后， 2015 年 INTERSPEECH 在德国德累斯顿举行了第一届 ASVspoof 挑战赛(《ASVspoof 2015: Automatic speaker verification spoofing and countermeasures challenge evaluation plan》)。
该挑战的目的是首次支持对欺骗漏洞和对抗性能的独立评估。
该计划提供了一个公平的竞争环境，以方便在一个通用数据集上使用标准协议和度量比较不同的欺骗对策。
在尽可能防止不恰当地使用先验知识的同时，该挑战还旨在刺激通用对策的开发，以潜在地检测变化的和不可预见的欺骗攻击。

为了降低进入成本和最大化参与，第一个 ASVspoof 挑战只涉及检测欺骗语音。
通过将欺骗干扰检测与 ASV 分离，后者的专业知识不是参与的先决条件。
参与者被邀请开发欺骗检测算法，并为免费提供的标准数据集和协议提交分数。
该数据集是根据10种不同的语音合成和语音转换欺骗算法的不同组合生成的。
在评估过程中没有披露任何试验中涉及的特定欺骗干扰算法。
组织者使用评估计划(《ASVspoof 2015: Automatic speaker verification spoofing and countermeasures challenge evaluation plan》)中描述的标准指标来评估性能。

本文描述了 ASVspoof 数据库、协议和度量，所有这些都不受专利限制。
此外，还提供了 16 组参与者结果的摘要。
最后，报告将观察结果和发现于未来优先事项一并提出。

2 ASVspoof数据库和协议

ASVspoof 是基于一个标准的数据库，包括真实的和欺骗的语音。
该系统记录了 106 位人类( 45 位男性和 61 位女性)的真实语音，没有任何修改，也没有显著的信道或背景噪音影响。
利用多种语音合成( SS )和语音转换( VC )算法对原始的真实语音数据进行修改，得到欺骗语音。
生成欺骗语音的更多细节和协议可以在(《SAS: A speaker verification spoofing database containing diverse attacks》)中找到。
整个数据集被划分为三个子集，第一个用于培训，第二个用于开发，第三个用于评价。
每个子集中的发言者和试验的数量如表 1 所示。在这三个子集中没有说话人重叠。

表 1 : 训练、开发和评估集中不重叠目标说话者和话语的数量，每句话的持续时间都在一到两秒之间

2.1 训练数据

该训练集包括从 25 个说话者( 10 男 25 女)中收集的 3750 个真实和 12625 个虚假语音。

表 2 : 在挑战数据库中实现的欺骗干扰算法综述
S1到S5是已知的攻击，可以用于系统开发；S6到S10是只在计算集中看到的未知攻击

如表 2 所示，每个欺骗话语都是由以下五种欺骗算法( S1 – S5 )中的一种生成的：
S1 ：一种基于简化帧选择( FS )(《Towards a voice conversion system based on frame selection》，《Exemplarbased unit selection for voice conversion utilizing temporal information》)的语音转换算法，该算法通过选择目标语音帧来生成转换后的语音；
S2 ：最简单的语音转换算法(《An adaptive algorithm for mel-cepstral analysis of speech》)，它只调整第一个梅尔倒谱系数( C1 )，以将源频谱的斜率移向目标；
S3 ：一种基于隐马尔可夫模型的语音合成系统( HTS )的语音合成算法，采用说话人自适应技术(《Analysis of speaker adaptation algorithms for HMM-based speech synthesis and a constrained smaplr adaptation algorithm》)和仅 20 个自适应语音实现；
S4 ：与 S3 相同的算法，但是使用了 40 个适应语音；
S5 ：使用该语音转换工具包和 Festvox 系统实现的语音转换算法。

之所以选择这五种算法，是因为它们是最容易实现的算法之一。
它们被称为已知的攻击，可以用来训练欺骗探测器。
S1 和 S2 是两种最容易实现的 VC 技术。
S3 、 S4 和 S5 都是使用开源工具包实现的。

对于 S1 、 S2 、 S3 和 S5 ，使用 20 个语句对 VC 和 SS 算法进行训练。
这些话语被包含在用于生成 S4 的较大的适应集中。
如表 2 所示， S1 、 S2 、 S3 和 S4 都使用相同的 STRAIGHT 声码器(《Restructuring speech representations using a pitch-adaptive time frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds》)进行合成，而 S5 使用 MLSA 声码器(《An adaptive algorithm for mel-cepstral analysis of speech》)。

2.2 开发数据

开发数据集包括来自 35 人( 15 名男性， 20 名女性)子集的真实和欺骗语音。
有 3497 个真实和 49875 个欺骗语音。
欺骗语音是根据用于生成训练数据集的相同的五种欺骗算法之一生成的。
开发数据集中的所有数据都可以用于设计和优化欺骗探测器/对策，例如，调优分类器超参数。
用于创建开发数据集的欺骗算法是用于生成评估数据集的算法的子集。
因此，目标是开发一种对策，可以很好地推广到使用不同欺骗算法产生的欺骗数据。

所有元信息，包括说话人身份和精确的欺骗算法，都被提供给训练和开发集的参与者。
参与者被允许使用这些信息来优化系统。

2.3 评估数据

该评价集由来自 46 位说话者( 20 男， 26 女)的 9404 句真实话语和 184000 句虚假话语组成。
真实语音的录音条件与训练和开发集完全相同。
然而，欺骗数据是根据更多不同的欺骗算法生成的。
它们包括用于生成训练和开发集的相同的5种算法，以及另外5种欺骗算法，这些都被称为未知攻击。
S6 ：一种基于联合密度高斯混合模型和考虑全局方差的最大似然参数生成的 VC 算法(《Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory》)；
S7 ：一种类似于 S6 的 VC 算法，但使用线谱对( LSP )而不是梅尔倒谱系数来表示频谱；
S8 ：一种基于张量的 VC (《One-tomany voice conversion based on tensor representation of speaker space》)算法，利用日语数据集构造说话人空间
S9 ：一种利用基于核的偏最小二乘( KPLS )实现非线性变换函数(《Voice conversion using dynamic kernel partial least squares regression》)(无动态信息，用于简化)的 VC 算法；
S10 ：一种基于开源 MARY 文本转语音系统的 SS 算法。
S6 、 S7 、 S8 、 S9 都使用 20 个话语来训练转换功能。
这与用于 S1 、 S2 、 S3 和 S5 的训练数据相同。
S10 的语音合成系统被训练为每个说话人 40 个话语。
由于评估集包含在开发集中没有看到的欺骗攻击，因此它更具有实践场景的代表性(在实践场景中总是存在以前未见过的攻击的可能性)。
因此，相应的结果将揭示潜在的“未知”对策，即面对以前未见过的攻击。
参与者被要求提交该集合中没有元信息提供的欺骗检测分数。

3 动机:欺骗攻击降低ASV性能

为了确认欺骗干扰的漏洞，我们使用挑战数据库和最先进的概率线性判别分析( PLDA )(《Bayesian speaker verification with heavy-tailed priors》，《Probabilistic models for inference about identity》) ASV 系统进行了实验。
以每个目标说话人的五句话语作为登记数据。
利用 Wall Street Journal ( WSJ0 、 WSJ1 和 WSJCAM )和 Resource Management ( RM1 )数据库训练通用背景模型( UBM )和特征空间。
PLDA 系统的更多细节可以在《SAS: A speaker verification spoofing database containing diverse attacks》中找到。

表 3 : PLDA ASV系统性能
结果表明，当受到欺骗干扰(S1-S10)时，基线和相同的系统
EER表示等错误率

评价集 ASV 结果如表 3 所示。
当分别受到 10 种欺骗攻击时，说明了基线和同一系统的结果。
男性和女性的基线平均错误率分别为 2.30% 和 2.08% ；数据库是干净的，没有任何通道或噪声影响。
当受到每次欺骗攻击时，性能显著下降。
最低的男性和女性 EER 分别为 2.66% ( S2 )和 3.11% ( S2 )。
最高的男性和女性 EER 分别为 51.17% ( S10 )和 44.20% ( S10 )。
这些结果证实了欺骗干扰的漏洞，并说明了开发对策的重要性。

4 协议，度量和结果

4.1 协议

ASVspoof 2015 专注于一个独立的欺骗检测任务。
该挑战数据库附带一个标准协议。
它包含一个试验列表，每个试验对应一个随机命名的音频文件。
参与者应该给每个试验分配一个有限的真实分数，这反映了两个竞争假设的相对强度，即试验是真实的还是欺骗的。
为了与 NIST 说话人识别评价相兼容，我们假设正类代表非敌对类，即真实语音。
因此，假设高检测分数表示真实语音，而低检测分数表示欺骗语音。

4.2 度量

参与者不需要优化决策阈值，因此也不会做出艰难的决策； 2015 年 ASVspoof 的主要指标是无门槛的 EER 。
对于欺骗检测任务， EER 定义如下。
用 Pfa(θ)P_{fa}(\theta)Pfa(θ) 和 Pmiss(θ)P_{miss}(\theta)Pmiss(θ) 表示阈值 θ\thetaθ 处的误报率和漏报率。

使 Pfa(θ)P_{fa}(\theta)Pfa(θ) 和 Pmiss(θ)P_{miss}(\theta)Pmiss(θ) 分别为 θ\thetaθ 的单调递减函数和单调递增函数。
EER 对应于两种检测错误率相等的阈值 θEERθ_{EER}θEER ，即 EER=Pfa(θEER)=Pmiss(θEER)EER = P_{fa}(θ_{EER}) = P_{miss}(θ_{EER})EER=Pfa(θEER)=Pmiss(θEER) 。
EERs 使用 Bosaris 工具箱进行估计。
虽然每个欺骗算法的 EER 值都是独立确定的，但是整个评估数据集的 EER 平均值用于排序提交结果。

4.3 结果

参与者最多可以提交 6 个系统的分数。
其中一个系统被指定为主要提交。
仅使用 ASVspoof 2015 语料库中的训练数据对所有初次提交的欺骗检测器进行训练。
该数据集是由来自 16 个国家的 28 个团队提出的要求；16个团队在截止日期前提交了初步报告。
此外，我们亦收到另外 27 份意见书。
匿名结果随后返回给每个团队，然后邀请他们提交他们的工作到 2015 年 INTERSPEECH 的 ASVspoof 特别会议。

本文仅总结了初步提交的挑战结果。
EER 结果如表 4 所示，其中每一行代表每个团队的提交。

表 4 : 2015 ASVspoof 挑战赛的主要提交结果汇总

分别显示已知攻击( S1-S5 )、未知攻击( S6-S10 )和平均攻击的结果，根据后者进行排序。
对于已知的攻击(提供了训练数据)，几乎所有提交的都取得了优异的性能。
在未知攻击的情况下， EER 显著且普遍较高。所有攻击的 EER 最低为 1.21% ，而已知攻击和未知攻击的 EER 最低分别为 0.003% 和 2.013% 。
未知攻击的最低 EER ( 2.013% )是已知攻击的最低 EER ( 0.003% )的 671 倍。

这些结果说明了对已知攻击的过拟合对策的潜力，这可能使 ASV 系统容易受到不可预见的欺骗攻击。
例如，在已知攻击情况下，系统 D 的 EER 值比系统 A 低( 0.003% vs 0.408% )，而在未知攻击情况下，系统 D 的 EER 值是系统 A 的两倍以上( 5.231% vs 2.013% )。
这些结果反过来又证实了制订更普遍的对策的重要性，以及进一步工作和今后评价的必要性。

5 讨论与未来工作

这里讨论的是 ASVspoof 挑战的一些局限性和未来研究的重点。
一个局限是只包含高科技语音合成和语音转换欺骗算法。
虽然它们的相对严重程度目前还不确定，但低技术重放和模仿攻击并未被考虑在内。
即使这些替代攻击被证明没有语音合成和语音转换那么严重，它们在实践中可能是最常见的；它们的实施不需要特别的专业知识，也不需要设备。
因此，在未来的 ASVspoof 挑战中，有一些理由包括此类攻击。

第二个限制与对 STRAIGHT 声码器的关注有关。
其他类型的声码器，如正弦声码器(《Speech analysis/synthesis based on a sinusoidal representation》)也很流行，它们的使用可能对欺骗干扰产生不同的影响。
因此，在未来的挑战中，应该考虑更多种类的声码器和可能更先进的欺骗算法。

没有任何附加噪声或通道效应也可能是一个局限。
即使它们对第一次评估的遗漏是有意选择的，它们对欺骗干扰和欺骗干扰检测的影响目前是不确定的。
因此，今后解决加性噪声和信道变异性问题将十分重要。
未来的评估还应该衡量欺骗干扰和检测对 ASV 的影响。
虽然这样的工作已经被报道过，但在很多情况下，它考虑的是在完全了解 ASV 系统的情况下实施的欺骗攻击。
因此，今后的评价应处理一体化问题。

它还强调，评估不是有意的，也不足以比较不同欺骗攻击的相对严重程度；
在开发语音合成和语音转换攻击方面已经付出了不同程度的努力，并且在其实现中使用了不同数量的训练数据。
此外，应该考虑与语音合成和语音转换社区进行更密切的合作，以便在未来的评估中包括最好的算法。

最后，对与文本无关的 ASV 的关注可能不是与欺骗相关的最具代表性的身份验证应用程序。
因此，今后的评价应包括强调依赖文本的 ASV 。
组织者目前正朝这个方向努力。

6 结论

第一个自动扬声器验证欺骗干扰和对策挑战( ASVspoof 2015 )非常成功地吸引了大量参与者。
本文介绍了挑战数据库、组织、评价结果以及未来挑战和研究的重点。

即使最好的结果显示总体平均检测 EER 小于 1.5% ，但未知攻击的检测 EER 是已知攻击的 5 倍。
此外，虽然有些攻击很容易且始终如一地被检测到，但其他攻击(例如 S10 )会引发接近 50% 的极高错误率。
较低的整体平均水平并不一定是 ASV 健壮性的最佳指标，尤其是当欺诈者专注于最成功的欺骗攻击时(这是可能的)。
因此，最有效的欺骗攻击的错误率可能比平均错误率更有代表性。
在任何情况下，即使平均检测 EERs 较低，也会导致自动说话人验证性能的下降，这是最重要的，这些退化通常要大得多。

2015 年 ASVspoof 的主要发现表明，剩下的需要开发更通用的欺骗干扰检测算法。
泛化仍将是未来评估的重点，以及欺骗干扰检测与自动说话人验证和依赖文本的场景的集成。

【论文学习】ASVspoof 2015 the First Automatic Speaker Verification Spoofing and Countermeasures Challenge相关推荐

【论文学习】《Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis》
<Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis>论文学习文章目 ...
【论文学习】《A Overview of Spoof Speech Detection for Automatic Speaker Verification》
<A Overview of Spoof Speech Detection for Automatic Speaker Verification>论文学习文章目录 <A Overv ...
说话人验证论文翻译：Generalized end-to-end loss for speaker verification
论文地址:2018_说话人验证的广义端到端损失论文代码:Generalized End-to-End Loss for Speaker Verification 地址:说话人验证论文翻译:Gener ...
论文学习：Practical Adversarial Attacks Against Speaker Recognition Systems
文章题目:Practical Adversarial Attacks Against Speaker Recognition Systems 来源:ACM HotMobile 2020 链接:http ...
【论文学习】《“Hello, It’s Me”: Deep Learning-based Speech Synthesis Attacks in the Real World》
<"Hello, It's Me": Deep Learning-based Speech Synthesis Attacks in the Real World>论文 ...
【论文学习笔记】《An Overview of Voice Conversion and Its Challenges》
<An Overview of Voice Conversion and Its Challenges: From Statistical Modeling to Deep Learning&g ...
【论文学习】《Practical Attacks on Voice Spoofing Countermeasures》
<Practical Attacks on Voice Spoofing Countermeasures>论文学习文章目录 <Practical Attacks on Voice ...
【论文学习】《Who is Real Bob? Adversarial Attacks on Speaker Recognition Systems》
<Who is Real Bob? Adversarial Attacks on Speaker Recognition Systems>论文学习文章目录 <Who is Real ...
【论文学习】《Generalized End-to-End Loss for Speaker Verification》
<Generalized End-to-End Loss for Speaker Verification>论文学习文章目录 <Generalized End-to-End Los ...

【论文学习】ASVspoof 2015 the First Automatic Speaker Verification Spoofing and Countermeasures Challenge