回顾丨2021年声纹识别研究与应用学术研讨会

2021年11月20日，第三届声纹识别研究与应用学术研讨会在线上成功举办。北京希尔贝壳科技有限公司受邀成为本次会议的赞助方。本次会议由厦门大学智能语音实验室、中国计算机学会语音对话与听觉专委会、语音之家联合举办，新疆大学协办，语音之家提供平台与社区支持，厦门大学洪青阳和新疆大学黄浩两位老师共同担任大会主席。

语音之家 Speech Homehttp://www.speechhome.com/SRRW

上午9：00，洪青阳老师宣布研讨会开始，并简要介绍本次研讨会的筹备情况以及报告内容。随后，中国计算机学会语音对话与听觉专委会副主任郑方教授致辞，希望学术研究能与应用对接打通，真正解决实际难题，并呼吁共同培育语音产业的健康发展，避免恶性竞争，同时郑老师介绍了明年即将在中国举办的Odyssey2022会议，期待大家积极投稿和参与。

第一位演讲嘉宾是来自新加坡A*STAR的Dr. Kong Aik LEE。Dr. LEE是国际上享有盛誉的声纹识别专家，他受邀为本次研讨会做主旨报告。Dr. LEE报告的主题是《Speaker Recognition and Characterization in Xi-vector Embedding Space》，介绍了一种新的embedding——xi-vector，能够有效结合x-vector和i-vector的优势。Dr. LEE在报告中详细地介绍如何通过线性高斯模型，对输入特征序列的逐帧不确定性（frame-wise uncertainty）建模，并巧妙地通过神经网络训练高斯均值和方差参数，在神经网络框架中实现生成式建模（generative modeling）。报告还展示了在宽带的SITW和窄带的SRE18、SRE19数据集的实验结果，xi-vector均取得比x-vector更优的性能。Xi-vector兼具区分性建模和生成式建模能力，是说话人表征研究新的突破，有关代码也已集成到asv-subtools开源工具，供感兴趣的研究人员复现。

接下来的报告是邀请报告，包括四个环节。
环节1演讲嘉宾：洪青阳、王东

洪青阳老师分享的主题是《说话人分割聚类研究进展与展望》。报告首先介绍了说话人分割聚类（说话人日志）相关竞赛和数据集，分析与探讨了模块化的说话人表征架构和端到端架构，并对聚类算法做了梳理汇总，包括实际应用需要的版本。然后针对CALLHOME和DIHARD-III数据集设计了不同系统并对比其性能，采用谱聚类（SC）和AHC效果普遍较优，VBx重聚类可进一步提升性能。针对VoxSRC-21 Track4评测集，报告介绍了厦大团队做的一系列优化工作，特别是VAD和语音重叠检测（OSD）算法。报告的亮点是基于图卷积神经网络（GCN）的聚类算法，引起较多人关注和提问。洪老师首先对比了GCN与CNN的差异，然后详细介绍归一化邻接矩阵的计算过程，以及如何通过直接学习图的特征和结构信息，实现对输入x-vector节点更好的预测分类。基于Voxceleb的实验表明，GCN能够挖掘embedding的结构信息，有效提升聚类性能。洪老师报告最后做了总结，并对未来方向做了展望。

王东老师分享的主题是《Minding on Hard Trials》。现在一些测试数据集EER虽然已经降到1%以内，但并没有反映真实情况。王老师在报告中，指出难样本是真实存在的，单独拿出来测试就会变差很多，即使是SOTA模型，性能也会急剧下降。报告针对难样本的分布做了分析，并分别做了人工比对和机器比对，发现机器对难样本的区分能力，比人工强很多。报告进一步分析了带margin的损失函数AM-Softmax，指出其参数m并没有真正拉大目标样本和非目标样本的边界。基于此分析，报告最后提出一种改进版本的损失函数，称为Real AM-Softmax（RAM-Softmax），并做了实验，验证RAM-Softmax在难样本测试集的改进效果。

环节2演讲嘉宾：杜俊、钱彦旻、张晓雷

杜俊老师分享的主题是《Target Speaker Extraction in Multi-Speaker Interaction Scenario》。报告从鸡尾酒会问题开始，指出在实际多说话人交互场景，说话人日志和语音分离的效果会受到背景噪声、语音重叠等因素的严重干扰。基于目标说话人的先验知识，在无监督语音分离采用性别区分，在说话人日志任务进行两个阶段的目标说话人抽取，从BabyTrain抽取儿童语音，均可以取得明显的性能提升。报告指出目标说话人抽取可做为有效的前端模块，集成到语音通信、语音识别等任务中，但在实际应用中，也将面临目标说话人高质量数据缺乏而低质量数据较丰富的问题，报告建议要研究说话人表征和迁移学习等技术，另外也要考虑如何用模拟数据和真实数据来评估性能。报告最后介绍了杜老师牵头组织的多模态信息语音处理（MISP）2021赛事。

钱彦旻老师分享的主题是《Multi-Modality Matters: Audio-Visual Deep Neural Networks for Robust Person Verification》。钱老师团队在多模态的研究很有前沿性，已经取得不少开拓性的成果。报告首先指出人脸和声纹识别各自单模态存在的不足，然后从三个方面介绍多模态研究重点，包括如何融合音视觉信息？当某个模态信息丢失或被破坏，如何让多模态系统正常工作？如何通过多模态系统提升单模态系统的性能？针对音视觉的融合，钱老师团队提出了三种架构，包括特征级别的音视觉网络（AVN-F）、表征级别的音视觉网络（AVN-E）和联合学习表征级别的音视觉网络（AVN-J），报告展示了融合架构在Vox1数据集的改进效果。针对实际应用场景，报告进一步对比了噪声测试效果，实验中模拟单模态信息缺失的场景，并在训练中采用数据扩增方案，实验结果表明扩增后音视觉系统改进更明显，针对表征级别提出的噪声分布匹配（NDM）扩增方案具有良好的泛化性能，采用联合训练策略可进一步提升性能。报告最后介绍从多模态系统到单模态系统的知识蒸馏，提出基于KL散度的标签级别、基于Cosine距离的表征级别、基于MMD的分布级别三种框架，通过实验结果分析，发现标签级别和分布级别的蒸馏更加有效，其中视觉系统相对音频系统更能从老师模型获得有用信息，其EER改进可达10%，而音频信息的蒸馏，需要找更有效的方式。钱老师的报告让大家对多模态研究有更深入的了解。

张晓雷老师分享的主题是《噪声与远场环境下的声纹识别》。报告首先介绍复杂环境下声纹识别面临一系列挑战，包括加性噪声、信道畸变、混响等问题，然后介绍基于深度学习的自组织阵列语音处理方案，将多设备的拾音前端起来，形成自组织麦克风阵列，以显著降低远场的发生概率、提高拾音和识别性能，其核心思想是用深度模型代替理想假设。报告接着介绍张老师团队所做的大规模自组织阵列数据采集工作，并在2021年发布了严格同步的Libri-Adhoc40数据集（包含40个通道，每个通道100余小时训练、10小时的开发与测试数据），报告同时展示了在这个数据集的语音识别测试结果。报告最后介绍基于自组织阵列的声纹识别工作，包括段级别和帧级别的通道加权融合算法，并给出了在Libri-Adhoc40的在不同通道数的测试结果。

环节3演讲嘉宾：何亮、张鹏远、李明

何亮老师分享的主题是《声纹识别与语音防伪技术前沿及工作进展》。何老师首先介绍语音防伪技术的背景，包括语音深度伪造的损害以及国家有关部门出台的最新规定，然后介绍声纹识别主流技术发展，特别关注了声纹识别竞赛涌现出的出色模型及训练策略。针对语音防伪技术的发展，何老师指出目前的研究主要集中在前端特征表示的有效性和对深度模型架构的进一步优化，报告详细列出了数据层面、特征层面和模型层面的有效策略。在报告第2部分，何老师介绍了语音防伪的思路，包括1）通过Attention，关注那些最可能不一样的地方；2）熟悉的人，更容易辨别真伪，即加入说话人辅助信息。针对所提出的思路，何老师也给出了实验结果，验证其有效性。报告最后展示了在声纹识别竞赛与语音防伪的成果，何老师也对未来工作做了展望。

张鹏远老师分享的主题是《音频鉴伪研究进展及展望》。张老师首先简要介绍了中科院声学所和语言声学与内容理解重点实验室，然后在研究背景部分，介绍了深度伪造的概念和正负面应用，强调在自动说话人验证（ASV）采用鉴伪系统的必要性，进而梳理了国内外鉴伪工作的研究进展，包括四届ASVspoof竞赛数据集。张老师报告详细分析了VAD对鉴伪性能的影响，通过实验证明静音部分的重要性。由于语音合成和转换方法繁多，不同伪造方法对频谱的影响分布在不同频域，张老师团队提出了基于双频带融合的音频鉴伪方法，将语谱图特征切分为不同频带分别训练，在判决时低频特征相对于全频带和高频特征，获得了最好的性能，而把高频和低频结果融合可提升鲁棒性。由于ASVspoof 2021的录音回放攻击赛道存在严重的数据集不匹配，因此需要解决的问题是，如何在不匹配的数据集上进行训练获得更加鲁棒的结果？张老师团队采用了交叉子带的方法，使用对数功率谱的高频部分进行训练，低频部分进行测试，同时也使用低频部分训练，高频部分测试。实验表明在数据集不匹配的情况下，交叉子带算法可以比使用单一子带的算法性能提升7%~10%，而不需要额外的数据增强算法。张老师报告还对伪造语音的朔源进行了初探，分析了不同声码器的表现，并做了声码器类别鉴别实验，平均正确率高于95%。最后，张老师对未来工作做了展望，包括面向未知算法的伪造音频检测，伪造工具及算法的溯源等。

李明老师分享的主题是《特定人合成及变声与录音回放语音攻击检测》。李老师首先从声纹深度编码一致性损失函数，跨语言及中英文混合合成，以及零样本语音变声等角度介绍实验室在特定人语音合成及变声方面的近期研究成果。其次，结合ASVspoof 2021录音回放检测任务，李老师详细介绍了基于声码器重建信号差分的信道特征提取与建模方法，并在WORLD、MelGAN、HifiGAN三种声码器设计了实验，发现真实语音和录音的分布差异符合预期的假设，并因此设计了GMM和VAE两种后端分类器。李老师团队所提方法颇具创新性，也在ASVspoof 2021比赛数据集（PA task）验证其有效性。

环节4演讲嘉宾：谢磊、宋彦、李琳

谢磊老师分享的主题是《鲁棒说话人表征技术与其应用》。在报告中，谢老师首先介绍基于二元时间通道频率（DTCF）的说话人表征方案，为避免Squeeze-and-Excitation 注意力机制损失频域和时域上的关键信息，提出了二元时间通道频率 (Duality Temporal-Channel-Frequency, DTCF) 注意力机制，在时间和频率维度上聚合全局上下文来重新校准通道特征，从而学习到更具辨别力的说话人表示。在Voxceleb和CN-Celeb的实验结果表明，ResNet34-DTCF的性能优于ResNet34-SE等其它模型。谢老师之后阐述多层级迁移学习方案，旨在解决远场声纹识别中的数据不匹配问题。针对说话人自适应语音合成，需要额外的目标说话人数据对声学模型或者声码器进行fine-tune，谢老师介绍了如何基于说话人表征，实现Glow-WaveGAN 2的Zero-Shot TTS & VC，并演示了合成效果。针对语音增强，谢老师首先介绍和演示了复数神经网络的降噪效果，然后指出基于声纹先验，即加入提取的目标说话人特征，可进一步提升语音增强效果。报告还介绍了基于心理声学的黑盒声纹攻击。根据掩蔽效应，将“攻击信息”隐藏，使生成的对抗扰动更加不易被人耳感知。报告最后介绍了AISHELL-4、M2MeT和WenetSpeech等开源数据库和竞赛。

宋彦老师分享的主题是《声纹识别中的鲁棒性学习方法研究》。如何有效提升声纹识别系统的鲁棒性，是声纹识别研究的一个热点问题。宋老师首先介绍了基于融合的说话人深度特征学习，即在前端特征学习过程中，融合ResNet和DenseNet (VGG)构建骨干网络，捕捉不同时频分辨率的信息，同时加强特征的重复利用，并采用串行和并行两种融合方式。宋老师接着介绍基于多任务学习框架的说话人识别，指出前端特征学习通常基于说话人鉴别（SID）任务进行优化，而后端学习是基于说话人确认（SV）任务，两者之间存在差异，因此提出联合SID和SV的多任务学习框架。宋老师最后介绍了基于自监督的域鲁棒说话人深度特征学习。特征学习框架通常是基于训练集和测试集独立同分布的假设，但实际应用中存在两者之间的域不匹配问题。宋老师分析了现有的域自适应方法（包括有监督和无监督）和自监督学习方法存在的不足，然后提出基于平滑知识蒸馏（SKD）的多任务学习框架，同时可结合基于域鲁棒模块（DABN、DAIN）的残差单元，在NIST SRE16数据集验证了该学习方法的有效性。

李琳老师分享的主题是《标签噪声干扰下的说话人识别关键技术研究》。深度学习依赖于大量正确标注的数据，但无论是人工标注还是自动标注，大规模数据的采集都不可避免地存在标签错误，也称为标签噪声。使用存在标签错误的数据集直接构建说话人识别系统会极大地降低系统性能。在报告中，李老师首先调研了近几年在ASV领域的标签噪声研究的进展，然后重点介绍厦大团队的主要工作，包括在损失函数、训练策略和后端PLDA建模三个方面抑制标签噪声的改进技术。针对神经网络前端优化，采用了基于标签置信度的训练策略，包括在损失函数中引入网络预测标签，设计动态权重曲线，同时为避免网络单一分类，增加正则化项。针对正确样本的后验概率计算，权重做了相应调整。同时，在AM-Softmax损失函数，引入了“子中心”，以学习复杂分布。在报告中，李老师还介绍了NL-PLDA的实现过程，通过更新标签隐变量元素值，计算标签误差率。基于NIST SRE数据，报告通过大量的实验对比，验证了每个改进策略的有效性，并在最终系统达到整体最优效果。进一步，李老师还展示了标签修正和标签清洗的应用效果。

在以上演讲环节结束后，赞助公司希尔贝壳CEO卜辉介绍了公司业务和语音之家社区。

新疆大学黄浩老师展望了下一届声纹识别研究与应用学术研讨会。嘉宾们讨论了下次会议的相关事宜并提出了宝贵的意见。

至此，本次会议圆满结束。本次会议直播间热度高达10000+，累计人次3000+，我们期待下一届声纹识别研讨会再与大家见面。

回顾丨2021年声纹识别研究与应用学术研讨会相关推荐

SH-SSS丨跨年龄声纹识别：学习年龄不变的说话人特征
SH Symposium Series on Speech (SH SSS 2022) SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台. 来自AI语音技术领域的优秀论文作者. ...
android声纹识别技术,基于Android平台的声纹识别系统的研究与实现
摘要: 社会的发展越来越快,计算机技术的应用也愈来愈广,已经渗透到生活的各个方面.在快节奏.信息化的时代,需要识别和交互的应用日益广泛,要求验证身份的场合越来越多,迅速判定一个人的身份是一个非常重要的 ...
知物由学 | 听声辨人，看声纹识别技术如何保障内容安全？
大家对"指纹"并不陌生,但听说过"声纹"吗? "违法犯罪变得越来越困难了.如今罪犯都没法使用电话了,因为侦探们可以通过他们在话筒上留下的声纹来追踪他. ...
声纹识别开源工具 ASV-Subtools
今天非常荣幸有机会在Speechhome语音技术研讨会上分享我们团队在开源项目上的一些工作.今天我分享的主题是声纹识别开源工具ASV-Subtools. 今天我分享的主要有5个部分的内容,分别是背景介 ...
声纹识别技术发展现状及未来五大发展趋势
走出实验室的声纹识别技术因其广阔的应用场景和价值,从特定领域到民用领域,在国内外正迎来第一波商用化浪潮. 而与此同时,关于声纹识别技术研究的成熟度以及安全可靠性,一直是应用领域讨论的重点,本文基于时下 ...
声纹识别技术五大发展趋势总结
走出实验室的声纹识别技术因其广阔的应用场景和价值,从特定领域到民用领域,在国内外正迎来第一波商用化浪潮. 而与此同时,关于声纹识别技术研究的成熟度以及安全可靠性,一直是应用领域讨论的重点,本文基于时下 ...
声纹识别与声源定位（一）
针对目前智能计算机及大规模数据的发展,依据大脑处理语音.图像数据方法的deep learning技术应运而生.deep learning技术是应用于音频信号识别,模仿大脑的语音信号学习.识别的模式.在 ...
《ASV-Subtools 声纹识别实战》课程
AI工匠学堂https://xjw.h5.xeknow.com/s/2XhsYq ASV-Subtools简介近年来,随着深度学习的快速发展,简单易用.性能稳定.开发高效的深度学习框架越来越被科研和 ...
声纹识别-2.GMM-UBM（高斯混合模型-通用背景模型）
声纹识别-2.GMM-UBM(高斯混合模型-通用背景模型) 前言声纹识别-1.绪论中回顾了声纹识别的类别,性能评价指标和算法.本篇博文介绍声纹识别算法中较为传统的GMM-UBM(Gaussian M ...
干货：NIST评测（SRE19）获胜团队声纹识别技术分析 | CSDN博文精选
作者 | xjdier 来源 | CSDN博文精选 (*点击阅读原文,查看作者更多精彩文章) 近日,NIST说话人识别技术评测 (Speaker Recognition Evaluation,SRE) ...

回顾丨2021年声纹识别研究与应用学术研讨会

回顾丨2021年声纹识别研究与应用学术研讨会相关推荐

最新文章

热门文章