Improving noise robustness of contrastive speech representation learning with speech reconstruction

研究机构： The Ohio State University，Microsoft Corporation

文章来源：[2110.15430] Improving Noise Robustness of Contrastive Speech Representation Learning with Speech Reconstruction (arxiv.org)

摘要

噪声鲁棒性对于在现实环境中部署自动语音识别 (ASR) 系统至关重要。降低噪声干扰影响的一种方法是采用预处理模块进行语音增强，然后将增强后的语音馈送到ASR后端。在这项工作中，我们没有使用传统的级联方法来抑制背景噪声，而是采用了一种通过改进的自监督框架学习噪声鲁棒性表示，用于噪声语音识别。我们提出将重建模块与对比学习相结合，并对噪声数据执行多任务连续预训练。重建模块用于辅助学习以提高学习到的表示的噪声鲁棒性，因此在推理过程中不需要。实验证明了我们提出的方法的有效性。我们的模型显著降低了合成带噪 LibriSpeech 测试集的单词错误率 (WER)，与数据增强相比，噪声清洁/其他测试集的 WER 减少了约 4.1/7.5%。对于来自 CHiME-4 挑战（单通道）的真实世界嘈杂语音，我们在没有任何去噪前端的情况下获得了最先进的 ASR 性能。此外，我们实现了与仅 16% 的标记数据报告的最佳监督方法相当的性能。

主要创新点

模型整体结构如图（左）所示，具体的重建模块如图（右）所示，包含BLSTM+layernorm+CNN upsampler，CNN upsampler主要作用就是上采样重建语音。

1.在wav2vec2.0的基础之上，引入reconstruction 任务，从noisy 语音显式重建干净语音。

2.重建模块受convolution recurrent network(CRN)启发。CNN upsapmler部分和feature encoder模块完全相反。

3.损失函数，额外引入reconstruction loss。

实验结果

合成带噪数据：

Clean数据：librispeech train-clean-100

训练集noise数据：DNS-challenge

测试集noise数据：MUSAN

SNR: {5,6,7,…,20}dB

真实场景带噪数据：CHIME-4 challenge data

实验结果1：

在开源预训练960h模型的基础上继续训练（continual training），预训练数据为100h train-clean-100带噪数据。Finetune数据为libri-light 10h数据。

1.Baseline是开源pre-train 960h finetune 10h在对应测试集上的结果。clean集合上性能好，noisy集合上性能差。

2.不采用RCModule，进行continual training，会发现在noisy集合上性能提升，在clean集和上性能下降。原因：在带噪数据上训练，预训练模型忘记了在干净数据上学习到的信息。

3.采用RCModule，进行continual training，clean集合上性能下降不大，noisy集合上性能有提升。

实验结果2：

真实场景带噪数据实验

不需要利用前端处理模块，仅利用16%的有监督训练数据就能达到有监督方法的性能

实验结果3：

重建模块的位置选择

实验表明在transformer输出之后进行重建性能最好。