近日，阿里云视频云音频技术团队与新加坡国立大学李海洲教授团队合作论文《基于时频感知域模型的单通道语音增强算法》(Time-Frequency Attention for Monaural Speech Enhancement ) 被 ICASSP 2022 接收, 并受邀于今年 5 月在会议上向学术和工业界做研究报告。ICASSP（International Conference on Acoustics, Speech and Signal Processing）是全世界最大的，也是最全面的融合信号处理、统计学习、及无线通信的语音领域顶级会议。

七琦｜作者

本次合作论文提出了融合语音分布特性的 T-F attention (TFA) 模块，可以在几乎不额外增加参数量的情况下显著提高语音增强的客观指标。

arxiv 链接：https://arxiv.org/abs/2111.07518

往期研究成果回顾：
INTERSPEECH 2021：《Temporal Convolutional Network with Frequency Dimension Adaptive Attention for Speech Enhancement》

链接：https://www.isca-speech.org/archive/pdfs/interspeech_2021/zhang21b_interspeech.pdf

1.背景

语音增强算法旨在去除语音信号中的背景噪声等多余信号成分，它是许多语音处理应用的基本组件，例如在线视频会议与通话，智能短视频剪辑，实时视频直播，社交娱乐与在线教育等。

2.摘要

目前大多数关于语音增强的监督学习算法的研究中，通常没有在建模的过程中明确考虑时频域（T-F）表示中语音的能量分布，而其对于准确预测掩码或频谱至关重要。在本文中，我们提出了一个简单而有效的 T-F 注意力（TFA）模块，使得在建模过程中可以显式引入对语音分布特性的先验思考。为了验证我们提出的 TFA 模块的有效性，我们使用残差时序卷积神经网络（ResTCN）作为基础模型，并使用语音增强领域中两个常用的训练目标 IRM [1]（The ideal ratio mask）和 PSM [2] （The phase-sensitive mask）分别进行了探索实验。我们的实验结果表明，应用所提的 TFA 模块可以在几乎不额外增加参数量的情况下显著提高常用的五个客观评估指标，且 ResTCN+TFA 模型始终以较大的优势优于其他 baseline 模型。

3.方法解析

图 1 展示了所提 TFA 模块的网络结构，其中 TA 和 FA 模块分别以黑色和蓝色虚线框标识。AvgPool 和 Conv1D 分别为 average pooling 和 1-D convolution operation 的缩写。⊗ 和 ⊙ 分别表示矩阵乘法和元素级乘法。

图 1

TFA 模块以变换后的时频表示为输入，利用两个独立的分支来分别进行 1-D time-frame attention map 和 1-D frequency-dimension attention map 的生成，然后将其融合为最终需要的 2-D T-F attention map ，最终的结果可以重写为：。

4.实验结果
训练误差曲线

图 2-3 显示了每个模型在 150 epoch 训练中产生的训练和验证集误差曲线。可以看出，与 ResTCN 相比，使用了所提出的 TFA（ResTCN+TFA）的 ResTCN 产生的训练和验证集误差显著降低，这证实了 TFA 模块的有效性。同时，与 ResTCN+SA 和 MHANet 相比，ResTCN+TFA 实现了最低的训练和验证集误差，并显示出明显的优势。在三个 baseline 模型中，MHANet 表现最好，ResTCN+SA 优于 ResTCN。此外，ResTCN、ResTCN+FA 和 ResTCN+TA 之间的比较证明了 TA 和 FA 模块的功效。

图 2 IRM 训练目标下的训练误差曲线

图 3 PSM 训练目标下的训练误差曲线

语音增强客观指标评估

我们使用了五个指标用于对增强性能的评估，包括 wideband perceptual evaluation of speech quality (PESQ) [3], extended short-time objective intelligibility (ESTOI) [4], 以及三个综合指标 [5], mean opinion score (MOS) predictors of the signal distortion (CSIG), background-noise intrusiveness (CBAK), overall signal quality (COVL)。

表 1 和表 2 分别显示了每个信噪比等级下（含四个噪声源）的平均 PESQ 和 ESTOI 分数。评估结果表明，我们提出的 ResTCN+TFA 在 IRM 和 PSM 上的 PESQ 和 ESTOI 方面始终比 ResTCN 取得显著改进，且参数增量可以忽略不计，这证明了 TFA 模块的有效性。具体而言，在 5 dB 条件下，IRM 训练目标下的 ResTCN+TFA 相比baseline ResTCN来说，在 PESQ 指标上提高了 0.18，在 ESTOI 指标上提高了 4.94%。与 MHANet 和 ResTCN+SA 相比，ResTCN+TFA 在所有情况下都表现最好，并且表现出明显的性能优势。在三个 baseline 模型中，整体看下来效果排名是 MHANet > ResTCN+SA > ResTCN。同时，ResTCN+FA 和 ResTCN+TA 相比 ResTCN 也有了可观的改进，这进一步证实了 FA 和 TA 模块的有效性。

表 3 列出了所有测试条件下的平均 CSIG、CBAK 和 COVL 分数。与在表 1和表 2中观察到的趋势一致，所提的 ResTCN+TFA 在三个指标上显著优于 ResTCN，并且在所有模型中表现最好。具体而言，与 ResTCN 相比，PSM 训练目标下 ResTCN+TFA 的 CSIG 提高了 0.21，CBAK 提高了 0.12，COVL 提高了 0.18。

关于阿里云视频云音频技术团队

阿里云视频云音频技术团队，专注于采集播放-分析-处理-传输等全面的音频技术，服务于实时通信、直播、点播、媒体生产、媒体处理，长短视频等业务。通过神经网络与传统信号处理的结合，持续打磨业界领先的 3A 技术，深耕设备管理与适配、qos 技术，持续提升各场景下的直播、实时音频通信体验。

参考文献
[1] Y. Wang, A. Narayanan, and D. Wang, “On training targets for supervised speech separation,” IEEE/ACM Trans. Audio, speech, Lang. Process., vol. 22, no. 12, pp. 1849–1858, 2014.

[2] H. Erdogan, J. R. Hershey, S. Watanabe, and J. Le Roux, “Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks,” in Proc. ICASSP, 2015, pp. 708–712.

[3] R. I.-T. P. ITU, “862.2: Wideband extension to recommendation P. 862 for the assessment of wideband telephone networks and speech codecs. ITU-Telecommunicatio.

[4] J. Jensen and C. H. Taal, “An algorithm for predicting the intelligibility of speech masked by modulated noise maskers,” IEEE/ACM Trans. Audio, speech, Lang. Process., vol. 24, no. 11, pp. 2009–2022, 2016.

[5] Y. Hu and P. C. Loizou, “Evaluation of objective quality measures for speech enhancement,” IEEE Trans. Audio, Speech, Lang. process., vol. 16, no. 1, pp. 229–238, 2007.

「视频云技术」你最值得关注的音视频技术公众号，每周推送来自阿里云一线的实践技术文章，在这里与音视频领域一流工程师交流切磋。公众号后台回复【技术】可加入阿里云视频云产品技术交流群，和业内大咖一起探讨音视频技术，获取更多行业最新信息。

语音顶会 ICASSP 2022 成果分享：基于时频感知域模型的单通道语音增强算法相关推荐

滴滴单通道语音分离与目标说话人提取和抑制技术进展
桔妹导读:为了将目标语音从含多种干扰(如车噪.导航音.车内FM等)的复杂声学环境中分离出来同时尽量减小对原始语音的损伤,提高人机交互.客服听音等的效率,滴滴结合了在前端信号处理的多年研发积累与该领域的 ...
单通道语音信噪分离算法研究
单通道语音信噪分离算法研究摘要:为了评估单通道语音信噪分离的效果,本文分别对六种传统语音增强算法进行了探讨.在理想的高斯白噪声环境下,子空间法增强后的语音信号输出信噪比SNR最大,VMD(Varia ...
【共振峰跟踪】通过平均不同分辨率的方法跟踪共振峰，基于时频lpc的频谱图的MATLAB仿真
1.软件版本 MATLAB2021a 2.本算法理论知识通过平均不同分辨率的方法跟踪共振峰,基于时频lpc的频谱图.此外,它还决定了语音信号的基音轮廓. 3.核心代码 function [fmap, ...
功率谱魏凤英统计程序_单通道语音增强之统计信号模型
[欢迎访问我的博客原文](单通道语音增强之统计信号模型) 1. 信号估计理论简述信号估计理论是现代统计处理的基础课题[@ZhangXianDa2002ModernSP],在通信.语音.图像领域均有广 ...
基于cnn的短文本分类_基于时频分布和CNN的信号调制识别分类方法
文章来源:IET Radar, Sonar & Navigation, 2018, Vol. 12, Iss. 2, pp. 244-249. 作者:Juan Zhang1, Yong Li2 ...
基于盲估计和ICA的单通道盲分离算法–Matlab仿真
关键词:参数盲估计.单通道.盲分离.ICA算法盲源分离简单的来讲就是在不明确系统的传输特性的前提下,从系统的源信号估计出观测信号的传输信道. 假设n个未知的源信号,各传感器接收到m个混合的观测信号, ...
毕业设计-基于深度学习的单通道语音降噪技术
目录前言课题背景和意义实现技术思路一.基于子空间投影的时域语音降噪二.基于噪声信息辅助的双阶段语音降噪三.感知高相关时频损失函数研究实现效果图样例最后前言
stft isar成像 matlab,基于时频分析的ISAR成像
1引言雷达目标的回波具有时变性,因此常用的频域或时域处理方法往往力不从心.解决该问题的主要工具联合时频技术应运而生.逆合成孔径雷达(ISAR)成像的基本方法为距离一多普勒法,距离一多普勒法采用DFT对 ...
基于时频变换的脑波信号（EEG）处理方法
离散傅里叶变换(DFT) 在形式上,变换两端(时域和频域上)的序列是有限长的,而实际上这两组序列都应当被认为是离散周期信号的主值序列.即使对有限长的离散信号作DFT,也应当将其看作其周期延拓的变 ...

语音顶会 ICASSP 2022 成果分享：基于时频感知域模型的单通道语音增强算法

1.背景

2.摘要

3.方法解析

4.实验结果
训练误差曲线

语音增强客观指标评估

关于阿里云视频云音频技术团队

语音顶会 ICASSP 2022 成果分享：基于时频感知域模型的单通道语音增强算法相关推荐

最新文章

热门文章

语音顶会 ICASSP 2022 成果分享：基于时频感知域模型的单通道语音增强算法

1.背景

2.摘要

3.方法解析

4.实验结果 训练误差曲线

语音增强客观指标评估

关于阿里云视频云音频技术团队

语音顶会 ICASSP 2022 成果分享：基于时频感知域模型的单通道语音增强算法相关推荐

最新文章

热门文章

4.实验结果
训练误差曲线