语音去噪深度学习模型论文总结（大多基于transformer）

深度学习模型：

我总结了之前看的模型，并又寻找了基于transformer的模型，挑选了四个性能较好（评判标准是各种语音评价指标、该论文提出的模型与已有模型相比较得到的结果）的模型，其中前面三个是基于transformer的模型，最后一个是基于CRN网络的模型。每个论文的链接都在介绍后给出。

《T-GSA: Transformer with Gaussian-Weighted Self-Attention for Speech Enhancement》该论文发表于2020.5的ICASSP上。提出了一种模型Transformer with Gaussian-weighted self-attention （T-GSA），其注意权重根据目标和上下文符号之间的距离衰减。与RNN不同，transformer可以并行处理输入序列。此外，可通过高斯方程计算注意权重解决上下文之间的长期依赖关系，其中衰减由高斯方程确定。

该论文认为输入和输出序列之间的对其是不必要的，所以只使用transformer中的encoder（如图1）。首先输入含噪时域语音的STFT，通过encoder得到语音信号的时频掩码，这个掩码是通过缩放噪声预测的干净的语音序列，最后通过iSTFT获得增强后的时域信号。以上是T-GSA模型的实现机制。

图1

其中Gaussian-weighted self-attention如图2所示：

图2

实验结果表明，与传统的Transformer和RNN相比，所提出的自我注意方案显著提高了SDR和PESQ分数，T-GSA显著提高了语音增强性能，并优于以前（2020.5之前）的所有网络模型。

https://arxiv.org/pdf/1910.06762.pdf

《TSTNN:TWO-STAGE TRANSFORMER BASED NEURAL NETWORK FOR SPEECH ENHANCEMENT IN THE TIME DOMAIN》发表于2021年5月的ICASSP,提出了一种用于时域端到端语音增强的两级变压器神经网络（TSTNN： two-stage transformer neural network）。

最大的特点是该模型在编码器和解码器之间结合了TSTM来学习远程语音序列的局部和全局上下文信息。由的encoder、TSTM、masking module, decoder组成。后面将介绍该模型主要的两个特点。

首先该模型在原有的transformer模型上进行改进：原有transformer结构由编码器和解码器组成。在该模型中，只使用编码器部分，原始transformer由三个重要模块组成：positional encoding, multi-head attention and position-wise feed-forward network。但是在改进的encoder中删除了位置编码部分，因为它不适用于声学序列。且前馈网络的第一个完全连接层被GRU层取代。改进后的transformer如图3所示。

图3

其次是 two-stage transformer block（图4），它基于改进的transformer，具有local transformer和global transformer，其分别提取局部和全局上下文信息。解决了长期依赖问题。

图4

接下来将介绍模型的运作机理，该模型首先利用encoder将语音信道数增加、帧大小减半，其次通过由四个堆叠的two-stage transformer block的TSTM学习局部和全局上下文特征，masking module利用该特征来获得用于去噪的mask，最后通过encoder重建增强后的语音信号。

图5

模型在时域模型中表现最好，且有最小的参数量（0.92Mb)，在TF也优于大多数模型。

图6

https://arxiv.org/ftp/arxiv/papers/2103/2103.09963.pdf

《Lightweight Causal Transformer with Local Self-Attention for Real-Time Speech Enhancement》该论文发表于2021.9的ISCA上。描述了一种新的语音增强transformer结构。该模型使用local causal self-attention，这使得它轻量级，因此特别适合于计算资源有限的环境中的实时语音增强。

引入local attention机制解决transformer禁止长序列输入的问题，因为语音目标的时间范围大致在几秒钟，这一时间范围已经包含足够的信息，因此结合local attention是很有必要的。并且使用 four-module transformer模型，具有local causal self-attention，对语音序列进行实时的增强。解决传统transformer不是因果关系的问题。

该模型做了销蚀实验得到的最优结构，与LSTM和CNN模型作比较，模型的参数量分别仅为LSTM和CNN的28%和44%。在所有语音质量和可懂度方面都优于LSTM和CNN模型，只需模型复杂度的一小部分。

图7

http://staff.ustc.edu.cn/~jundu/Publications/publications/oostermeijer21_interspeech.pdf

《DPCRN: Dual-Path Convolution Recurrent Network for Single Channel Speech Enhancement》该论文在2021.7发表于ISCA(国际语音通讯会议).

DPRNN被提出来，以便更有效地对时域中的极长序列进行语音增强。通过将长序列分割成较小的块，并应用块内和块间的RNN。在该论文中，将DPRNN模块与CRN相结合，设计了一个名为双路径卷积递归网络（DPCRN）的模型，用于时频域的语音增强。用DPRNN模块取代了CRN中的RNN，其中块内RNN被用来模拟单帧的频谱模式，块间RNN被用来模拟连续帧之间的依赖。

该模型由encoder、双路径RNN模块、decoder构成，其中编码器、解码器的结构类似于CRN。编码器先对语音序列提取信号特征，然后由双路径RNN将长的序列特征被分割成较小的块，由块内和块间的RNN迭代处理，减少每个RNN要处理的序列长度。最后由编码器重建增强后的语音信号。

图8

仅凭0.8M的参数，提交的DPCRN模型在Interspeech 2021年深度噪声抑制（DNS）挑战赛的赛道上取得了3.57的总体平均意见得分（MOS）。并且在MOS得分方面优于DTLN、DCCRN模型。

图9

https://arxiv.org/pdf/2107.05429.pdf

下表是这四个模型的部分性能参数

	PESQ	SSNR	COVL
T-GSA	3.06	10.78	3.62
TSTNN	2.96	9.7	3.67
LCT	3.35
DPCRN	2.46

  | **3.67** |

| LCT | 3.35 | | |
| DPCRN | 2.46 | | |

语音去噪深度学习模型论文总结（大多基于transformer）相关推荐

判断深度学习模型的稳定性_基于深度学习的三维模型检索算法研究
三维模型检索github项目地址github.com 大量的实验和比赛都证明了深度学习在图像检索中的效果很好,本文也将利用神经网络,研究刚体三维模型检索算法,并借助实验结果,来说明本文提出的网络模型 ...
基于web端和C++的两种深度学习模型部署方式
深度学习Author:louwillMachine Learning Lab 本文对深度学习两种模型部署方式进行总结和梳理.一种是基于web服务端的模型部署,一种是基... 深度学习 Author:l ...
【深度学习】基于web端和C++的两种深度学习模型部署方式
深度学习 Author:louwill Machine Learning Lab 本文对深度学习两种模型部署方式进行总结和梳理.一种是基于web服务端的模型部署,一种是基于C++软件集成的方式进行部署 ...
pytorch基于web端和C++的两种深度学习模型部署方式
本文对深度学习两种模型部署方式进行总结和梳理.一种是基于web服务端的模型部署,一种是基于C++软件集成的方式进行部署. 基于web服务端的模型部署,主要是通过REST API的形式来提供接口方便调用 ...
基于web端的深度学习模型部署
1.1 web服务与技术框架下面以ResNet50预训练模型为例,旨在展示一个轻量级的深度学习模型部署,写一个较为简单的图像分类的REST API.主要技术框架为Keras+Flask+Redis. ...
R基于H2O包构建深度学习模型实战
R基于H2O包构建深度学习模型实战目录 R基于H2O包构建深度学习模型实战 #案例分析
【深度学习】情感分析：基于文本分类与情感预测的方法
本文将介绍情感分析的基本概念.技术原理和方法,以及如何使用文本分类和情感预测技术实现情感分析.我们将通过实际的代码示例展示如何使用Python和相关库构建情感分析模型,并应用在实际场景中. 1. 情感 ...
论文解读：CLNN-loop：预测不同细胞系和CTCF结合位点 (CBS) 对类型中CTCF介导的染色质环的深度学习模型
Title:CLNN-loop: A deep learning model to predict CTCF-mediated chromatin loops in the different cel ...
新论文推荐：Auto-Keras:自动搜索深度学习模型的网络架构和超参数
Auto-Keras 是一个开源的自动机器学习库,由美国德州农工大学(Texas A&M University)助理教授胡侠和他的两名博士生:金海峰.Qingquan Song提出.Auto- ...

语音去噪深度学习模型论文总结（大多基于transformer）

深度学习模型：

语音去噪深度学习模型论文总结（大多基于transformer）相关推荐

最新文章

热门文章