深度学习模型:

​ 我总结了之前看的模型,并又寻找了基于transformer的模型,挑选了四个性能较好(评判标准是各种语音评价指标、该论文提出的模型与已有模型相比较得到的结果)的模型,其中前面三个是基于transformer的模型,最后一个是基于CRN网络的模型。每个论文的链接都在介绍后给出。

  • 《T-GSA: Transformer with Gaussian-Weighted Self-Attention for Speech Enhancement》该论文发表于2020.5的ICASSP上。提出了一种模型Transformer with Gaussian-weighted self-attention (T-GSA),其注意权重根据目标和上下文符号之间的距离衰减。与RNN不同,transformer可以并行处理输入序列。此外,可通过高斯方程计算注意权重解决上下文之间的长期依赖关系,其中衰减由高斯方程确定。

​ 该论文认为输入和输出序列之间的对其是不必要的,所以只使用transformer中的encoder(如图1)。首先输入含噪时域语音的STFT,通过encoder得到语音信号的时频掩码,这个掩码是通过缩放噪声预测的干净的语音序列,最后通过iSTFT获得增强后的时域信号。以上是T-GSA模型的实现机制。


​ 图1

​ 其中Gaussian-weighted self-attention如图2所示:


​ 图2

​ 实验结果表明,与传统的Transformer和RNN相比,所提出的自我注意方案显著提高了SDR和PESQ分数,T-GSA显著提高了语音增强性能,并优于以前(2020.5之前)的所有网络模型。

https://arxiv.org/pdf/1910.06762.pdf

  • 《TSTNN:TWO-STAGE TRANSFORMER BASED NEURAL NETWORK FOR SPEECH ENHANCEMENT IN THE TIME DOMAIN》发表于2021年5月的ICASSP,提出了一种用于时域端到端语音增强的两级变压器神经网络(TSTNN: two-stage transformer neural network)。

​ 最大的特点是该模型在编码器和解码器之间结合了TSTM来学习远程语音序列的局部和全局上下文信息。由的encoder、TSTM、masking module, decoder组成。后面将介绍该模型主要的两个特点。

​ 首先该模型在原有的transformer模型上进行改进:原有transformer结构由编码器和解码器组成。在该模型中,只使用编码器部分,原始transformer由三个重要模块组成:positional encoding, multi-head attention and position-wise feed-forward network。但是在改进的encoder中删除了位置编码部分,因为它不适用于声学序列。且前馈网络的第一个完全连接层被GRU层取代。改进后的transformer如图3所示。


​ 图3

​ 其次是 two-stage transformer block(图4),它基于改进的transformer,具有local transformer和global transformer,其分别提取局部和全局上下文信息。解决了长期依赖问题。


​ 图4

​ 接下来将介绍模型的运作机理,该模型首先利用encoder将语音信道数增加、帧大小减半,其次通过由四个堆叠的two-stage transformer block的TSTM学习局部和全局上下文特征,masking module利用该特征来获得用于去噪的mask,最后通过encoder重建增强后的语音信号。


​ 图5

​ 模型在时域模型中表现最好,且有最小的参数量(0.92Mb),在TF也优于大多数模型。


​ 图6

https://arxiv.org/ftp/arxiv/papers/2103/2103.09963.pdf

  • 《Lightweight Causal Transformer with Local Self-Attention for Real-Time Speech Enhancement》该论文发表于2021.9的ISCA上。描述了一种新的语音增强transformer结构。该模型使用local causal self-attention,这使得它轻量级,因此特别适合于计算资源有限的环境中的实时语音增强。

​ 引入local attention机制解决transformer禁止长序列输入的问题,因为语音目标的时间范围大致在几秒钟,这一时间范围已经包含足够的信息,因此结合local attention是很有必要的。并且使用 four-module transformer模型,具有local causal self-attention,对语音序列进行实时的增强。解决传统transformer不是因果关系的问题。

​ 该模型做了销蚀实验得到的最优结构,与LSTM和CNN模型作比较,模型的参数量分别仅为LSTM和CNN的28%和44%。在所有语音质量和可懂度方面都优于LSTM和CNN模型,只需模型复杂度的一小部分。


图7

http://staff.ustc.edu.cn/~jundu/Publications/publications/oostermeijer21_interspeech.pdf

  • 《DPCRN: Dual-Path Convolution Recurrent Network for Single Channel Speech Enhancement》该论文在2021.7发表于ISCA(国际语音通讯会议).

​ DPRNN被提出来,以便更有效地对时域中的极长序列进行语音增强。通过将长序列分割成较小的块,并应用块内和块间的RNN。在该论文中,将DPRNN模块与CRN相结合,设计了一个名为双路径卷积递归网络(DPCRN)的模型,用于时频域的语音增强。用DPRNN模块取代了CRN中的RNN,其中块内RNN被用来模拟单帧的频谱模式,块间RNN被用来模拟连续帧之间的依赖。

​ 该模型由encoder、双路径RNN模块、decoder构成,其中编码器、解码器的结构类似于CRN。编码器先对语音序列提取信号特征,然后由双路径RNN将长的序列特征被分割成较小的块,由块内和块间的RNN迭代处理,减少每个RNN要处理的序列长度。最后由编码器重建增强后的语音信号。

​ 图8

​ 仅凭0.8M的参数,提交的DPCRN模型在Interspeech 2021年深度噪声抑制(DNS)挑战赛的赛道上取得了3.57的总体平均意见得分(MOS)。并且在MOS得分方面优于DTLN、DCCRN模型。

​ 图9

​ 实验结果表明,与传统的Transformer和RNN相比,所提出的自我注意方案显著提高了SDR和PESQ分数,T-GSA显著提高了语音增强性能,并优于以前(2020.5之前)的所有网络模型。

https://arxiv.org/pdf/2107.05429.pdf

​ 下表是这四个模型的部分性能参数

PESQ SSNR COVL
T-GSA 3.06 10.78 3.62
TSTNN 2.96 9.7 3.67
LCT 3.35
DPCRN 2.46
  | **3.67** |

| LCT | 3.35 | | |
| DPCRN | 2.46 | | |

语音去噪深度学习模型论文总结(大多基于transformer)相关推荐

  1. 判断深度学习模型的稳定性_基于深度学习的三维模型检索算法研究

    三维模型检索github项目地址​github.com 大量的实验和比赛都证明了深度学习在图像检索中的效果很好,本文也将利用神经网络,研究刚体三维模型检索算法,并借助实验结果,来说明本文提出的网络模型 ...

  2. 基于web端和C++的两种深度学习模型部署方式

    深度学习Author:louwillMachine Learning Lab 本文对深度学习两种模型部署方式进行总结和梳理.一种是基于web服务端的模型部署,一种是基... 深度学习 Author:l ...

  3. 【深度学习】基于web端和C++的两种深度学习模型部署方式

    深度学习 Author:louwill Machine Learning Lab 本文对深度学习两种模型部署方式进行总结和梳理.一种是基于web服务端的模型部署,一种是基于C++软件集成的方式进行部署 ...

  4. pytorch基于web端和C++的两种深度学习模型部署方式

    本文对深度学习两种模型部署方式进行总结和梳理.一种是基于web服务端的模型部署,一种是基于C++软件集成的方式进行部署. 基于web服务端的模型部署,主要是通过REST API的形式来提供接口方便调用 ...

  5. 基于web端的深度学习模型部署

    1.1 web服务与技术框架 下面以ResNet50预训练模型为例,旨在展示一个轻量级的深度学习模型部署,写一个较为简单的图像分类的REST API.主要技术框架为Keras+Flask+Redis. ...

  6. R基于H2O包构建深度学习模型实战

    R基于H2O包构建深度学习模型实战 目录 R基于H2O包构建深度学习模型实战 #案例分析

  7. 【深度学习】情感分析:基于文本分类与情感预测的方法

    本文将介绍情感分析的基本概念.技术原理和方法,以及如何使用文本分类和情感预测技术实现情感分析.我们将通过实际的代码示例展示如何使用Python和相关库构建情感分析模型,并应用在实际场景中. 1. 情感 ...

  8. 论文解读:CLNN-loop:预测不同细胞系和CTCF结合位点 (CBS) 对类型中CTCF介导的染色质环的深度学习模型

    Title:CLNN-loop: A deep learning model to predict CTCF-mediated chromatin loops in the different cel ...

  9. 新论文推荐:Auto-Keras:自动搜索深度学习模型的网络架构和超参数

    Auto-Keras 是一个开源的自动机器学习库,由美国德州农工大学(Texas A&M University)助理教授胡侠和他的两名博士生:金海峰.Qingquan Song提出.Auto- ...

最新文章

  1. 003:Virtualenvwrapper使用
  2. json 数据类型简介
  3. 构造一个日期类java_Java8 新日期时间类(1)
  4. Strom程序的并发机制,配置并行度(代码实现)、动态改变并行度,local or shuffle分组,分组的概念以及分组类型
  5. 成都Uber优步司机奖励政策(4月2、3日)
  6. c语言设计程序实现顺序冒泡_2019年9月全国计算机等级考试《二级C语言程序设计》题库...
  7. ServletContextListener使用详解
  8. Pwn2Own黑客大赛战况:iPhone 20秒被黑
  9. java远程方法调用(rmi)--好_java 远程方法调用(RMI)
  10. IT资源专业搜索-www.easysoo.cn
  11. C#通过ToLower()方法将字符串转换成小写的代码
  12. 浅谈C中的wprintf和宽字符显示
  13. 网页被劫持会造成什么影响
  14. Yolov5进阶之一摄像头实时采集识别
  15. 计算机网络——第二章(应用层)
  16. 计算机专业学自我分析,计算机专业学习自我鉴定(精选6篇)
  17. 程序员赚钱指南,良心推荐
  18. 单片机复试面试(一)
  19. instagram分享_Facebook,Twitter,Instagram,Google等使用的字体和颜色
  20. 地球罕见的九大自然现象

热门文章

  1. pcm5102a解码芯片音质评测_解码耳放,转接器,与吃鸡游戏,购买经验
  2. 让ElementUI Message消息提示每次只弹出一次
  3. Linux UAC2 功能的设备描述符
  4. go struct标签详解
  5. 010.MODBUS与台达变频器通讯1
  6. android红外遥控器代码剖析,Android 红外遥控器适配
  7. 中南大学计算机系高建良,汤哲 - 中南大学 - 计算机学院
  8. SpringBoot连接TDengine集群写入超时
  9. 联想小新air13重装win10系统
  10. L1-3 谁能进图书馆 (10 分)