声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

Interactive Speech and Noise Modeling for Speech Enhancement

该篇文章是中国传媒大学和亚洲微软发表的文章,文章更新于2020.12.14,本文章主要提出了交互式语音和噪声分离模型,实现较好的语音增强效果,另外本文提出的模型也可以应用到语音分离等其他多信号处理的任务,还是非常的有趣,具体的文章链接https://arxiv.org/pdf/2012.09408.pdf

1 背景

语音增强的工作是在混有噪声的音频中提取出干净的噪声。目前的主要方案如图一中的a和b所示,直接对音频进行建模来获取干净音频,或者对噪声进行建模,然后消除原始音频中的噪声。这两种方案处理的音频都存在一些问题,比如生成的音频部分受损或者噪声消除不干净等等。基于以前的工作,本文提出了同时对speech和noise建模,并且两种信号之间相互交流,使语音和噪声分离更彻底,具体如图一的c。

2 详细的设计

详细的系统如图2所示,speech 和noise的模型结构完全一样都是encoder-RA(residual-convolution-andattention)-decoder模型,只是输入和输出不同。其中为了使speech和noise的信息相互交流,添加了四个RA block和四次信息交换。另外encoder和decoder的网络结构如图3的a和b所示。最后,本文使用的RA结构和信息交换结构图如图四和图五所示,读者看图就一目了然。

3 实验

首先验证系统中的每个部分的作用,各项指标的值越大越好。由table 1可知添加SSA比不添加的效果好,使用信息交换比不使用的效果好。

图6展示了speech和noise的模型的信息流,由图c和f显示着两个模型可以很好输出speech和noise特征。图7和图8展示了RA效果,noise的发散的,因为白噪声是每一帧都存在,speech的逐渐聚集于局部。

另外,本文对比了目前几种语音增强的方案,由table 2和3可知,本文的提出的效果最好。最后,把本文提出的策略应用到speech separation任务中,效果也相当的好。

4 总结

本文章主要提出了交互式语音和噪声分离模型,实现语音增强,另外本文提出的模型可以应用到语音分离等其他多信号处理的任务,还是非常有趣。

语音信号处理(DSP)论文优选:Interactive Modeling for Speech Enhancement相关推荐

  1. 语音信号处理 c语言,语音信号处理(毕业设计论文).doc

    语音信号处理(毕业设计论文) 摘 要 语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一.通过语音传递信息是人类最重要. ...

  2. 【论文笔记之 SN-Net】Interactive Speech and Noise Modeling for Speech Enhancement

    本文对 Chengyu Zheng 于 2021 年在 AAAI 上发表的论文进行简单地翻译.如有表述不当之处欢迎批评指正.欢迎任何形式的转载,但请务必注明出处. 论文链接:https://ojs.a ...

  3. 语音降噪论文“A Hybrid Approach for Speech Enhancement ...“的研读

    最近认真的研读了一篇关于语音降噪的论文(A Hybrid Approach for Speech Enhancement Using MoG Model and Neural Network Phon ...

  4. 语音信号处理(DSP)论文优选 :提取音频pitch方法对比Performance Analysis of Several Pitch Detection Algorithms

    声明:语音信号处理(DSP)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Performance ...

  5. 【语音信号处理】1语音信号可视化——时域、频域、语谱图、MFCC详细思路与计算、差分

    基本语音信号处理操作入门 1. 数据获取 2. 语音信号可视化 2.1 时域特征 2.2 频域特征 2.3 语谱图 3. 倒谱分析 4. 梅尔系数 4.1 梅尔频率倒谱系数 4.2 Mel滤波器原理 ...

  6. 语音论文优选:口语理解A Streaming End-to-End Framework For SLU

    声明:语音论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 A Streaming End-to-En ...

  7. 语音信号处理_书单 | 语音研究进阶指南

    作为人类最自然的交流方式,"听"和"说"包括了人类大脑皮层从听觉感知到语言处理和理解,再到声音生成这个"神奇"的认知过程.语音领域的探索和研 ...

  8. 论文翻译:2020_RNNoise:A Hybrid DSP/Deep Learning Approach to Real-Time Full-Band Speech Enhancement...

    网上已经有很多人翻译了,但我做这工作只是想让自己印象更深刻 文章方向:语音增强 论文地址:基于DSP/深度学习的实时全频带语音增强方法 博客地址:https://www.cnblogs.com/LXP ...

  9. 语音合成论文优选:M2voc大赛总结The M2voc Challenge 2021

    声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 The Multi-speaker M ...

最新文章

  1. emacs按键绑定详解
  2. c++11 多线程 1c++ concurrency in action
  3. 7.1.1 [Enterprise Library]缓存应用程序块场景和目标
  4. Session与Cookie区别[1][摘]
  5. 站长必看系列:完全揭密百度和谷歌收录规律
  6. 平台信赖度成为双十一影响消费者购买决策的重要因素
  7. 暴雪还不赶快?劳拉与光之守护者PC平台登陆
  8. 捡起JavaScript(1)
  9. elementUI 学习入门之 Button 按钮
  10. Thread类和Runnable接口如何运用?
  11. ASP.NET验证控件之RegularExpressionValidator
  12. linux批量配置文件,linux下根据用户输入批量修改配置文件ip
  13. 写软件详细设计方案总结
  14. 破解电信光猫华为HG8120C关闭路由功能方法
  15. 泛函分析 01.03 距离空间-开集和连续映射
  16. 【PR学习笔记】PR学习笔记之PR快捷键
  17. [补记]小河流水哗啦啦之昨日种种
  18. 使用Trove的integration定制化trove镜像
  19. 自己写一个调查问卷Web项目 (超详细版)
  20. 海思hi3516EV300_4G图传模组防雷防静电推荐图

热门文章

  1. TV Show Game 【2-SAT】
  2. 从零开始学数据分析之——《线性代数》第一章 行列式
  3. OpenSSL创建生成CA证书、服务器、客户端证书及密钥
  4. Linux学习笔记_文件系统和文件管理
  5. Tribon 软件操作 概念(1)
  6. 6.3-Django第三天
  7. 【Python小知识】字符串前加r、u、b、f是什么意思?
  8. 特斯拉“独木难支”?中国品牌包揽 6 月泰国纯电动汽车登记量前三
  9. 排序之选择排序(图解)
  10. 51动态数码管基础实验