Improving noise robustness of contrastive speech representation learning with speech reconstruction

研究机构: The Ohio State University,Microsoft Corporation

文章来源:[2110.15430] Improving Noise Robustness of Contrastive Speech Representation Learning with Speech Reconstruction (arxiv.org)

摘要

噪声鲁棒性对于在现实环境中部署自动语音识别 (ASR) 系统至关重要。 降低噪声干扰影响的一种方法是采用预处理模块进行语音增强,然后将增强后的语音馈送到ASR后端。 在这项工作中,我们没有使用传统的级联方法来抑制背景噪声,而是采用了一种通过改进的自监督框架学习噪声鲁棒性表示,用于噪声语音识别。我们提出将重建模块与对比学习相结合,并对噪声数据执行多任务连续预训练。 重建模块用于辅助学习以提高学习到的表示的噪声鲁棒性,因此在推理过程中不需要。实验证明了我们提出的方法的有效性。 我们的模型显著降低了合成带噪 LibriSpeech 测试集的单词错误率 (WER),与数据增强相比,噪声清洁/其他测试集的 WER 减少了约 4.1/7.5%。对于来自 CHiME-4 挑战(单通道)的真实世界嘈杂语音,我们在没有任何去噪前端的情况下获得了最先进的 ASR 性能。此外,我们实现了与仅 16% 的标记数据报告的最佳监督方法相当的性能。

主要创新点

模型整体结构如图(左)所示,具体的重建模块如图(右)所示,包含BLSTM+layernorm+CNN upsampler,CNN upsampler主要作用就是上采样重建语音。

1.在wav2vec2.0的基础之上,引入reconstruction 任务,从noisy 语音显式重建干净语音。

2.重建模块受convolution recurrent network(CRN)启发。CNN upsapmler部分和feature encoder模块完全相反。

3.损失函数,额外引入reconstruction loss。

实验结果

合成带噪数据:

Clean数据:librispeech train-clean-100

训练集noise数据:DNS-challenge

测试集noise数据:MUSAN

SNR: {5,6,7,…,20}dB

真实场景带噪数据:CHIME-4 challenge data

实验结果1:

在开源预训练960h模型的基础上继续训练(continual training),预训练数据为100h train-clean-100带噪数据。Finetune数据为libri-light 10h数据。

1.Baseline是开源pre-train 960h finetune 10h在对应测试集上的结果。clean集合上性能好,noisy集合上性能差。

2.不采用RCModule,进行continual training,会发现在noisy集合上性能提升,在clean集和上性能下降。原因:在带噪数据上训练,预训练模型忘记了在干净数据上学习到的信息。

3.采用RCModule,进行continual training,clean集合上性能下降不大,noisy集合上性能有提升。

实验结果2:

真实场景带噪数据实验

不需要利用前端处理模块,仅利用16%的有监督训练数据就能达到有监督方法的性能

实验结果3:

重建模块的位置选择

实验表明在transformer输出之后进行重建性能最好。

Improving noise robustness of contrastive speech representation learning with speech reconstruction相关推荐

  1. MOCKINGJAY: UNSUPERVISED SPEECH REPRESENTATION LEARNING WITH DEEP BIDIRECTIONAL TRANSFORMER ENCODERS

    文章:MOCKINGJAY: UNSUPERVISED SPEECH REPRESENTATION LEARNING WITH DEEP BIDIRECTIONAL TRANSFORMER ENCOD ...

  2. 论文阅读——Mockingjay: unsupervised speech representation learning

    <Mockingjay: Unsupervised Speech Representation Learning with Deep Bidirectional Transformer Enco ...

  3. ICML 20: MVGRL Contrastive Multi-View Representation Learning on Graphs

    talk 这篇文章是 图对比学习中 常会比较的一篇文章. 原论文中的数据都存在问题,由于dgl的数据集问题,很多人无法在cora复现出86.大多结果都在82-83.文章核心采用 ppnp来进行 视图生 ...

  4. 对比学习系列论文CPC(二)—Representation Learning with Contrastive Predictive Coding

    0.Abstract 0.1逐句翻译 While supervised learning has enabled great progress in many applications, unsupe ...

  5. 论文阅读《Representation learning with contrastive predictive coding 》(CPC)对比预测编码

    论文地址:Representation Learning with Contrastive Predictive Coding 目录 一.Background(背景) 二.Motivation and ...

  6. 论文解读(GMI)《Graph Representation Learning via Graphical Mutual Information Maximization》

    Python微信订餐小程序课程视频 https://edu.csdn.net/course/detail/36074 Python实战量化交易理财系统 https://edu.csdn.net/cou ...

  7. 【论文笔记】Towards Universal Sequence Representation Learning for Recommender Systems

    论文详细信息 题目:Towards Universal Sequence Representation Learning for Recommender Systems 作者:Yupeng Hou a ...

  8. [2021 icas]PPG-BASED SINGING VOICE CONVERSION WITH ADVERSARIAL REPRESENTATION LEARNING

    作者:Li Zhonghao 会议:投稿2021 icassp 单位:bytedance 文章目录 abstract 1. introduction 2. METHOD 2.1 PPGs Encode ...

  9. 论文翻译:2021_语音增强模型压缩_Towards model compression for deep learning based speech enhancement...

    论文地址:面向基于深度学习的语音增强模型压缩 论文代码:没开源,鼓励大家去向作者要呀,作者是中国人,在语音增强领域 深耕多年 引用格式:Tan K, Wang D L. Towards model c ...

最新文章

  1. 剑指offer-99.调整数组顺序使奇数位于偶数前面
  2. vs2008生成自定义dll,VS2008发布、生成网站时设置固定的dll文件名
  3. 1005:I Think I Need a Houseboat-poj
  4. [css] 你是如何压缩字体的?
  5. Flowable工作流总结_工作规范流程设计思路
  6. Python的正则匹配
  7. SQL-22 统计各个部门对应员工涨幅的次数总和,给出部门编码dept_no、部门名称dept_name以及次数sum...
  8. RTT实时操作系统概念
  9. 一起玩转LiteOS组件:Pixman
  10. 【Flink】Flink消费Kafka数据时指定offset的五种方式
  11. 简单的俄罗斯方块代码(Java)
  12. 计算机网络工程师多久过期,软考网络工程师证书有效期
  13. vm15设置成中文界面
  14. 单极性非归零NRZ码、双极性非归零NRZ码、2ASK、2FSK、2PSK、2DPSK及MATLAB仿真
  15. 操作系统-3.假设某多道程序设计系统中有供用户使用的内存100KB,打印机1台。系统采用可变分区方式管理内存:对打印机采用静态分配,并假设输入输出操作的时间忽略不计;采用最短剩余时间优先的进程调度算法
  16. Vmware安装BT5进入不了图形界面怎么办(KDE版)
  17. Tableau实现世界GDP排名动态图
  18. OCX打包CAB并签名的过程
  19. 深夜切题——Doubles
  20. 王权游戏中“帽子王”成就的获取

热门文章

  1. VLC Buffering机制介绍
  2. 创新奇智港股上市:市值超140亿港元 成AI+制造第一股
  3. 【观察】站在亚马逊云科技re:Invent舞台看未来,释放技术创新澎湃力量
  4. 设置默认以管理员的身份运行CMD
  5. 程序员最值得投资的几件事
  6. Android中.9图片的说明和绘制
  7. 什么让人快乐?美最新研究显示惊人答案
  8. java毕业设计洗衣美源码+lw文档+mybatis+系统+mysql数据库+调试
  9. iptables拦截域名_Linux利用iptables屏蔽某些域名
  10. 【华为机试真题 Python实现】字符串格式化输出【2022 Q1 Q2 |100分】