Improving noise robustness of contrastive speech representation learning with speech reconstruction
Improving noise robustness of contrastive speech representation learning with speech reconstruction
研究机构: The Ohio State University,Microsoft Corporation
文章来源:[2110.15430] Improving Noise Robustness of Contrastive Speech Representation Learning with Speech Reconstruction (arxiv.org)
摘要
噪声鲁棒性对于在现实环境中部署自动语音识别 (ASR) 系统至关重要。 降低噪声干扰影响的一种方法是采用预处理模块进行语音增强,然后将增强后的语音馈送到ASR后端。 在这项工作中,我们没有使用传统的级联方法来抑制背景噪声,而是采用了一种通过改进的自监督框架学习噪声鲁棒性表示,用于噪声语音识别。我们提出将重建模块与对比学习相结合,并对噪声数据执行多任务连续预训练。 重建模块用于辅助学习以提高学习到的表示的噪声鲁棒性,因此在推理过程中不需要。实验证明了我们提出的方法的有效性。 我们的模型显著降低了合成带噪 LibriSpeech 测试集的单词错误率 (WER),与数据增强相比,噪声清洁/其他测试集的 WER 减少了约 4.1/7.5%。对于来自 CHiME-4 挑战(单通道)的真实世界嘈杂语音,我们在没有任何去噪前端的情况下获得了最先进的 ASR 性能。此外,我们实现了与仅 16% 的标记数据报告的最佳监督方法相当的性能。
主要创新点
模型整体结构如图(左)所示,具体的重建模块如图(右)所示,包含BLSTM+layernorm+CNN upsampler,CNN upsampler主要作用就是上采样重建语音。
1.在wav2vec2.0的基础之上,引入reconstruction 任务,从noisy 语音显式重建干净语音。
2.重建模块受convolution recurrent network(CRN)启发。CNN upsapmler部分和feature encoder模块完全相反。
3.损失函数,额外引入reconstruction loss。
实验结果
合成带噪数据:
Clean数据:librispeech train-clean-100
训练集noise数据:DNS-challenge
测试集noise数据:MUSAN
SNR: {5,6,7,…,20}dB
真实场景带噪数据:CHIME-4 challenge data
实验结果1:
在开源预训练960h模型的基础上继续训练(continual training),预训练数据为100h train-clean-100带噪数据。Finetune数据为libri-light 10h数据。
1.Baseline是开源pre-train 960h finetune 10h在对应测试集上的结果。clean集合上性能好,noisy集合上性能差。
2.不采用RCModule,进行continual training,会发现在noisy集合上性能提升,在clean集和上性能下降。原因:在带噪数据上训练,预训练模型忘记了在干净数据上学习到的信息。
3.采用RCModule,进行continual training,clean集合上性能下降不大,noisy集合上性能有提升。
实验结果2:
真实场景带噪数据实验
不需要利用前端处理模块,仅利用16%的有监督训练数据就能达到有监督方法的性能
实验结果3:
重建模块的位置选择
实验表明在transformer输出之后进行重建性能最好。
Improving noise robustness of contrastive speech representation learning with speech reconstruction相关推荐
- MOCKINGJAY: UNSUPERVISED SPEECH REPRESENTATION LEARNING WITH DEEP BIDIRECTIONAL TRANSFORMER ENCODERS
文章:MOCKINGJAY: UNSUPERVISED SPEECH REPRESENTATION LEARNING WITH DEEP BIDIRECTIONAL TRANSFORMER ENCOD ...
- 论文阅读——Mockingjay: unsupervised speech representation learning
<Mockingjay: Unsupervised Speech Representation Learning with Deep Bidirectional Transformer Enco ...
- ICML 20: MVGRL Contrastive Multi-View Representation Learning on Graphs
talk 这篇文章是 图对比学习中 常会比较的一篇文章. 原论文中的数据都存在问题,由于dgl的数据集问题,很多人无法在cora复现出86.大多结果都在82-83.文章核心采用 ppnp来进行 视图生 ...
- 对比学习系列论文CPC(二)—Representation Learning with Contrastive Predictive Coding
0.Abstract 0.1逐句翻译 While supervised learning has enabled great progress in many applications, unsupe ...
- 论文阅读《Representation learning with contrastive predictive coding 》(CPC)对比预测编码
论文地址:Representation Learning with Contrastive Predictive Coding 目录 一.Background(背景) 二.Motivation and ...
- 论文解读(GMI)《Graph Representation Learning via Graphical Mutual Information Maximization》
Python微信订餐小程序课程视频 https://edu.csdn.net/course/detail/36074 Python实战量化交易理财系统 https://edu.csdn.net/cou ...
- 【论文笔记】Towards Universal Sequence Representation Learning for Recommender Systems
论文详细信息 题目:Towards Universal Sequence Representation Learning for Recommender Systems 作者:Yupeng Hou a ...
- [2021 icas]PPG-BASED SINGING VOICE CONVERSION WITH ADVERSARIAL REPRESENTATION LEARNING
作者:Li Zhonghao 会议:投稿2021 icassp 单位:bytedance 文章目录 abstract 1. introduction 2. METHOD 2.1 PPGs Encode ...
- 论文翻译:2021_语音增强模型压缩_Towards model compression for deep learning based speech enhancement...
论文地址:面向基于深度学习的语音增强模型压缩 论文代码:没开源,鼓励大家去向作者要呀,作者是中国人,在语音增强领域 深耕多年 引用格式:Tan K, Wang D L. Towards model c ...
最新文章
- 剑指offer-99.调整数组顺序使奇数位于偶数前面
- vs2008生成自定义dll,VS2008发布、生成网站时设置固定的dll文件名
- 1005:I Think I Need a Houseboat-poj
- [css] 你是如何压缩字体的?
- Flowable工作流总结_工作规范流程设计思路
- Python的正则匹配
- SQL-22 统计各个部门对应员工涨幅的次数总和,给出部门编码dept_no、部门名称dept_name以及次数sum...
- RTT实时操作系统概念
- 一起玩转LiteOS组件:Pixman
- 【Flink】Flink消费Kafka数据时指定offset的五种方式
- 简单的俄罗斯方块代码(Java)
- 计算机网络工程师多久过期,软考网络工程师证书有效期
- vm15设置成中文界面
- 单极性非归零NRZ码、双极性非归零NRZ码、2ASK、2FSK、2PSK、2DPSK及MATLAB仿真
- 操作系统-3.假设某多道程序设计系统中有供用户使用的内存100KB,打印机1台。系统采用可变分区方式管理内存:对打印机采用静态分配,并假设输入输出操作的时间忽略不计;采用最短剩余时间优先的进程调度算法
- Vmware安装BT5进入不了图形界面怎么办(KDE版)
- Tableau实现世界GDP排名动态图
- OCX打包CAB并签名的过程
- 深夜切题——Doubles
- 王权游戏中“帽子王”成就的获取
热门文章
- VLC Buffering机制介绍
- 创新奇智港股上市:市值超140亿港元 成AI+制造第一股
- 【观察】站在亚马逊云科技re:Invent舞台看未来,释放技术创新澎湃力量
- 设置默认以管理员的身份运行CMD
- 程序员最值得投资的几件事
- Android中.9图片的说明和绘制
- 什么让人快乐?美最新研究显示惊人答案
- java毕业设计洗衣美源码+lw文档+mybatis+系统+mysql数据库+调试
- iptables拦截域名_Linux利用iptables屏蔽某些域名
- 【华为机试真题 Python实现】字符串格式化输出【2022 Q1 Q2 |100分】