声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。

A comparison of streaming models and data augmentation methods for robust speech recognition

本文为三星在2021.11.19更新的文章,主要对比端到端流式ASR系统Monotonic Chunkwise Attention (MoChA) 和 Recurrent Neural Network-Transducer (RNN-T)的性能以及multi-conditioned training using an acoustic simulator, Vocal Tract Length Perturbation (VTLP) for speaker variability, and SpecAugment等数据增广对比试验,主要为经验分享,具体的文章链接https://arxiv.org/pdf/2111.10043.pdf


1 背景

端到端的ASR最近几年受到重大关注,其使用一个网络结构来完成传统的ASR多个模块共同完成的任务,大大降低其复杂程度。在现实场景中,ASR需要满足时延低的特性,因此streaming asr被研究。本文对比了目前主流的端到端streaming ASR的方案:Monotonic Chunkwise Attention (MoChA) 和 Recurrent Neural Network-Transducer (RNN-T)。另外也对比三种数据增广方案的实验对比:multi-conditioned training using an acoustic simulator, Vocal Tract Length Perturbation (VTLP) for speaker variability, and SpecAugment。

2 详细设计

本文先回顾了MoChA和RNN-T的网络结构(图1所示),为了对比公平,本文的encoder部分的结构及超参相同,都使用LSTM的结构。其中MoChA的chunk设置为4,其对齐如图2所示。另外本文训练模型使用了warm-up 的策略,其学习率随着添加layer而变化如图3所示。

3 实验

本文除了对比MoChA和RNN-T流式模型,还对比了非流式模型Bi-directional LSTM with Full Attention (BFA) models and Uni-directional LSTM with Full Attention (UFA) 。训练使用的数据为LibriSpeech Corpus,测试数据为Test set - LibriSpeech clean with noise和Test set - VOiCES。另外对比了数据增广的方案Room acoustics simulation,Vocal Tract Length Perturbation和 SpecAugment,训练添加的Room acoustics simulation占比如公司4所示。首先看table1对比了MoChA和RNN-T在每种方案的对比试验,在clean数据上MoChA表现好,在noise数据上RNN-T表现好。另外RNN-T在时延、模型大小上更占优势,更适合在端上进行部署使用。Table2对比warm-up的效果,结果显示warm-up训练提高性能。Table 3对比数据增广acoustics simulation的影响,有结果可知该数据增广在noise数据上效果显著,clean数据集效果反而下降。Table 4对比三种数据增广方案在流式和非流式系统上的性能,其大大提高的系统的性能,而且在非流式系统上表现更突出。Table5和Table6对比了MoChA和RNN-T的速度和参数量,其结果显示RNN-T更具备优势,更适合在边缘设备上进行部署的方案。

4 总结

本文对比端到端流式ASR系统Monotonic Chunkwise Attention (MoChA) 和 Recurrent Neural Network-Transducer (RNN-T)的性能以及acoustic simulator, Vocal Tract Length Perturbation (VTLP) for speaker variability, and SpecAugment等数据增广对比试验,主要为经验分享。

语音识别(ASR)论文优选:A comparison of streaming models and data augmentation methods for robust speech recog相关推荐

  1. 语音识别(ASR)论文优选:车内场景粤语指令数据集CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command Recogni

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  2. 语音识别(ASR)论文优选:端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  3. 语音识别(ASR)论文优选:关注语音识别系统Fairness问题Towards Measuring Fairness in Speech Recognition

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  4. 语音识别(ASR)论文优选:挑战ASR规模极限Scaling ASR Improves Zero and Few Shot Learning

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  5. 语音识别(ASR)论文优选:Icassp 2022 M2MeT方案总结

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  6. 语音识别(ASR)论文优选:性能测试Wav2Vec2.0 on the Edge: Performance Evaluation

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  7. 语音识别(ASR)论文优选:Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...

  8. 语音识别(ASR)论文优选:Tied Reduced RNN-T Decoder

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...

  9. 论文阅读:Regularizing Deep Networks with Semantic Data Augmentation

    论文阅读:Regularizing Deep Networks with Semantic Data Augmentation 动机 特征空间的语义变换 Implicit semantic data ...

最新文章

  1. 用 .NET Memory Profiler 跟踪.net 应用内存使用情况--基本应用篇(转载)
  2. vivo系统如何没root激活Xposed框架的经验
  3. 【译】Deep Learning with Knowledge Graphs
  4. centos 6 x64 mysql_CentOS 6.x版本升级Mysql
  5. mysql check table_mysql check table
  6. 表单html遇到的问题及处理,Html表单中遇到的问题
  7. Mac OS X Tips
  8. mac安装搜狗输入法
  9. matlab排序excel数据库,matlab对excel数据进行排序求和
  10. 003之可想而知(一)
  11. 写代码的时候图片显示不出来怎么办?
  12. php英语单词大全95
  13. IndexedBD的一些心得(总结)
  14. 阿里云最新最全扩容方法
  15. 解决机械+固态的电脑无法安装window10系统的问题
  16. linux mint 解压zip,Linux:压缩解压
  17. 最近20年天文学有什么重大的进展
  18. mysql桌面型数据库下载_桌面数据库下载v2019.12.001 安装版-西西软件下载
  19. win32 api简易实现ftp文件上传
  20. 胧月初音未来计算机,胧月---初音未来(调教用)

热门文章

  1. 计算机比赛小组名称和口号,小组比赛口号霸气押韵
  2. 基于opencv的倾斜文本行的校正
  3. DSP28335软件实验研究--DA_AD模块功能详解
  4. 关于数据科学的十本好书
  5. 计算机两个用户怎么设置密码,电脑如何设置密码 电脑密码三个设置
  6. python成功安装cartopy之后,调用crs时却出现错误,如何解决
  7. 渠道商用假流量冒充真实用户
  8. 金融投资大数据(1)-马科维茨资产组合基于excel
  9. 荣耀30会更新鸿蒙系统吗,华为荣耀30肿么升级鸿蒙系统?
  10. 网站搭建需要什么技术?