语音识别(ASR)论文优选：A comparison of streaming models and data augmentation methods for robust speech recog

声明：平时看些文章做些笔记分享出来，文章中难免存在错误的地方，还望大家海涵。搜集一些资料，方便查阅学习：http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html，语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg）。如有转载，请注明出处。欢迎关注微信公众号：低调奋进。

A comparison of streaming models and data augmentation methods for robust speech recognition

本文为三星在2021.11.19更新的文章，主要对比端到端流式ASR系统Monotonic Chunkwise Attention (MoChA) 和 Recurrent Neural Network-Transducer (RNN-T)的性能以及multi-conditioned training using an acoustic simulator, Vocal Tract Length Perturbation (VTLP) for speaker variability, and SpecAugment等数据增广对比试验，主要为经验分享，具体的文章链接https://arxiv.org/pdf/2111.10043.pdf

1 背景

端到端的ASR最近几年受到重大关注，其使用一个网络结构来完成传统的ASR多个模块共同完成的任务，大大降低其复杂程度。在现实场景中，ASR需要满足时延低的特性，因此streaming asr被研究。本文对比了目前主流的端到端streaming ASR的方案：Monotonic Chunkwise Attention (MoChA) 和 Recurrent Neural Network-Transducer (RNN-T)。另外也对比三种数据增广方案的实验对比：multi-conditioned training using an acoustic simulator, Vocal Tract Length Perturbation (VTLP) for speaker variability, and SpecAugment。

2 详细设计

本文先回顾了MoChA和RNN-T的网络结构（图1所示），为了对比公平，本文的encoder部分的结构及超参相同，都使用LSTM的结构。其中MoChA的chunk设置为4，其对齐如图2所示。另外本文训练模型使用了warm-up 的策略，其学习率随着添加layer而变化如图3所示。

3 实验

本文除了对比MoChA和RNN-T流式模型，还对比了非流式模型Bi-directional LSTM with Full Attention (BFA) models and Uni-directional LSTM with Full Attention (UFA) 。训练使用的数据为LibriSpeech Corpus，测试数据为Test set - LibriSpeech clean with noise和Test set - VOiCES。另外对比了数据增广的方案Room acoustics simulation，Vocal Tract Length Perturbation和 SpecAugment，训练添加的Room acoustics simulation占比如公司4所示。首先看table1对比了MoChA和RNN-T在每种方案的对比试验，在clean数据上MoChA表现好，在noise数据上RNN-T表现好。另外RNN-T在时延、模型大小上更占优势，更适合在端上进行部署使用。Table2对比warm-up的效果，结果显示warm-up训练提高性能。Table 3对比数据增广acoustics simulation的影响，有结果可知该数据增广在noise数据上效果显著，clean数据集效果反而下降。Table 4对比三种数据增广方案在流式和非流式系统上的性能，其大大提高的系统的性能，而且在非流式系统上表现更突出。Table5和Table6对比了MoChA和RNN-T的速度和参数量，其结果显示RNN-T更具备优势，更适合在边缘设备上进行部署的方案。

4 总结

本文对比端到端流式ASR系统Monotonic Chunkwise Attention (MoChA) 和 Recurrent Neural Network-Transducer (RNN-T)的性能以及acoustic simulator, Vocal Tract Length Perturbation (VTLP) for speaker variability, and SpecAugment等数据增广对比试验，主要为经验分享。

语音识别(ASR)论文优选：A comparison of streaming models and data augmentation methods for robust speech recog相关推荐

语音识别(ASR)论文优选：车内场景粤语指令数据集CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command Recogni
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
语音识别(ASR)论文优选：端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
语音识别(ASR)论文优选：关注语音识别系统Fairness问题Towards Measuring Fairness in Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
语音识别(ASR)论文优选：挑战ASR规模极限Scaling ASR Improves Zero and Few Shot Learning
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
语音识别(ASR)论文优选：Icassp 2022 M2MeT方案总结
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
语音识别(ASR)论文优选：性能测试Wav2Vec2.0 on the Edge: Performance Evaluation
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
语音识别(ASR)论文优选：Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...
语音识别(ASR)论文优选：Tied Reduced RNN-T Decoder
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...
论文阅读：Regularizing Deep Networks with Semantic Data Augmentation
论文阅读:Regularizing Deep Networks with Semantic Data Augmentation 动机特征空间的语义变换 Implicit semantic data ...

语音识别(ASR)论文优选：A comparison of streaming models and data augmentation methods for robust speech recog

语音识别(ASR)论文优选：A comparison of streaming models and data augmentation methods for robust speech recog相关推荐

最新文章

热门文章