语音识别(ASR)论文优选:A comparison of streaming models and data augmentation methods for robust speech recog
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。语音合成领域论文列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。
A comparison of streaming models and data augmentation methods for robust speech recognition
本文为三星在2021.11.19更新的文章,主要对比端到端流式ASR系统Monotonic Chunkwise Attention (MoChA) 和 Recurrent Neural Network-Transducer (RNN-T)的性能以及multi-conditioned training using an acoustic simulator, Vocal Tract Length Perturbation (VTLP) for speaker variability, and SpecAugment等数据增广对比试验,主要为经验分享,具体的文章链接https://arxiv.org/pdf/2111.10043.pdf
1 背景
端到端的ASR最近几年受到重大关注,其使用一个网络结构来完成传统的ASR多个模块共同完成的任务,大大降低其复杂程度。在现实场景中,ASR需要满足时延低的特性,因此streaming asr被研究。本文对比了目前主流的端到端streaming ASR的方案:Monotonic Chunkwise Attention (MoChA) 和 Recurrent Neural Network-Transducer (RNN-T)。另外也对比三种数据增广方案的实验对比:multi-conditioned training using an acoustic simulator, Vocal Tract Length Perturbation (VTLP) for speaker variability, and SpecAugment。
2 详细设计
本文先回顾了MoChA和RNN-T的网络结构(图1所示),为了对比公平,本文的encoder部分的结构及超参相同,都使用LSTM的结构。其中MoChA的chunk设置为4,其对齐如图2所示。另外本文训练模型使用了warm-up 的策略,其学习率随着添加layer而变化如图3所示。
3 实验
本文除了对比MoChA和RNN-T流式模型,还对比了非流式模型Bi-directional LSTM with Full Attention (BFA) models and Uni-directional LSTM with Full Attention (UFA) 。训练使用的数据为LibriSpeech Corpus,测试数据为Test set - LibriSpeech clean with noise和Test set - VOiCES。另外对比了数据增广的方案Room acoustics simulation,Vocal Tract Length Perturbation和 SpecAugment,训练添加的Room acoustics simulation占比如公司4所示。首先看table1对比了MoChA和RNN-T在每种方案的对比试验,在clean数据上MoChA表现好,在noise数据上RNN-T表现好。另外RNN-T在时延、模型大小上更占优势,更适合在端上进行部署使用。Table2对比warm-up的效果,结果显示warm-up训练提高性能。Table 3对比数据增广acoustics simulation的影响,有结果可知该数据增广在noise数据上效果显著,clean数据集效果反而下降。Table 4对比三种数据增广方案在流式和非流式系统上的性能,其大大提高的系统的性能,而且在非流式系统上表现更突出。Table5和Table6对比了MoChA和RNN-T的速度和参数量,其结果显示RNN-T更具备优势,更适合在边缘设备上进行部署的方案。
4 总结
本文对比端到端流式ASR系统Monotonic Chunkwise Attention (MoChA) 和 Recurrent Neural Network-Transducer (RNN-T)的性能以及acoustic simulator, Vocal Tract Length Perturbation (VTLP) for speaker variability, and SpecAugment等数据增广对比试验,主要为经验分享。
语音识别(ASR)论文优选:A comparison of streaming models and data augmentation methods for robust speech recog相关推荐
- 语音识别(ASR)论文优选:车内场景粤语指令数据集CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command Recogni
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- 语音识别(ASR)论文优选:端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- 语音识别(ASR)论文优选:关注语音识别系统Fairness问题Towards Measuring Fairness in Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- 语音识别(ASR)论文优选:挑战ASR规模极限Scaling ASR Improves Zero and Few Shot Learning
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- 语音识别(ASR)论文优选:Icassp 2022 M2MeT方案总结
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- 语音识别(ASR)论文优选:性能测试Wav2Vec2.0 on the Edge: Performance Evaluation
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- 语音识别(ASR)论文优选:Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...
- 语音识别(ASR)论文优选:Tied Reduced RNN-T Decoder
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...
- 论文阅读:Regularizing Deep Networks with Semantic Data Augmentation
论文阅读:Regularizing Deep Networks with Semantic Data Augmentation 动机 特征空间的语义变换 Implicit semantic data ...
最新文章
- 用 .NET Memory Profiler 跟踪.net 应用内存使用情况--基本应用篇(转载)
- vivo系统如何没root激活Xposed框架的经验
- 【译】Deep Learning with Knowledge Graphs
- centos 6 x64 mysql_CentOS 6.x版本升级Mysql
- mysql check table_mysql check table
- 表单html遇到的问题及处理,Html表单中遇到的问题
- Mac OS X Tips
- mac安装搜狗输入法
- matlab排序excel数据库,matlab对excel数据进行排序求和
- 003之可想而知(一)
- 写代码的时候图片显示不出来怎么办?
- php英语单词大全95
- IndexedBD的一些心得(总结)
- 阿里云最新最全扩容方法
- 解决机械+固态的电脑无法安装window10系统的问题
- linux mint 解压zip,Linux:压缩解压
- 最近20年天文学有什么重大的进展
- mysql桌面型数据库下载_桌面数据库下载v2019.12.001 安装版-西西软件下载
- win32 api简易实现ftp文件上传
- 胧月初音未来计算机,胧月---初音未来(调教用)