语音识别(ASR)论文优选:SynthASR: Unlocking Synthetic Data for Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进
SynthASR: Unlocking Synthetic Data for Speech Recognition
本文为Alexa Speech, Amazon.com在2021.06.14更新的文章,主要使用tts合成的语料来优化ASR,从而提高ASR的性能,具体的文章链接
https://arxiv.org/pdf/2106.07803.pdf
1 背景
e2e的asr比传统的hybird asr在性能显出突出的优势,但训练ASR模型需要大量的标注数据,这将需要很大的成本开销。同时,tts系统合成的语音质量可以媲美人类的自然语音,而且可以合成不同风格和韵律的语音,因此使用TTS合成的语音来优化ASR成为本文研究的重点。
2 详细设计
本文使用的tts为multi-speaker tts,其中包括对prosody和speaker建模的encoder,具体的结构如图2所示。另外asr使用了rnn-t的结构,具体如图1所示,tts合成的不同风格不同说话人的语料来给rnn-t来训练。另外,本文使用multi-stage 训练策略来适用不同domain的应用,避免了 catastrophic forgetting问题,为了避免使用合成数据造成参数更新范围太大,提出了如公式2的elastic penalty。
3 实验
本文使用LibriSpeech 960h数据来训练rnn-t作为benchmark,然后使用480h数据训练rnn-t作为baseline,然后使用480h+syn 1150h小时训练rnn-t,结果如table1 所示,使用480h+syn 1150h比只使用480h的效果较好。 table 2使用multi-stage来训练rnn-t的效果,结果显示使用multi-stage可以提高性能。
4 总结
本文使用TTS合成的语音和multi-stage 训练方法来优化ASR的性能,从而降低其wer。
语音识别(ASR)论文优选:SynthASR: Unlocking Synthetic Data for Speech Recognition相关推荐
- 语音识别(ASR)论文优选:A comparison of streaming models and data augmentation methods for robust speech recog
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- 语音识别(ASR)论文优选:端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- 语音识别(ASR)论文优选:挑战ASR规模极限Scaling ASR Improves Zero and Few Shot Learning
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- 语音识别(ASR)论文优选:关注语音识别系统Fairness问题Towards Measuring Fairness in Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- 语音识别(ASR)论文优选:Icassp 2022 M2MeT方案总结
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- 语音识别(ASR)论文优选:车内场景粤语指令数据集CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command Recogni
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- 语音识别(ASR)论文优选:性能测试Wav2Vec2.0 on the Edge: Performance Evaluation
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
- 语音识别(ASR)论文优选:Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...
- 语音识别(ASR)论文优选:Tied Reduced RNN-T Decoder
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...
最新文章
- 人脸识别软件正在学习识别熊脸和牛脸
- 计算机山西特岗考试题库,山西特岗历年试题
- 【数字智能三篇】之三: 一页纸说清楚“什么是深度学习?”
- 数据库命名规范(转)
- 一篇文章,了解清楚路由器的各种组网
- 云计算平台2017年盘点——真正成为新技术新应用的基础架构
- 数据库的移动 1007 sqlserver
- Matlab--colorbar的各项细节操作
- python有趣小程序-小码王分享python一些有趣的小程序
- POJ 1265 计算几何 多边形面积 内部格点数 边上格点数
- Oracle数据库备份到本地
- 世界杯最野蛮大战,巴西付出慘重代价步入四强
- 再生龙移植ubuntu硬盘大小限制解决方案
- Java Word转PDF
- 计算机状态oxcoooooe9,电脑蓝屏后开机显示状态Oxcoooooe9
- 借助gdb调试glibc代码学习House of Orange
- php mysql数据库常用sql语句命令集合
- 300元搭建远程下载+视频服务器 Debian nginx+aria2+各种视频服务(smb+nfs+dlna)
- CentOS8 yum配置阿里源
- 前端进阶之setTimeout 倒计时为什么会出现误差?
热门文章
- OpenCV打开摄像头截图
- GEF原理及实现系列(四、控制器)
- 会计专业与计算机专业结合复合型,我国会计电算化的现状、问题及对策
- android 小米手机播放短小音频无声音问题
- C++读取netcdf文件
- iif在mysql能用不_在写SQL语句时,你们会经常用IIF(ISNULL(字段))吗
- Solaris中文FAQ
- 从项目的一个 panic 说起:Go 中 Sync 包的分析应用
- 洛谷P2258 子矩阵[2017年5月计划 清北学堂51精英班Day1]
- unity剩余高度自适应实现办法