声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进

SynthASR: Unlocking Synthetic Data for Speech Recognition

本文为Alexa Speech, Amazon.com在2021.06.14更新的文章,主要使用tts合成的语料来优化ASR,从而提高ASR的性能,具体的文章链接

https://arxiv.org/pdf/2106.07803.pdf


1 背景

e2e的asr比传统的hybird asr在性能显出突出的优势,但训练ASR模型需要大量的标注数据,这将需要很大的成本开销。同时,tts系统合成的语音质量可以媲美人类的自然语音,而且可以合成不同风格和韵律的语音,因此使用TTS合成的语音来优化ASR成为本文研究的重点。

2 详细设计

本文使用的tts为multi-speaker tts,其中包括对prosody和speaker建模的encoder,具体的结构如图2所示。另外asr使用了rnn-t的结构,具体如图1所示,tts合成的不同风格不同说话人的语料来给rnn-t来训练。另外,本文使用multi-stage 训练策略来适用不同domain的应用,避免了 catastrophic forgetting问题,为了避免使用合成数据造成参数更新范围太大,提出了如公式2的elastic penalty。

3 实验

本文使用LibriSpeech 960h数据来训练rnn-t作为benchmark,然后使用480h数据训练rnn-t作为baseline,然后使用480h+syn 1150h小时训练rnn-t,结果如table1 所示,使用480h+syn 1150h比只使用480h的效果较好。 table 2使用multi-stage来训练rnn-t的效果,结果显示使用multi-stage可以提高性能。

4 总结

本文使用TTS合成的语音和multi-stage 训练方法来优化ASR的性能,从而降低其wer。

语音识别(ASR)论文优选:SynthASR: Unlocking Synthetic Data for Speech Recognition相关推荐

  1. 语音识别(ASR)论文优选:A comparison of streaming models and data augmentation methods for robust speech recog

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  2. 语音识别(ASR)论文优选:端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  3. 语音识别(ASR)论文优选:挑战ASR规模极限Scaling ASR Improves Zero and Few Shot Learning

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  4. 语音识别(ASR)论文优选:关注语音识别系统Fairness问题Towards Measuring Fairness in Speech Recognition

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  5. 语音识别(ASR)论文优选:Icassp 2022 M2MeT方案总结

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  6. 语音识别(ASR)论文优选:车内场景粤语指令数据集CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command Recogni

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  7. 语音识别(ASR)论文优选:性能测试Wav2Vec2.0 on the Edge: Performance Evaluation

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  8. 语音识别(ASR)论文优选:Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...

  9. 语音识别(ASR)论文优选:Tied Reduced RNN-T Decoder

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...

最新文章

  1. 人脸识别软件正在学习识别熊脸和牛脸
  2. 计算机山西特岗考试题库,山西特岗历年试题
  3. 【数字智能三篇】之三: 一页纸说清楚“什么是深度学习?”
  4. 数据库命名规范(转)
  5. 一篇文章,了解清楚路由器的各种组网
  6. 云计算平台2017年盘点——真正成为新技术新应用的基础架构
  7. 数据库的移动 1007 sqlserver
  8. Matlab--colorbar的各项细节操作
  9. python有趣小程序-小码王分享python一些有趣的小程序
  10. POJ 1265 计算几何 多边形面积 内部格点数 边上格点数
  11. Oracle数据库备份到本地
  12. 世界杯最野蛮大战,巴西付出慘重代价步入四强
  13. 再生龙移植ubuntu硬盘大小限制解决方案
  14. Java Word转PDF
  15. 计算机状态oxcoooooe9,电脑蓝屏后开机显示状态Oxcoooooe9
  16. 借助gdb调试glibc代码学习House of Orange
  17. php mysql数据库常用sql语句命令集合
  18. 300元搭建远程下载+视频服务器 Debian nginx+aria2+各种视频服务(smb+nfs+dlna)
  19. CentOS8 yum配置阿里源
  20. 前端进阶之setTimeout 倒计时为什么会出现误差?

热门文章

  1. OpenCV打开摄像头截图
  2. GEF原理及实现系列(四、控制器)
  3. 会计专业与计算机专业结合复合型,我国会计电算化的现状、问题及对策
  4. android 小米手机播放短小音频无声音问题
  5. C++读取netcdf文件
  6. iif在mysql能用不_在写SQL语句时,你们会经常用IIF(ISNULL(字段))吗
  7. Solaris中文FAQ
  8. 从项目的一个 panic 说起:Go 中 Sync 包的分析应用
  9. 洛谷P2258 子矩阵[2017年5月计划 清北学堂51精英班Day1]
  10. unity剩余高度自适应实现办法