铜灵 发自 编译整理
量子位 出品 | 公众号 QbitAI

每次用语音输入完成“打字”过程,你的手机就经历了一次自动语音识别(ASR)。

这种已经无处不在的音频转录成文本的技术,在缺乏足够大的数据集,模型过拟合严重。因此当前如何去扩增音频数据是个大问题。

谷歌大脑在最新的一篇博客中,提出了一种用于ASR中扩增数据的新方法:SpecAugment

和之前的研究画风有些不同,这一次,谷歌将这个问题当成了视觉问题而非音频问题。SpecAugment没有像传统扩增方法一样增加音频波形,而是将扩增策略直接应用于音频频谱图。

谷歌表示,SpecAugment方法简单,计算成本低,并且不再需要其他额外数据,在ASR任务LibriSpeech 960h和Switchboard 300h上,这种扩增方法效果惊艳。

不信接着看。

音频波形图

在传统的ASR任务中,在将训练数据输入到神经网络前,通常先通过剪裁、旋转、调音、加噪等方式先对输入的音频数据进行增强,然后再转换成频谱图等视觉表示。因此,每次迭代后,都有新的频谱图生成。

在谷歌的新方法中,研究人员将研究重点放在了扩增频谱图本身的方法上,并不针对声音数据进行改造,而是直接对频谱图等视觉表示进行增强。

因为扩增可以直接被应用于神经网络的输入功能上,因此可以在训练过程中在线运行,不会影响到训练速度。

 将声音数据转换成梅尔频率倒谱图,也就是基于声音频率的非线性梅尔刻度的对数能量频谱的线性变换

SpecAugment通过时间方向上的扭曲改造频谱图,及时修改、屏蔽连续频率频道块和语言频道块。这种扩增方式能让神经网络更强健,帮助抵抗时间方向上的变形,也会防止频率信息和语音片段信息丢失。

下图就是这种扩增策略的示例图:

 图中紫色区域为被屏蔽的部分

可以看出,通过在时间方向上进行扭曲,外加屏蔽多个连续时间步长(垂直方向屏蔽)和梅尔频率频道(水平方向屏蔽),能有效扩增数据频谱图。

词错率降5%

这种方法的效果如何?研究人员在实验基础上进行了一系列实验。

研究人员限用大型开源语音识别数据集LibriSpeech上进行实验,比对模型生成的文字与目标文字的差异。他们选取了端对端谷歌语音识别神经网络框架Listen, Attend and Spell(LAS),比较了使用SpecAugment扩增数据与不使用情况下训练出网络的性能。

在此实验中采用控制变量法,所有超参数都保持不变,只改变输入到网络的数据,用转录过程的词错率( Word Error Rate,WER)来衡量结果。

结果发现,在LibriSpeech数据集上,SpecAugment扩增方法能明显降低词错率。模型大小的不同对结果影响不大,平均词错率大致降低5%。

 扩增数据后的词错率(蓝色)与无扩增数据的词错率(黄色)

除了降低词错率,SpecAugment还能有效防止神经网络过拟合。

 对训练数据、清洁数据和嘈杂数据的扩增结果

研究人员增加了网络容量,在LibriSpeech 960h和Switchboard 300h任务上检测模型词错率,发现用SpecAugment扩增数据过后可获得当前最优结果。

传送门:

谷歌官方博客:
http://ai.googleblog.com/2019/04/specaugment-new-data-augmentation.html

研究论文:

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition
https://arxiv.org/abs/1904.08779

小程序|get更多AI资讯与资源

加入社群

量子位AI社群开始招募啦,量子位社群分:AI讨论群、AI+行业群、AI技术群;

欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“微信群”,获取入群方式。(技术群与AI+行业群需经过审核,审核较严,敬请谅解)

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

谷歌提出新型自动语音识别数据增强大法,直接对频谱图“动刀”,提升模型表现...相关推荐

  1. 谷歌提出新型卷积网络EfficientNet: 推理速度升5.1倍参数减少88%,需要我们的验证

    推理速度升5.1倍参数减少88%:谷歌提出新型卷积网络EfficientNet 谷歌提出了一项新型模型缩放方法:利用复合系数统一缩放模型的所有维度,该方法极大地提升了模型的准确率和效率.谷歌研究人员基 ...

  2. 大杀器!攻克目标检测难点秘籍四,数据增强大法

    点击上方"AI算法修炼营",选择加星标或"置顶" 标题以下,全是干货 前面的话 在前面的秘籍一:模型加速之轻量化网络.秘籍二:非极大抑制算法和回归损失优化之路. ...

  3. 自动搜索数据增强方法分享——fast-autoaugment

    前言 简短的介绍下分享fast-autoaugment的原因 毫无疑问数据增强对于训练CNN非常有效,大家也在不断发明新的数据增强方法 拿到一份数据集,我们凭借之前的经验组合不同的增强方法形成一个数据 ...

  4. 谷歌提出新型卷积网络EfficientNet:推理速度提升5.1倍,参数减少88%(附论文代码)...

    来源:机器之心 本文共1500字,建议阅读8分钟. 谷歌提出了一种新型CNN网络EfficientNet,该网络具备极高的参数效率和速度. [ 导读 ]谷歌提出了一项新型模型缩放方法:利用复合系数统一 ...

  5. 语音识别数据增强方法(google2019年7月论文)

    论文:https://arxiv.org/pdf/1904.08779.pdf 要点: 我们构建了一个直接作用于对数梅尔频谱图的增强策略,以帮助网络学习有用的功能. 出于以下目的的动机:这些功能应对时 ...

  6. 全新数据增强 | TransMix 超越Mix-up、Cut-mix方法让模型更加鲁棒、精度更高

    点击上方"计算机视觉工坊",选择"星标" 干货第一时间送达 作者丨ChaucerG 来源丨集智书童 基于Mixup的数据增强已经被证明在训练过程中对模型进行泛化 ...

  7. 在数据增强、蒸馏剪枝下ERNIE3.0分类模型性能提升

    在数据增强.蒸馏剪枝下ERNIE3.0模型性能提升 项目链接: https://aistudio.baidu.com/aistudio/projectdetail/4436131?contributi ...

  8. 数据增强,扩充了数据集,增加了模型的泛化能力

    数据增强(Data Augmentation)是在不实质性的增加数据的情况下,从原始数据加工出更多的表示,提高原数据的数量及质量,以接近于更多数据量产生的价值. 其原理是,通过对原始数据融入先验知识, ...

  9. NLP 论文领读 | Seq2Seq一统江湖?谷歌提出全新端到端检索范式DSI,它才是检索模型的未来?

    欢迎关注 NLP 论文领读专栏!快乐研究,当然从研读paper开始--澜舟科技团队注重欢乐的前沿技术探索,希望通过全新专栏和大家共同探索人工智能奥秘.交流NLP「黑科技」,踩在「巨人」肩上触碰星辰!官 ...

最新文章

  1. linux回调函数的使用
  2. CLR Profiler 性能分析工具 (转)
  3. 2020年最漂亮的Linux发行版
  4. ASP获取地址栏URL地址方法
  5. 由于html元素加载导致的问题
  6. linux 刻录cd,Linux 刻录CD/DVD命令 growisofs/mkisofs/cdrecord
  7. 编程之美--读书笔记--返回一个数组中所有元素被第一个元素除的结果
  8. 用Flash和XML构建论坛实例(3)
  9. 双线路接入时IPSec数据不通问题
  10. TypeScript泛型详解
  11. bc547可以用8050代换吗_逐本卸妆油没有化妆可以用吗
  12. SVN入门 TortoiseSVN 检出
  13. Android service Binder用法
  14. mongodb查询不等于某个字段_Oracle单表查询多字段,不使用*
  15. [转载]jQuery操作Table学习总结
  16. Office Web Apps开放测试
  17. 论文查重算法 python_论文查重降重绝密方法
  18. Oracle dbv 坏块信息,【dbv】使用dbv工具检验数据文件是否有坏块
  19. 2节串联锂电池充电管理IC芯片,5V,12V升降压解决方案
  20. Windows驱动编程基础(下)之电源管理

热门文章

  1. 与微信同行近 8 年,49 岁的张小龙去哪儿了?
  2. 5G 爆发前夕,这些科技巨头们聚在一起“密谋”了些什么?!
  3. 比特币蒸发 1 万亿;中兴入局无人驾驶;特斯拉 Model 3 在华降价 | 极客头条
  4. Python 爬取了 121.3 万条大众点评,告诉你哪里的小龙虾才是一绝!
  5. 谷歌终于拒绝 AI 武器化了!
  6. 谨防欺诈,Facebook 禁止加密货币和 ICO 广告
  7. linux环境下装mq,ActiveMQ下载与安装(Linux环境下进行)
  8. 计算机中¥符号按哪个键,在电脑设计中人民币¥这个符号咋弄出来
  9. w ndows10怎么联网,windows10所有uwp应用都无法联网的两种解决方法
  10. c#modbus tcp通讯助手开源_RS485和Modbus知识点汇总