Deep Speech 1

Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G.,Elsen, E., Prenger, R., Satheesh, S., Sengupta, S., Coates,A., et al. (2014a).Deepspeech: Scaling up end-to-end speech recognition. arXiv preprint arXiv:1412.5567.
###网络结构

网络输入是context特征,输出是char,训练准则是CTC,解码需要结合ngram语言模型。
共五层,前三层是简单的DNN结构,第四层是双向RNN,第五层的输入是RNN的前向和后向单元,后面跟着softmax分类。

数据集 网络结构
300h switchboard 5隐层,2304节点
2300h SWB+FSH 4个RNN,每个5隐层,2304节点
100000h add noise 6个RNN,每个5隐层,2560节点

训练数据

训练数据进行加噪处理,使用多种短时噪音。
录制语音的时候增加噪声的场景.

训练优化

  • Data parallelism
    训练语料按照长度排序,然后多句并行
  • Model parallelism
    按照时间切分,前半段在GPU1上面计算,负责计算RNN的forward activation;后半段在GPU2上面计算,负责计算RNN的backward activation。在中间时间点交换角色。

Deep Speech 2

D. Amodei, R. Anubhai, E. Battenberg, C. Case, J. Casper, B. Catanzaro, J. Chen, M. Chrzanowski, A. Coates, G. Diamos et al., “Deep speech 2: End-to-end speech recognition in english and mandarin,” CoRR arXiv:1512.02595, 2015.

相比于Deep Speech,使用HPC技术,将训练时间由几周缩短到几天,尝试了更为复杂的网络结构。

网络结构


网络输入是context特征,输出是char(英文对应a/b/c,中文对应6000汉字),训练准则是CTC,解码需要结合ngram语言模型。

Batch Normalization

在网络层数更深的时候,效果更明显,收敛更快而且误差更小。
有两种BatchNorm,在第一种上面没有收益
第一种: htl=f(B(WlhTl−1+Ulht−1l))h_t^l=f(B(W^lh_T^{l-1}+U^lh_{t-1}^l))htl​=f(B(WlhTl−1​+Ulht−1l​))
第二种: htl=f(B(WlhTl−1)+Ulht−1l)h_t^l=f(B(W^lh_T^{l-1})+U^lh_{t-1}^l)htl​=f(B(WlhTl−1​)+Ulht−1l​)

SortaGrad

CTC训练的早期不稳定,长句子容易出现梯度异常(有些概率near-zero)。
在第一个epoch,将训练句子按照长度排序,首先使用断句训练,后面的epoch再按照随机顺序。

GRU

GRU相比于vanilla RNN可以取得更好的结果,同时比LSTM更容易训练。

Convolution

在网络的最底层使用3层的CNN结构。

Lookahead Convolution

使用双向RNN可以获得更好的准确性,但是对on-line服务来讲,延时问题比较明显,为了解决这个问题,在RNN上面增加了一层Lookahead Convolution。

adaptation

传统的Hybrid系统在语言之间迁移相对困难,end-to-end系统相对简单,只需要更换最后的输出节点就可以。

训练数据

英文11940h,中文9400h

训练优化

high performance computing

应用优化

  • batch dispatch将线上不同的语音请求组成一个batch计算
  • RNN计算使用16bit量化
  • ngram查询只查询概率比较高的一些character
  • 增加少量跟使用场景更匹配的语音或者文本,收益比较明显

后面的技术分享转移到微信公众号上面更新了,【欢迎扫码关注交流】

Deep Speech笔记相关推荐

  1. 深度学习(三十)——Deep Speech, 自动求导

    CTC 推断计算(续) 上图是一个Beam Width为3的Beam Search.Beam Search的细节可参见<机器学习(二十三)>. 由于语音的特殊性,我们实际上用的是Beam ...

  2. 《学习geometric deep learning笔记系列》第一篇,Non-Euclidean Structure Data之我见

    <学习geometric deep learning笔记系列>第一篇,Non-Euclidean Structure Data之我见 FesianXu at UESTC 前言 本文是笔者在 ...

  3. Deep learning笔记

    Deep learning:一(基础知识_1) 出处:http://www.cnblogs.com/tornadomeet 欢迎转载或分享,但请务必声明文章出处. 前言: 最近打算稍微系统的学习下de ...

  4. 吴恩达Deep learning笔记(一)

    Welcome to Deep learning Specialization 介绍了深度学习目前的发展状况以及未来的前景 Introdcution to Deep Learning what'is ...

  5. neural network and deep learning笔记(1)

    neural network and deep learning 这本书看了陆陆续续看了好几遍了,但每次都会有不一样的收获.DL领域的paper日新月异,每天都会有很多新的idea出来,我想,深入阅读 ...

  6. 【Deep Learning笔记】神经网络的优化解读(看不懂你来打我~!)

    文章目录 1 激活函数 1.1 sigmoid 1.2 tanh 1.3 ReLU函数 1.4 ReLU函数的变种 2 Dropout 2.1 原理 2.2 实验 2.3 作者重点分析的一些特点 1 ...

  7. 【Deep Learning笔记】前馈神经网络和BP算法

    文章目录 1 前馈神经网络 1.1 网络训练一些定义 2 反向传播算法 2.1 前言 2.2 符号约定 2.3 反向传播算法的推导 2.4 总结过程 3 收敛和局部极值 4 神经网络杂谈 1 前馈神经 ...

  8. 【Deep Learning笔记】感知机模型和学习策略

    文章目录 1 单个神经元如何工作 2 感知机 3 感知机模型解决逻辑运算问题 3.1 XNOR的第一个实现 3.2 第二个 4 感知机的训练 5 Sigmoid神经元 1 单个神经元如何工作 固有偏置 ...

  9. 【Deep Learning笔记】Optic Disc 数据集

    文章目录 1 视盘 2 数据集 3 竞赛 1 视盘 视盘(optic disc):全称视神经盘,有时候也被成为视神经乳头(optic nerve head).在普通的彩色眼底相机中,一般最亮的区域就是 ...

最新文章

  1. python 生成html表的报告_pytest文档7-pytest-html生成html报告
  2. matlab 主成分 分类,matlab主成分分析
  3. SystemKit 系统分析工具
  4. php面试专题---1、php中变量存储及引用的原理
  5. Axure 8图标样式库
  6. 进销存excel_Excel教程:简易进销存!厉害了,SUMIFS!
  7. 乐玩插件和大漠插件哪个好_分享两个下载插件的好地方!
  8. 实测分析免费建站软件有哪些?哪个最好?
  9. BufferedOutputStream源码分析与flush方法
  10. python定时任务启动与停止_python定时任务最强框架APScheduler详细教程
  11. android adb日志过滤包名,android studio logcat 无筛选 显示全部日志 无应用包名区分方式...
  12. html如何设置table的宽度,HTML怎么设置table宽度
  13. php5+ssl,AS3上安装Apache2+MySQL+PHP5+Resin+SSL+GD以及webalizer(补
  14. matlab 软键盘,(转载)DIY激光虚拟键盘低成本自制【全面讲解二】
  15. tiny4412编译出来的zImage不能开机
  16. node JS獲取GPS_node学习笔记(三十八)
  17. 动力节点-crm-项目笔记(待完善)
  18. 一步步分析为什么B+树适合作为索引的结构
  19. ffmpeg输出x264的CBR流或者文件
  20. POJ_1647_One-move checkmate

热门文章

  1. 中国大地坐标系CGCS2000
  2. Image 图像转化为 PDF 文件
  3. 国科大学习资料--人工智能原理与算法-第七次作业解析(学长整理)
  4. [FPGA入门笔记](十):按键消抖实验
  5. python 等腰三角形的性质_Blender 脚本之 Operator 初探
  6. CSS第六天-高级技巧(元素隐藏、精灵图、CSS用户界面样式、margi负值作用、CSS三角形)
  7. 【视频相关】视频中常出现的参数解释——2018年6月16日
  8. Jetson nano (4GB B01) 系统安装,官方Demo测试 (目标检测、手势识别)
  9. 用时间做种子生成随机数
  10. 焦作网络赛K. Transport Ship