近日,阿里算法专家坤承携《使用改进版本的LATENCY-CONTROLLED BLSTM 算法模型提升在线语音识别效率》(IMPROVING LATENCY-CONTROLLED BLSTM ACOUSTIC MODELS FOR ONLINE SPEECH RECOGNITION)参与ICASSP2017大会。


论文作者坤承与参会者交流

论文研究的出发点在于,为了能够取得更好的语音识别准确率,在声学模型建模中使用了Latency-controlled BLSTM 模型。

详见95188:BLSTM-DNN hybrid语音识别声学模型的第一个工业应用
https://yq.aliyun.com/articles/2308?spm=5176.100240.searchblog.7.zWq29M

与标准的BLSTM使用整句语音进行训练和解码不同,Latency Control BLSTM使用类似truncated BPTT的更新方式,并在cell中间状态处理和数据使用上有着自己的特点,如下图所示:

训练时每次使用一小段数据进行更新,数据由中心chunk和右向附加chunk构成,其中右向附加chunk只用于cell中间状态的计算,误差只在中心chunk上进行传播。时间轴上正向移动的网络,前一个数据段在中心chunk结束时的cell中间状态被用于下一个数据段的初始状态,时间轴上反向移动的网络,每一个数据段开始时都将cell中间状态置为0。该方法可以很大程度上加快网络的收敛速度,并有助于得到更好的性能。解码阶段的数据处理与训练时基本相同,不同之处在于中心chunk和右向附加chunk的维度可以根据需求进行调节,并不必须与训练采用相同配置。LC-BLSTM的优点在于能够在可接受的解码延迟下保持BLSTM声学模型的识别准确率,从而使得BLSTM可以被用于在线语音识别服务。

LC-BLSTM的上述优点是以增加计算量为代价的,为了取得更好的识别准确率,在解码时通常需要比较长的右向附加chunk,这会增加额外的计算资源消耗,提高计算成本。如下图所示,右向附加chunk也是使用BLSTM进行计算,在Nc=30,Nr=30的情况下,计算量将是传统BLSTM的两倍。

本论文的主要贡献在于提出了两种改进的LC-BLSTM模型,在基本保持识别准确率的同时,能够降低解码时的计算量。这样可以降低计算成本,一台服务器可以支持的并发数将会是原来的1.5到2倍。

我们提出的第一种改进方法如下图所示,主要的改进在于右向chunk的计算。


首先对于时间轴上正向移动的LSTM,我们去掉了右向chunk部分的计算。而对于时间轴上反向移动的LSTM,右向chunk部分的计算主要是为中心chunk提供cell的初始状态,我们简化了这部分的计算,使用正向全连接来代替LSTM,将f()的输出取平均后作为中心chunk的初始状态。以上改进大大降低了模型的计算量,switchboard数据集上的实验结果如下表所示,在基本保持识别准确率的同时,可以使解码速度提升40%以上。

我们提出的第二种改进方法如下图所示,首先对于时间轴上正向移动的LSTM,我们同样去掉了右向chunk部分的计算。


另外我们发现对于BLSTM模型,时间轴上反向传播的LSTM不如时间轴上正向传播的LSTM重要,因此我们使用简单RNN模型来代替时间轴上反向传播的LSTM,简单RNN的模型计算量比LSTM小得多,因此如此改进以后模型的计算速度也会大大加快,switchboard上的实验结果表明,在轻微损失识别率的情况下,可以使解码速度提升60%以上。

原文链接

为提升在线语音识别效率,他创造了两种升级版算法模型相关推荐

  1. ##haohaohao#######蘑菇街自研服务框架如何提升在线推理效率?

    Online Serving 简介 从本质而言,在线服务就是提供 (http, rpc) 等接口,用户输入 X, X 经过 pre-process 处理成符合模型输入的参数,经由模型推理后得到 Y,Y ...

  2. 效率最高的两种项目沟通方式

    沟通,是项目实施至关重要的一环.沟通方式有很多种,效率最高的有两种: 1)面对面交谈 俗话说,见面三分情,在空间允许的情况下,能面对面就不要打电话,能打电话就不要微信.QQ.短信.如果餐桌上合适,就不 ...

  3. 中关村在线测评:亿联融合通信UME直线提升办公沟通效率

    日前,亿联网络全新推出了音视频融合通信方案UME,一经上市便引起了广泛关注.国内知名科技门户网站中关村在线对UME进行了深度试用体验测评,参与体验的记者表示,"用了UME以后,工作沟通效率显 ...

  4. IBM对话智能+未来:十年提升AI性能效率千倍?

    来源:云科技时代 140多前的1879年,爱迪生经过几千次试验发明了电灯:之后过了90年的1969年美国把人类送到了月球,1970年空中客车公司诞生.在1870年代,人类初次进入电力时代的时候,没有人 ...

  5. 免费语音识别成文字_免费在线语音识别成文字_语音识别文字免费软件 - 云+社区 - 腾讯云...

    广告关闭 2017年12月,云+社区对外发布,从最开始的技术博客到现在拥有多个社区产品.未来,我们一起乘风破浪,创造无限可能. 腾讯云语音识别(asr) 为开发者提供语音转文字服务的最佳体验. 语音识 ...

  6. 鸿翼ECM文档云:让远程办公更便捷,提升企业办公效率

    鸿翼,以内容管理助力疫情下的企业远程办公 在当前疫情肆虐的大环境之下,不少公司都选择了远程办公的模式.在抗疫非常时期,远程办公无疑可以减少感染风险.而当远程办公日益成为"新常态", ...

  7. 显著提升图像识别网络效率,Facebook提出IdleBlock混合组成方法

    2019-11-27 12:33:57 选自arXiv 作者:Bing Xu.Andrew Tulloch.Yunpeng Chen.Xiaomeng Yang.Lin Qiao 机器之心编译 Fac ...

  8. tensorflow 语音识别_调研报告|在线语音识别改进方法之序列区分性训练

    这篇文章主要调研的是一种常见的改进在线语音识别的方法:序列区分性训练(Sequence Discriminative Training).相信有很多人已经在 CTC/CE 的训练上遇到了瓶颈,而一些新 ...

  9. 教育机构如何提升在线教育技术能力? | 云+社区技术沙龙

    教育机构如何提升在线教育技术能力? 如何给用户稳定.清晰流畅的在线互动体验? AI和大数据的发展会给行业带来哪些变革? 腾讯云结合自身优势,从在线教育的业务营销.教学业务应用与管理方面助力行业合伙发展 ...

最新文章

  1. C++文件输入和输出
  2. 新做了一个项目,一个人做的,关于数据传输的项目(架构说明)
  3. P3639-[APIO2013]道路费用【最小生成树】
  4. V210 SPI驱动分析
  5. Java学习笔记——反射
  6. 【转】聊聊Linux操作系统中的显示管理器及如何更换
  7. Citrix路径遍历(CVE-2019-19781)
  8. MICCAI 2019 :纪录、风向与学术思考
  9. jdk8銝要onematch_JDK8老特性详解(二)
  10. 前后端分离式分布式微服务架构项目 学成在线开发项目 源码 视频 文档 工具 合集百度云下载地址
  11. 下列关于python语言中缩进说法中正确的是_以下关于 Python 语言中“缩进”说法正确的是:_物联网通信技术答案_学小易找答案...
  12. Excel怎么换行?简单!Excel大神教会了我N种换行方法
  13. Kali Linxu中打开Apache服务
  14. Java中的数据文件
  15. PS-InSAR公路互通变形监测
  16. ECCV2020|图像重建(超分辨率,图像恢复,去雨,去雾等)相关论文汇总(附论文链接/代码/解析)
  17. 拉马努金的整数拆分全排列JAVA实现非递归
  18. 云徙科技新作《中台实践》,从留言中选10名头像最好看的,送书!
  19. 无线网卡驱动 错误代码从56到10 最后解决
  20. 新能源整车控制器开发心得

热门文章

  1. linux 隐藏显示终端光标
  2. SQL Server2000导出数据时包含主键、字段默认值、描述等信息
  3. JS 混合构造函数 和 动态原型
  4. Oracle Logminer 说明
  5. js 中的 __proto__
  6. springcloud工作笔记097---idea集成Mapper接口点击后自动跳转到对应的xml文件中
  7. leetcode437. 路径总和 III
  8. verilog学习记(tinyriscv mcu设计)
  9. python编程(GUI线程和工作线程的同步)
  10. c++socket发送文字少一个字符_Socket粘包问题的3种解决方案,最后一种最完美