声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵。平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html。如转载,请标明出处。欢迎关注微信公众号:低调奋进

Tied & Reduced RNN-T Decoder

本文为google在2021.09.15发表的文章,主要的工作为优化rnn-t的decoder模型大小,使其在性能不下降的情况下,速度提高3到4倍。具体的文章链接

https://arxiv.org/pdf/2109.07513.pdf


1 研究背景

近几年的端到端语音识别受到更多人的关注,具有代表性的系统为RNN-T。边缘设备的爆炸式增长,增加在边缘设备上运行端到端语音识别系统的需求,因此本文主要研究在不牺牲系统性能情况下,优化​RNN-T的decoder的大小。

2 详细设计

RNN-T架构如图1所示,主要由三部分组成​:encoder,predicition network (PN)和 joint network​。本文主要优化prediction network和joint network​部分。第一个优化方案是对prediction的优化,如如图2所示。该网络替换掉了​LSTM结构。PN网络中的Pn为位置向量,En为embedding 向量,N为context的长度。​其中average和multihead求平均如下面的公式。第二个优化方案称为tied embeddings,该方案就是把图1中de和dh大小设置一样,然后把embedding和fc layer的weights进行共享,这样就大大较少decoder​的参数量。可参考table1所示,本文的ReducedSmall参数只有1.9M,而原始lstm为23M。

3 实验

本文对比的系统参数如table1所示,其中本文ReducedSmall比LSTM的参数量减少90%​。table 2对比了该系统性能,本文系统减少系统参数量但性能没有下降​。图3展示了tied embeddings​的效果。table 3展示history length的影响​。table 4 展示head数量的​效果。table 5展示在长句子上的表现​。table 6展示速度提升2到3​倍。

4 总结

本文主要优化RNN-T的decoder,使其模型参数量减少了百分90%,速度提高了2到3倍,但系统的整体性能表现没有​变差。

语音识别(ASR)论文优选:Tied Reduced RNN-T Decoder相关推荐

  1. 语音识别(ASR)论文优选:端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  2. 语音识别(ASR)论文优选:关注语音识别系统Fairness问题Towards Measuring Fairness in Speech Recognition

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  3. 语音识别(ASR)论文优选:A comparison of streaming models and data augmentation methods for robust speech recog

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  4. 语音识别(ASR)论文优选:挑战ASR规模极限Scaling ASR Improves Zero and Few Shot Learning

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  5. 语音识别(ASR)论文优选:Icassp 2022 M2MeT方案总结

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  6. 语音识别(ASR)论文优选:车内场景粤语指令数据集CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command Recogni

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  7. 语音识别(ASR)论文优选:性能测试Wav2Vec2.0 on the Edge: Performance Evaluation

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  8. 语音识别(ASR)论文优选:Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...

  9. 2022年1~10月语音合成(TTS)和语音识别(ASR)论文月报

    论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计.统计过程难免存在疏漏,因此统计结果仅供参考.所有文章语音合成领域统计列表请访问http://yql ...

最新文章

  1. 加解密基础——(对称加密、非对称加密和混合加密)
  2. 写一个函数,要求输入一个字符串和一个字符长度,根据字符长度对该字符串进行分隔
  3. (转载)Ubuntu命令卸载软件
  4. Unity3d webplayer发布的问题和100%自适应浏览器
  5. python备份发包脚本_Python备份脚本,python
  6. Ubuntu11.04更新源(转)
  7. php mysql_query预处理,php+mysqli使用预处理技术进行数据库查询的方法
  8. php如何打出的正方形行列,javascript实现输出指定行数正方形图案的方法
  9. linux删除的文件有回收站么,Linux命令行删除文件到回收站
  10. 分享几个个人经常用到的js方法
  11. 博文视点在SD2.0大会上以书会友
  12. docker 部署 zookeeper+kafka 集群
  13. Linux CentOS 6.5 操作环境下修改mysql数据库密码
  14. CSDN的积分如何获取(转)
  15. 微信朋友圈评论功能测试
  16. 计算机修改桌面图标大小,windows更改桌面图标大小设置
  17. 【Python数据分析——使用matplotlib制作南丁格尔玫瑰图】
  18. vue项目-后台管理系统
  19. [英语阅读]保时捷与大众共商合并大计
  20. 基于Ardupilot/PX4固件,APM/PIXhawk硬件的VTOL垂直起降固定翼软硬件参数调试(第四篇)飞行特性

热门文章

  1. latex入门指南:插入图片、表格、公式方法一览
  2. HENKAKU!PSV(Vita)编程小白探索笔记(零)
  3. java简单atm_Java实现简单银行ATM功能
  4. 深入理解最强桌面地图控件GMAP.NET ---高德地图
  5. 人工智能机器人视频合集,2022最新
  6. edu cf #138 Div.2(A~D)
  7. linux 交叉编译dbus,expat
  8. ssd测试软件4k 64线程是什么意思,固态硬盘的4K和4K64跑分是什么意识
  9. h5公众号获取的微信头像ios不显示
  10. 计算机毕业设计ssm基于JAVA毕业生发展去向查询平台及数据统计系统6263k系统+程序+源码+lw+远程部署