声明：平时看些文章做些笔记分享出来，文章中难免存在错误的地方，还望大家海涵。平时搜集一些资料，方便查阅学习：http://yqli.tech/page/speech.html。如转载，请标明出处。欢迎关注微信公众号：低调奋进

Tied & Reduced RNN-T Decoder

本文为google在2021.09.15发表的文章，主要的工作为优化rnn-t的decoder模型大小，使其在性能不下降的情况下，速度提高3到4倍。具体的文章链接

https://arxiv.org/pdf/2109.07513.pdf

1 研究背景

近几年的端到端语音识别受到更多人的关注，具有代表性的系统为RNN-T。边缘设备的爆炸式增长，增加在边缘设备上运行端到端语音识别系统的需求，因此本文主要研究在不牺牲系统性能情况下，优化RNN-T的decoder的大小。

2 详细设计

RNN-T架构如图1所示，主要由三部分组成：encoder，predicition network (PN)和 joint network。本文主要优化prediction network和joint network部分。第一个优化方案是对prediction的优化，如如图2所示。该网络替换掉了LSTM结构。PN网络中的Pn为位置向量，En为embedding 向量，N为context的长度。其中average和multihead求平均如下面的公式。第二个优化方案称为tied embeddings，该方案就是把图1中de和dh大小设置一样，然后把embedding和fc layer的weights进行共享，这样就大大较少decoder的参数量。可参考table1所示，本文的ReducedSmall参数只有1.9M，而原始lstm为23M。

3 实验

本文对比的系统参数如table1所示，其中本文ReducedSmall比LSTM的参数量减少90%。table 2对比了该系统性能，本文系统减少系统参数量但性能没有下降。图3展示了tied embeddings的效果。table 3展示history length的影响。table 4 展示head数量的效果。table 5展示在长句子上的表现。table 6展示速度提升2到3倍。

4 总结

本文主要优化RNN-T的decoder，使其模型参数量减少了百分90%，速度提高了2到3倍，但系统的整体性能表现没有变差。

语音识别(ASR)论文优选：Tied Reduced RNN-T Decoder相关推荐

语音识别(ASR)论文优选：端到端ASR综述Recent Advances in End-to-End Automatic Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
语音识别(ASR)论文优选：关注语音识别系统Fairness问题Towards Measuring Fairness in Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
语音识别(ASR)论文优选：A comparison of streaming models and data augmentation methods for robust speech recog
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
语音识别(ASR)论文优选：挑战ASR规模极限Scaling ASR Improves Zero and Few Shot Learning
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
语音识别(ASR)论文优选：Icassp 2022 M2MeT方案总结
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
语音识别(ASR)论文优选：车内场景粤语指令数据集CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command Recogni
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
语音识别(ASR)论文优选：性能测试Wav2Vec2.0 on the Edge: Performance Evaluation
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
语音识别(ASR)论文优选：Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.如转载,请标明出处.欢迎 ...
2022年1~10月语音合成（TTS)和语音识别(ASR)论文月报
论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计.统计过程难免存在疏漏,因此统计结果仅供参考.所有文章语音合成领域统计列表请访问http://yql ...

语音识别(ASR)论文优选：Tied Reduced RNN-T Decoder

声明：平时看些文章做些笔记分享出来，文章中难免存在错误的地方，还望大家海涵。平时搜集一些资料，方便查阅学习：http://yqli.tech/page/speech.html。如转载，请标明出处。欢迎关注微信公众号：低调奋进

语音识别(ASR)论文优选：Tied Reduced RNN-T Decoder相关推荐

最新文章

热门文章