Speech recognition模型：RNN Transducer(RNN-T)

一，RNA（recurrent Neural Aligner)
RNA的模型结构介于 CTC 和 RNN-T 之间，在介绍RNN-T之前，将首先介绍RNA。

RNA模型结构：

RNA相较于CTC，有2大改进：
1，RNA中，将CTC的classifier改为了一个LSTM，使得模型在分类时，不单考虑了当下time step的h，同时也考虑了前一个time step的token。
2，RNA中，输入一个acoustic feature，可以输出多个output（即输出多个token）,直到输出 null为止，该time step的output结束。
其模型结构如下图所示：

RNA存在问题：

同CTC一样，RNA的训练也存在2方面的问题：
1，原始的训练数据为（语音，文本）对，但是，实际的模型训练时，需要的训练数据为paired train data，即（acoustic feature，token)，所以，需要对训练数据进行alignment。
2，由于输入一个acoustic feature，其会一直输出token，直到输出null为止。因此，工程师在制作训练数据时，需要自行考虑将null插入文本中的何处。

二，RNN-T

RNN-T在RNA的基础上做了2处修改：

1，将RNA的LSTM classifier打断；
2，在output（token）上方，加了一个RNN，其input为token，当token为null时，则自动将其忽略。RNN在该time step的输出将会灌入下一个time step的classifier中作为输入，同acoustic feature一起，参与output token的预测。
这里，RNN起到了language model的作用，只不过是更小粒度的language。个人理解，这里的RNN是与模型的其他部分一起进行训练的。
其结构如下图所示:

RNN-T存在的缺陷与RNA一样，在此不再赘述。
三，LAS，CTC，RNA，RNN-T 都是输入一个acoustic feature 然后给出输出的模型，在下一节中，将讲述另外一种类型的模型，即：给定一把输入，then，进行output。

Speech recognition模型：RNN Transducer(RNN-T)相关推荐

Speech recognition模型：MoChA（Monotonic Chunkwise Attention)
一,NT(Neural Transducer) 和 MoChA 均为 input 一把acoustic feature,然后进行输出的模型,在此,以NT为引,引入MoChA. NT的模型结构如下图所示 ...
Advancing Transformer Transducer for Speech Recognition on Large-Scale Dataset》
本文是观看上海交通大学陈谐老师在<人机语音通信>课程的讲座的笔记,原视频链接,本文参考[3] [4]. 1 Model Overview: Transformer Transducer 语 ...
【图像分割模型】以RNN形式做CRF后处理—CRFasRNN
这是专栏<图像分割模型>的第5篇文章.在这里,我们将共同探索解决分割问题的主流网络结构和设计思想. 条件随机场有点复杂,那能不能用神经网络的方式搞定CRF后处理呢?今天我们一起看一看穿上R ...
deeplearning.38序列模型（搭建RNN与LSTM应用实践）
序列模型搭建循环神经网络循环神经网络简介相关符号声明导入库 RNN的前向传播 RNN单元 RNN前向传播函数 LSTM(长短期记忆网络) 关于门定义实现LSTM单元定义LSTM前向传播循 ...
语音识别(Speech Recognition)综述
文章目录 1. 语音识别的基本单位 1.1 Phoneme(音位,音素) 1.2 Grapheme(字位) 1.3 Word(词) 1.4 Morpheme(词素) 1.5 bytes 2. 获取语音 ...
（ICASSP 19）Streaming End-to-end Speech Recognition for Mobile Devices
会议:ICASSP 2019 论文:Streaming End-to-end Speech Recognition for Mobile Devices 作者:Yanzhang He, Tara N. ...
SoK: The Faults in our ASRs: An Overview of Attacks against Automatic Speech Recognition （题目过长）阅读笔记
目录前言正文总结 "精读"笔记 Introduction Background Attacks against VPSes Attack threat model taxon ...
[blog] Speech Recognition Is Not Solved 语音识别领域尚待解决的子问题
链接:https://awni.github.io/speech-recognition/ Ever since Deep Learning hit the scene in speech recog ...
《Improving speech recognition by revising gated recurrent units》
作者:Mirco Ravanelli , Philemon Brakel , Maurizio Omologo , Yoshua Bengio 来源:Interspeech 2017 摘要部分: 本 ...
用于语音识别的多任务自我监督学习(Multi-task self-supervised learning for robust speech recognition )
文章目录简介论文信息题目内容摘要论文背景应用背景技术现状论文主要工作论文工作介绍文章框架核心工作 1.PASE+整体框架. 蓝色部分是在 PASE 的基础上改进的部分. 2.如何 ...

Speech recognition模型：RNN Transducer(RNN-T)

Speech recognition模型：RNN Transducer(RNN-T)相关推荐

最新文章

热门文章