Speech recognition模型:RNN Transducer(RNN-T)
一,RNA(recurrent Neural Aligner)
RNA的模型结构介于 CTC 和 RNN-T 之间,在介绍RNN-T之前,将首先介绍RNA。
- RNA模型结构:
RNA相较于CTC,有2大改进:
1,RNA中,将CTC的classifier改为了一个LSTM,使得模型在分类时,不单考虑了当下time step的h,同时也考虑了前一个time step的token。
2,RNA中,输入一个acoustic feature,可以输出多个output(即输出多个token),直到输出 null为止,该time step的output结束。
其模型结构如下图所示:
- RNA存在问题:
同CTC一样,RNA的训练也存在2方面的问题:
1,原始的训练数据为(语音,文本)对,但是,实际的模型训练时,需要的训练数据为paired train data,即(acoustic feature,token),所以,需要对训练数据进行alignment。
2,由于输入一个acoustic feature,其会一直输出token,直到输出null为止。因此,工程师在制作训练数据时,需要自行考虑将null插入文本中的何处。
二,RNN-T
- RNN-T在RNA的基础上做了2处修改:
1,将RNA的LSTM classifier打断;
2,在output(token)上方,加了一个RNN,其input为token,当token为null时,则自动将其忽略。RNN在该time step的输出将会灌入下一个time step的classifier中作为输入,同acoustic feature一起 ,参与output token的预测。
这里,RNN起到了language model的作用,只不过是更小粒度的language。个人理解,这里的RNN是与模型的其他部分一起进行训练的。
其结构如下图所示:
- RNN-T存在的缺陷与RNA一样,在此不再赘述。
三,LAS,CTC,RNA,RNN-T 都是输入一个acoustic feature 然后给出输出的模型,在下一节中,将讲述另外一种类型的模型,即:给定一把输入,then,进行output。
Speech recognition模型:RNN Transducer(RNN-T)相关推荐
- Speech recognition模型:MoChA(Monotonic Chunkwise Attention)
一,NT(Neural Transducer) 和 MoChA 均为 input 一把acoustic feature,然后进行输出的模型,在此,以NT为引,引入MoChA. NT的模型结构如下图所示 ...
- Advancing Transformer Transducer for Speech Recognition on Large-Scale Dataset》
本文是观看上海交通大学陈谐老师在<人机语音通信>课程的讲座的笔记,原视频链接,本文参考[3] [4]. 1 Model Overview: Transformer Transducer 语 ...
- 【图像分割模型】以RNN形式做CRF后处理—CRFasRNN
这是专栏<图像分割模型>的第5篇文章.在这里,我们将共同探索解决分割问题的主流网络结构和设计思想. 条件随机场有点复杂,那能不能用神经网络的方式搞定CRF后处理呢?今天我们一起看一看穿上R ...
- deeplearning.38序列模型(搭建RNN与LSTM应用实践)
序列模型 搭建循环神经网络 循环神经网络简介 相关符号声明 导入库 RNN的前向传播 RNN单元 RNN前向传播函数 LSTM(长短期记忆网络) 关于门 定义实现LSTM单元 定义LSTM前向传播 循 ...
- 语音识别(Speech Recognition)综述
文章目录 1. 语音识别的基本单位 1.1 Phoneme(音位,音素) 1.2 Grapheme(字位) 1.3 Word(词) 1.4 Morpheme(词素) 1.5 bytes 2. 获取语音 ...
- (ICASSP 19)Streaming End-to-end Speech Recognition for Mobile Devices
会议:ICASSP 2019 论文:Streaming End-to-end Speech Recognition for Mobile Devices 作者:Yanzhang He, Tara N. ...
- SoK: The Faults in our ASRs: An Overview of Attacks against Automatic Speech Recognition (题目过长)阅读笔记
目录 前言 正文 总结 "精读"笔记 Introduction Background Attacks against VPSes Attack threat model taxon ...
- [blog] Speech Recognition Is Not Solved 语音识别领域尚待解决的子问题
链接:https://awni.github.io/speech-recognition/ Ever since Deep Learning hit the scene in speech recog ...
- 《Improving speech recognition by revising gated recurrent units》
作者:Mirco Ravanelli , Philemon Brakel , Maurizio Omologo , Yoshua Bengio 来源:Interspeech 2017 摘要部分: 本 ...
- 用于语音识别的多任务自我监督学习(Multi-task self-supervised learning for robust speech recognition )
文章目录 简介 论文信息 题目 内容摘要 论文背景 应用背景 技术现状 论文主要工作 论文工作介绍 文章框架 核心工作 1.PASE+整体框架. 蓝色部分是在 PASE 的基础上改进的部分. 2.如何 ...
最新文章
- Python学习第四天----Linux之用户与用户组权限
- 测量一组类下三角矩阵的质量和频率n=m+1
- Oracle常用sql操作总结
- fzu2202 犯罪嫌疑人
- 微信小程序 获取php值,微信小程序如何获取javascript里的数据
- 最全“勒索病毒”的应对方案
- 百度排名规则及算法(百度内部资料)
- Redis6.0.6_06_Redis 集群
- idea配置tomcat热部署
- OpenSSL密码库算法笔记——第 3.2.2章 利用Barrett约化实现
- php开发数独,数独解题小程序实现代码
- 人间繁华江上明月,乃浮生一梦,惟真情长在——读沈君山《浮生再记》(并转书评)
- 什么是数据库分组查询(详解)
- 用AI取代SGD?无需训练ResNet-50,AI秒级预测全部2400万个参数,准确率60% | NeurIPS 2021...
- TCP握手机制、TCP长连接和短连接、TCP 保活机制 、心跳机制
- ppi转以太网连接西门子smart/200PLC连接软件配置方法
- 数据中心网络高可用架构
- 《浪潮之巅》13 幕后的英雄--风险投资
- 2019.9.3 瓜子二手车笔试题
- MT6757/P20处理器功能资料介绍