一,RNA(recurrent Neural Aligner)
RNA的模型结构介于 CTC 和 RNN-T 之间,在介绍RNN-T之前,将首先介绍RNA。

  • RNA模型结构:

RNA相较于CTC,有2大改进:
1,RNA中,将CTC的classifier改为了一个LSTM,使得模型在分类时,不单考虑了当下time step的h,同时也考虑了前一个time step的token。
2,RNA中,输入一个acoustic feature,可以输出多个output(即输出多个token),直到输出 null为止,该time step的output结束。
其模型结构如下图所示:

  • RNA存在问题:

同CTC一样,RNA的训练也存在2方面的问题:
1,原始的训练数据为(语音,文本)对,但是,实际的模型训练时,需要的训练数据为paired train data,即(acoustic feature,token),所以,需要对训练数据进行alignment。
2,由于输入一个acoustic feature,其会一直输出token,直到输出null为止。因此,工程师在制作训练数据时,需要自行考虑将null插入文本中的何处。

二,RNN-T

  • RNN-T在RNA的基础上做了2处修改:

1,将RNA的LSTM classifier打断;
2,在output(token)上方,加了一个RNN,其input为token,当token为null时,则自动将其忽略。RNN在该time step的输出将会灌入下一个time step的classifier中作为输入,同acoustic feature一起 ,参与output token的预测。
这里,RNN起到了language model的作用,只不过是更小粒度的language。个人理解,这里的RNN是与模型的其他部分一起进行训练的。
其结构如下图所示:

  • RNN-T存在的缺陷与RNA一样,在此不再赘述。
    三,LAS,CTC,RNA,RNN-T 都是输入一个acoustic feature 然后给出输出的模型,在下一节中,将讲述另外一种类型的模型,即:给定一把输入,then,进行output。

Speech recognition模型:RNN Transducer(RNN-T)相关推荐

  1. Speech recognition模型:MoChA(Monotonic Chunkwise Attention)

    一,NT(Neural Transducer) 和 MoChA 均为 input 一把acoustic feature,然后进行输出的模型,在此,以NT为引,引入MoChA. NT的模型结构如下图所示 ...

  2. Advancing Transformer Transducer for Speech Recognition on Large-Scale Dataset》

    本文是观看上海交通大学陈谐老师在<人机语音通信>课程的讲座的笔记,原视频链接,本文参考[3] [4]. 1 Model Overview: Transformer Transducer 语 ...

  3. 【图像分割模型】以RNN形式做CRF后处理—CRFasRNN

    这是专栏<图像分割模型>的第5篇文章.在这里,我们将共同探索解决分割问题的主流网络结构和设计思想. 条件随机场有点复杂,那能不能用神经网络的方式搞定CRF后处理呢?今天我们一起看一看穿上R ...

  4. deeplearning.38序列模型(搭建RNN与LSTM应用实践)

    序列模型 搭建循环神经网络 循环神经网络简介 相关符号声明 导入库 RNN的前向传播 RNN单元 RNN前向传播函数 LSTM(长短期记忆网络) 关于门 定义实现LSTM单元 定义LSTM前向传播 循 ...

  5. 语音识别(Speech Recognition)综述

    文章目录 1. 语音识别的基本单位 1.1 Phoneme(音位,音素) 1.2 Grapheme(字位) 1.3 Word(词) 1.4 Morpheme(词素) 1.5 bytes 2. 获取语音 ...

  6. (ICASSP 19)Streaming End-to-end Speech Recognition for Mobile Devices

    会议:ICASSP 2019 论文:Streaming End-to-end Speech Recognition for Mobile Devices 作者:Yanzhang He, Tara N. ...

  7. SoK: The Faults in our ASRs: An Overview of Attacks against Automatic Speech Recognition (题目过长)阅读笔记

    目录 前言 正文 总结 "精读"笔记 Introduction Background Attacks against VPSes Attack threat model taxon ...

  8. [blog] Speech Recognition Is Not Solved 语音识别领域尚待解决的子问题

    链接:https://awni.github.io/speech-recognition/ Ever since Deep Learning hit the scene in speech recog ...

  9. 《Improving speech recognition by revising gated recurrent units》

    作者:Mirco Ravanelli , Philemon Brakel , Maurizio Omologo  , Yoshua Bengio 来源:Interspeech 2017 摘要部分: 本 ...

  10. 用于语音识别的多任务自我监督学习(Multi-task self-supervised learning for robust speech recognition )

    文章目录 简介 论文信息 题目 内容摘要 论文背景 应用背景 技术现状 论文主要工作 论文工作介绍 文章框架 核心工作 1.PASE+整体框架. 蓝色部分是在 PASE 的基础上改进的部分. 2.如何 ...

最新文章

  1. Python学习第四天----Linux之用户与用户组权限
  2. 测量一组类下三角矩阵的质量和频率n=m+1
  3. Oracle常用sql操作总结
  4. fzu2202 犯罪嫌疑人
  5. 微信小程序 获取php值,微信小程序如何获取javascript里的数据
  6. 最全“勒索病毒”的应对方案
  7. 百度排名规则及算法(百度内部资料)
  8. Redis6.0.6_06_Redis 集群
  9. idea配置tomcat热部署
  10. OpenSSL密码库算法笔记——第 3.2.2章 利用Barrett约化实现
  11. php开发数独,数独解题小程序实现代码
  12. 人间繁华江上明月,乃浮生一梦,惟真情长在——读沈君山《浮生再记》(并转书评)
  13. 什么是数据库分组查询(详解)
  14. 用AI取代SGD?无需训练ResNet-50,AI秒级预测全部2400万个参数,准确率60% | NeurIPS 2021...
  15. TCP握手机制、TCP长连接和短连接、TCP 保活机制 、心跳机制
  16. ppi转以太网连接西门子smart/200PLC连接软件配置方法
  17. 数据中心网络高可用架构
  18. 《浪潮之巅》13 幕后的英雄--风险投资
  19. 2019.9.3 瓜子二手车笔试题
  20. MT6757/P20处理器功能资料介绍

热门文章

  1. 冷血格斗场和热血格斗场
  2. 联想拯救者笔记本电脑Fn键失效,Fn功能相反,开关FnLock
  3. smplayer_Windows上的SMPlayer入门(更好地播放电影)
  4. 2016服务器系统配置网站,Server 2016服务器操作系统中配置NIC组合
  5. 【无限互联】学员作品 豆果美食IOS客户端
  6. opencv 切取红色
  7. 触摸屏 触摸操作 鼠标点击事件
  8. java让星星闪烁,js实现星星闪特效
  9. android银河城游戏,Endless Memories安卓版
  10. C语言实战--DDOS攻击器