端到端的语音识别模型CTC(李宏毅深度学习HLP课程笔记

一、CTC

1、模型介绍

CTC可以用于在线流式语音识别,因此encoder部分需要选择uni-directional RNN,模型结构图如下,输入的语音信号经过encoder逐一转换成语音表征,再经过一个线性分类器得到每个时刻输出类别的概率,假设所有的类别个数为V:

一般来说,假设输入的语音长度a,对应的输出label长度为b,则由于语音帧比较长,识别出来的文字序列相对来说较短,所以b << a。在CTC模型中,为了解决alignment问题,在token中增加一个blank(∅\varnothing∅),可以向输出的label中随机添加blank,使得长度对齐,因此输出的类别总个数为V+1。这样一来在处理输出的token时,需要合并所有相邻的相同token,并移除blank。
比如∅\varnothing∅∅\varnothing∅dd∅\varnothing∅e∅\varnothing∅e∅\varnothing∅pp,处理之后的输出为deep。

2、存在的问题

如果把CTC的linear classifier想象成decoder,则decoder每输入进一个vector,就要对应生成一个输出,并且每个输出都是独立的,并不能有效利用上下文信息(尽管encoder有可能学到上下文信息)。

二、Recurrent Neural Aligner,RNA

针对CTC存在的问题,即linear classifier的每一个输出之间都是独立的,RNA将linear classifier换成RNN/LSTM就解决了这个问题,转换后的结构大致如下图所示。

三、RNN-T

有时一个发音可以对应输出一串token,但是CTC和RNA都是每输入一个vector,对应只输出一个token。对于这个问题,RNN-T可以针对一个vector输出多个token,直到没有token,输出∅\varnothing∅,代表需要接收下一个vector,模型结构图如下所示。(如果一共有t个语音feature,则一共输出t个∅\varnothing∅)


实际上,RNN-T并不是简单的地把linear classifier替换成RNN/LSTM,而是在之前linear classifier的基础上额外增加了RNN,这种方法的优势是额外的RNN可以看作language model,因此它不用语音数据,只需要大量文本数据(也不需要∅\varnothing∅)就可以进行训练。

四、Neural Transducer

CTC、RNA、RNN-T每次都只读一个feature,Neural Transducer每次可以读多个feature,并对它们作attention之后作为输入,模型结构如下图所示,

五、Monotonic Chunkwise Attention,MoChA

Neural Transducer中window每次移动的距离都是相同的,MoChA可以动态移动窗口。

六、总结

端到端的语音识别模型相关推荐

  1. 利用 AssemblyAI 在 PyTorch 中建立端到端的语音识别模型

    作者 | Comet 译者 | 天道酬勤,责编 | Carol 出品 | AI 科技大本营(ID:rgznai100) 这篇文章是由AssemblyAI的机器学习研究工程师Michael Nguyen ...

  2. 百度宣布AI语音调用登顶中国第一,自研芯片+最新端到端模型颠覆传统语音识别算法...

    晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 2019年,NLP和语音技术取得了多项技术突破,但是科技公司考虑更多的是AI的"场景",如何在各种场景中都能方便地集成语 ...

  3. 语音论文:用于端到端语音识别的简化完全量化的Transformer模型

    论文题目 A SIMPLIFIED FULLY QUANTIZED TRANSFORMER FOR END-TO-END SPEECH RECOGNITION 摘要 讲了近些年来,端到端语音识别性能方 ...

  4. 【论文阅读】Paraformer工业级非自回归端到端语音识别模型

    Paraformer: Fast and AccurateTransformer for Non-autoregressive End-to-End Speech Recognition 摘要 介绍 ...

  5. 基于SA-Conv-CTC/Attention端到端语音识别模型的基本原理、实现方法和主要流程

    文章目录 摘要 1. 引言 2. 模型描述 2.1 混合编码器 2.2 位置编码器 2.3 SA-Conv-CTC/Attention架构 2.4 带有SA-LM的混合解码器 3. 实验 3.1 数据 ...

  6. 端到端语音识别模型LAS(listen-attention-spell)

    目录 端到端语音识别模型LAS 介绍: 模型: 模型代码片段 端到端语音识别模型LAS Listen, Attend and Spell (LAS)的神经网络结构,由listener和speller组 ...

  7. seq2seq模型_带你读论文 | 端到端语音识别模型

    编者按:过去十年,得益于人工智能与机器学习的突破.算法与硬/软件能力的进步,以及拥有既多样又大量的语音数据库,用以训练多参数的.大规模的语音识别与合成模型,使得语音处理技术获得飞跃性进展. 随着端到端 ...

  8. 语音识别端到端模型解读:FSMN及其变体模型

    摘要:在很长一段时间内,语音识别领域最常用的模型是GMM-HMM.但近年来随着深度学习的发展,出现了越来越多基于神经网络的语音识别模型. 一.概述 在很长一段时间内,语音识别领域最常用的模型是GMM- ...

  9. 脸书开源第一个使用卷积神经网络技术的端到端语音识别系统

    https://www.toutiao.com/a6639449370913669635/ 2018-12-27 07:34:30 脸书发布全新自动语音识别的卷积方法 ,以及开源目前最先进的端到端语音 ...

最新文章

  1. linux 配置软连接的需要注意的一个问题
  2. 推荐一些顶级的开源CI/CD工具
  3. 莫斯科国立大学更新VQMT的测量指标
  4. oracle 删除表中重复记录,并保留一条
  5. python 代码排布_python实现经典排序算法的示例代码
  6. JS收集:遍历CHECKBOX
  7. 【开发者portal在线开发插件系列四】数组 及 可变长度数组
  8. jQuery 自定义选择器
  9. mac 安装php7.4
  10. Html和Css学习笔记-html进阶-div与span
  11. python 爬虫——模拟登录古诗文网
  12. ad转3d视图快捷键_AD 常用快捷键
  13. 三种查询IP归属地的接口
  14. 乐视x820android最新版本,乐视 Max2 Android 10更新教程
  15. 第一届程序设计竞赛题解(E题)
  16. c语言oj数据通过,OJ输入数据的处理
  17. compact mysql_PHP compact() 函数
  18. LintCode 702. 连接两个字符串中的不同字符 JavaScript算法
  19. 前端html页面中的命名规范
  20. Acrel-BUS智能照明控制系统的设计与应用

热门文章

  1. phpstudy弹出windows-没有软盘,exception processing c0000013 parameters *** *** ***
  2. php 元旦祝福,简短祝福语八个字 元旦祝福语简短
  3. Android 消息队列
  4. React 版本的真开箱即用的富文本编辑器wysiwyg
  5. c++获取mac操作系统的版本号
  6. 生僻字怎么用计算机打出来,电脑搜狗输入法生僻字怎么打?电脑搜狗输入法怎么打不认识的字?...
  7. 项目一15 服务器端VisualSVN安装配置 客户端TortoriesSVN安装与使用SVN
  8. 高校新闻抓取分析之百度新闻篇---数据抓取
  9. 用Python实现目录遍历及文件搜索
  10. 熊孩子乱敲键盘攻破Linux,“熊孩子”乱敲键盘就攻破了Linux桌面,大神:17年前我就警告过你们...