端到端的语音识别模型
端到端的语音识别模型CTC(李宏毅深度学习HLP课程笔记)
一、CTC
1、模型介绍
CTC可以用于在线流式语音识别,因此encoder部分需要选择uni-directional RNN,模型结构图如下,输入的语音信号经过encoder逐一转换成语音表征,再经过一个线性分类器得到每个时刻输出类别的概率,假设所有的类别个数为V:
一般来说,假设输入的语音长度a,对应的输出label长度为b,则由于语音帧比较长,识别出来的文字序列相对来说较短,所以b << a。在CTC模型中,为了解决alignment问题,在token中增加一个blank(∅\varnothing∅),可以向输出的label中随机添加blank,使得长度对齐,因此输出的类别总个数为V+1。这样一来在处理输出的token时,需要合并所有相邻的相同token,并移除blank。
比如∅\varnothing∅∅\varnothing∅dd∅\varnothing∅e∅\varnothing∅e∅\varnothing∅pp,处理之后的输出为deep。
2、存在的问题
如果把CTC的linear classifier想象成decoder,则decoder每输入进一个vector,就要对应生成一个输出,并且每个输出都是独立的,并不能有效利用上下文信息(尽管encoder有可能学到上下文信息)。
二、Recurrent Neural Aligner,RNA
针对CTC存在的问题,即linear classifier的每一个输出之间都是独立的,RNA将linear classifier换成RNN/LSTM就解决了这个问题,转换后的结构大致如下图所示。
三、RNN-T
有时一个发音可以对应输出一串token,但是CTC和RNA都是每输入一个vector,对应只输出一个token。对于这个问题,RNN-T可以针对一个vector输出多个token,直到没有token,输出∅\varnothing∅,代表需要接收下一个vector,模型结构图如下所示。(如果一共有t个语音feature,则一共输出t个∅\varnothing∅)
实际上,RNN-T并不是简单的地把linear classifier替换成RNN/LSTM,而是在之前linear classifier的基础上额外增加了RNN,这种方法的优势是额外的RNN可以看作language model,因此它不用语音数据,只需要大量文本数据(也不需要∅\varnothing∅)就可以进行训练。
四、Neural Transducer
CTC、RNA、RNN-T每次都只读一个feature,Neural Transducer每次可以读多个feature,并对它们作attention之后作为输入,模型结构如下图所示,
五、Monotonic Chunkwise Attention,MoChA
Neural Transducer中window每次移动的距离都是相同的,MoChA可以动态移动窗口。
六、总结
端到端的语音识别模型相关推荐
- 利用 AssemblyAI 在 PyTorch 中建立端到端的语音识别模型
作者 | Comet 译者 | 天道酬勤,责编 | Carol 出品 | AI 科技大本营(ID:rgznai100) 这篇文章是由AssemblyAI的机器学习研究工程师Michael Nguyen ...
- 百度宣布AI语音调用登顶中国第一,自研芯片+最新端到端模型颠覆传统语音识别算法...
晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 2019年,NLP和语音技术取得了多项技术突破,但是科技公司考虑更多的是AI的"场景",如何在各种场景中都能方便地集成语 ...
- 语音论文:用于端到端语音识别的简化完全量化的Transformer模型
论文题目 A SIMPLIFIED FULLY QUANTIZED TRANSFORMER FOR END-TO-END SPEECH RECOGNITION 摘要 讲了近些年来,端到端语音识别性能方 ...
- 【论文阅读】Paraformer工业级非自回归端到端语音识别模型
Paraformer: Fast and AccurateTransformer for Non-autoregressive End-to-End Speech Recognition 摘要 介绍 ...
- 基于SA-Conv-CTC/Attention端到端语音识别模型的基本原理、实现方法和主要流程
文章目录 摘要 1. 引言 2. 模型描述 2.1 混合编码器 2.2 位置编码器 2.3 SA-Conv-CTC/Attention架构 2.4 带有SA-LM的混合解码器 3. 实验 3.1 数据 ...
- 端到端语音识别模型LAS(listen-attention-spell)
目录 端到端语音识别模型LAS 介绍: 模型: 模型代码片段 端到端语音识别模型LAS Listen, Attend and Spell (LAS)的神经网络结构,由listener和speller组 ...
- seq2seq模型_带你读论文 | 端到端语音识别模型
编者按:过去十年,得益于人工智能与机器学习的突破.算法与硬/软件能力的进步,以及拥有既多样又大量的语音数据库,用以训练多参数的.大规模的语音识别与合成模型,使得语音处理技术获得飞跃性进展. 随着端到端 ...
- 语音识别端到端模型解读:FSMN及其变体模型
摘要:在很长一段时间内,语音识别领域最常用的模型是GMM-HMM.但近年来随着深度学习的发展,出现了越来越多基于神经网络的语音识别模型. 一.概述 在很长一段时间内,语音识别领域最常用的模型是GMM- ...
- 脸书开源第一个使用卷积神经网络技术的端到端语音识别系统
https://www.toutiao.com/a6639449370913669635/ 2018-12-27 07:34:30 脸书发布全新自动语音识别的卷积方法 ,以及开源目前最先进的端到端语音 ...
最新文章
- linux 配置软连接的需要注意的一个问题
- 推荐一些顶级的开源CI/CD工具
- 莫斯科国立大学更新VQMT的测量指标
- oracle 删除表中重复记录,并保留一条
- python 代码排布_python实现经典排序算法的示例代码
- JS收集:遍历CHECKBOX
- 【开发者portal在线开发插件系列四】数组 及 可变长度数组
- jQuery 自定义选择器
- mac 安装php7.4
- Html和Css学习笔记-html进阶-div与span
- python 爬虫——模拟登录古诗文网
- ad转3d视图快捷键_AD 常用快捷键
- 三种查询IP归属地的接口
- 乐视x820android最新版本,乐视 Max2 Android 10更新教程
- 第一届程序设计竞赛题解(E题)
- c语言oj数据通过,OJ输入数据的处理
- compact mysql_PHP compact() 函数
- LintCode 702. 连接两个字符串中的不同字符 JavaScript算法
- 前端html页面中的命名规范
- Acrel-BUS智能照明控制系统的设计与应用
热门文章
- phpstudy弹出windows-没有软盘,exception processing c0000013 parameters *** *** ***
- php 元旦祝福,简短祝福语八个字 元旦祝福语简短
- Android 消息队列
- React 版本的真开箱即用的富文本编辑器wysiwyg
- c++获取mac操作系统的版本号
- 生僻字怎么用计算机打出来,电脑搜狗输入法生僻字怎么打?电脑搜狗输入法怎么打不认识的字?...
- 项目一15 服务器端VisualSVN安装配置 客户端TortoriesSVN安装与使用SVN
- 高校新闻抓取分析之百度新闻篇---数据抓取
- 用Python实现目录遍历及文件搜索
- 熊孩子乱敲键盘攻破Linux,“熊孩子”乱敲键盘就攻破了Linux桌面,大神:17年前我就警告过你们...