1、CTC ( Connectionist Temporal Classification)

网络结构

参考地址: CTC白话参考地址

其中CTC-loss 部分使用到了动态规划的思想。
大目标是：

min∑B(π)=z∏t=1Tyπttmin∑B(π)=z∑t=1Tlog(yπtt)min \sum_{B(\pi)=z } {\prod_{t=1}^{T} y_{\pi_t}^{t}} \\ min \sum_{B(\pi)=z } {\sum_{t=1}^{T} log(y_{\pi_t}^{t})} minB(π)=z∑t=1∏TyπttminB(π)=z∑t=1∑Tlog(yπtt)

其中TTT表示总帧数。yπtty_{\pi_t}^{t}yπtt表示模型预测的第t帧，因素为πt\pi_tπt的概率值。

dp[i][j]: 表示第考虑到i帧，压缩路径满足z=(n,i,h,a,o)z=(n,i,h,a,o)z=(n,i,h,a,o)的前j个时的，所有路径总概率和。记为：
∑B(π)=z∏t=1iyπtt\sum_{B(\pi)=z } {\prod_{t=1}^{i} y_{\pi_t}^{t}} B(π)=z∑t=1∏iyπtt

所以状态转移方程为:
dp[i][j]=dp[i−1][j]∗yzj+dp[i][j−1]∗yzjdp[i][j] = dp[i-1][j] * y_{z_j} + dp[i][j-1] * y_{z_j} dp[i][j]=dp[i−1][j]∗yzj+dp[i][j−1]∗yzj

2、RNN-Transducer

网络结构

3、LAS(Listen Attention Speech)

网络结构

CTC,RNN-Transducer, LAS相关推荐

深度学习与人类语言处理-语音识别(part1)
深度学习与人类语言处理课程笔记,上节回顾深度学习与人类语言处理-introduction.这节课将会简单介绍语音识别的最新研究方法,请看正文语音识别该何去何从? 1969年,J.R. PIERCE: ...
NLP——李宏毅课程笔记
课程主页:Hung-yi Lee (ntu.edu.tw) 任务类型: 1.Speech Recognition 2.Text-to-Speech Synthesis 3.Speech Separat ...
【深度学习人类语言处理】1 课程介绍、语音辨识1——人类语言处理六种模型、Token、五种Seq2Seq Model(LAS、CTC、RNN-T、Neural Transducer、MoChA)
Deep Learning for Human Ianguage Processing 1. DLHLP-Introduction 1.1 概述 1.2 六种模型与应用 1.2.1 语音到文本 1.2 ...
Paper：RNN之《Generating Sequences With Recurrent Neural Networks用循环神经网络生成序列》的翻译和解读
Paper:<Generating Sequences With Recurrent Neural Networks>的翻译和解读目录 Generating Sequences With ...
Google 又逆天：语音输入离线实时输出文字，仅占 80 MB ！然而……
作者 | 琥珀出品 | AI科技大本营(公众号id:rgznai100) Python规划学习路线图,速领取? https://edu.csdn.net/topic/python115?utm_so ...
【NLP】自然语言处理学习笔记（一）语音识别
前言本笔记参考的课程是李宏毅老师的自然语言处理课程Link:https://aistudio.baidu.com/aistudio/education/lessonvideo/1000466 To ...
研究生周报（第十九周）
研究生周报(第十九周) 学习目标 Transformer LAS CTC RNN-T Language-Model 学习时间 9.11 ~ 9.17 学习产出 Transformer Embeddin ...
Google又逆天：语音输入离线实时输出文字，仅占80MB！然而……
4 月 13 日-4 月 14 日,CSDN 将在北京主办"Python 开发者日( 2019 )",汇聚十余位来自阿里巴巴.IBM.英伟达等国内外一线科技公司的Python 技术 ...
自动语音识别（ASR）研究综述
自动语音识别ASR研究综述一.语言识别基础知识从语音系统识别构成来讲,一套完整的语音识别系统包括:预处理.特征提取.声学模型.语言模型.以及搜索算法等模块,具体结构示意图如下所示: 特征提取(MF ...
用python直接调用asr技术_语音识别技术ASR（一）基本概念
注:本文内容主要来源自台大李宏毅老师的Deep Learning for Human Language Processing系列课程一.语音识别的基本过程语音识别的输入一般是时域的语音信号,数学上 ...

CTC,RNN-Transducer, LAS

1、CTC ( Connectionist Temporal Classification)

网络结构

2、RNN-Transducer

网络结构

3、LAS(Listen Attention Speech)

网络结构

CTC,RNN-Transducer, LAS相关推荐

最新文章

热门文章