CTC,RNN-Transducer, LAS
1、CTC ( Connectionist Temporal Classification)
网络结构
参考地址: CTC白话参考地址
其中CTC-loss 部分使用到了动态规划的思想。
大目标是:
min∑B(π)=z∏t=1Tyπttmin∑B(π)=z∑t=1Tlog(yπtt)min \sum_{B(\pi)=z } {\prod_{t=1}^{T} y_{\pi_t}^{t}} \\ min \sum_{B(\pi)=z } {\sum_{t=1}^{T} log(y_{\pi_t}^{t})} minB(π)=z∑t=1∏TyπttminB(π)=z∑t=1∑Tlog(yπtt)
其中TTT表示总帧数。yπtty_{\pi_t}^{t}yπtt表示模型预测的第t帧,因素为πt\pi_tπt的概率值。
dp[i][j]: 表示第考虑到i帧,压缩路径满足z=(n,i,h,a,o)z=(n,i,h,a,o)z=(n,i,h,a,o)的前j个时的,所有路径总概率和。记为:
∑B(π)=z∏t=1iyπtt\sum_{B(\pi)=z } {\prod_{t=1}^{i} y_{\pi_t}^{t}} B(π)=z∑t=1∏iyπtt
所以状态转移方程为:
dp[i][j]=dp[i−1][j]∗yzj+dp[i][j−1]∗yzjdp[i][j] = dp[i-1][j] * y_{z_j} + dp[i][j-1] * y_{z_j} dp[i][j]=dp[i−1][j]∗yzj+dp[i][j−1]∗yzj
2、RNN-Transducer
网络结构
3、LAS(Listen Attention Speech)
网络结构
CTC,RNN-Transducer, LAS相关推荐
- 深度学习与人类语言处理-语音识别(part1)
深度学习与人类语言处理课程笔记,上节回顾深度学习与人类语言处理-introduction.这节课将会简单介绍语音识别的最新研究方法,请看正文 语音识别该何去何从? 1969年,J.R. PIERCE: ...
- NLP——李宏毅课程笔记
课程主页:Hung-yi Lee (ntu.edu.tw) 任务类型: 1.Speech Recognition 2.Text-to-Speech Synthesis 3.Speech Separat ...
- 【深度学习人类语言处理】1 课程介绍、语音辨识1——人类语言处理六种模型、Token、五种Seq2Seq Model(LAS、CTC、RNN-T、Neural Transducer、MoChA)
Deep Learning for Human Ianguage Processing 1. DLHLP-Introduction 1.1 概述 1.2 六种模型与应用 1.2.1 语音到文本 1.2 ...
- Paper:RNN之《Generating Sequences With Recurrent Neural Networks用循环神经网络生成序列》的翻译和解读
Paper:<Generating Sequences With Recurrent Neural Networks>的翻译和解读 目录 Generating Sequences With ...
- Google 又逆天:语音输入离线实时输出文字,仅占 80 MB !然而……
作者 | 琥珀 出品 | AI科技大本营(公众号id:rgznai100) Python规划学习路线图,速领取? https://edu.csdn.net/topic/python115?utm_so ...
- 【NLP】自然语言处理学习笔记(一)语音识别
前言 本笔记参考的课程是李宏毅老师的自然语言处理 课程Link:https://aistudio.baidu.com/aistudio/education/lessonvideo/1000466 To ...
- 研究生周报(第十九周)
研究生周报(第十九周) 学习目标 Transformer LAS CTC RNN-T Language-Model 学习时间 9.11 ~ 9.17 学习产出 Transformer Embeddin ...
- Google又逆天:语音输入离线实时输出文字,仅占80MB!然而……
4 月 13 日-4 月 14 日,CSDN 将在北京主办"Python 开发者日( 2019 )",汇聚十余位来自阿里巴巴.IBM.英伟达等国内外一线科技公司的Python 技术 ...
- 自动语音识别(ASR)研究综述
自动语音识别ASR研究综述 一.语言识别基础知识 从语音系统识别构成来讲,一套完整的语音识别系统包括:预处理.特征提取.声学模型.语言模型.以及搜索算法等模块,具体结构示意图如下所示: 特征提取(MF ...
- 用python直接调用asr技术_语音识别技术ASR(一)基本概念
注:本文内容主要来源自台大李宏毅老师的Deep Learning for Human Language Processing系列课程 一.语音识别的基本过程 语音识别的输入一般是时域的语音信号,数学上 ...
最新文章
- 设计模式:单例模式之双重检查
- JQuery 基础 || 目前 jQuery 有三个大版本||JQuery快速入门
- 计算机网络实验(华为eNSP模拟器)——第十三章 VLAN注册协议(GVRP)
- Robotium编写测试用例如何模拟Junit4的BeforeClass和AfterClass方法1 - 条件判断法
- 英语笔记:词组句子:0712
- [短评]什么是大教堂与集市(和谐)
- 【异或】LeetCode 136. Single Number
- (十四)三次样条插值
- LinkedList遍历方式区别
- eclipse字体大小设置教程(eclipse主窗口和控制台字体大小设置)
- w ndows模拟器,iPad 模拟器 模拟器(windows - iPadian)
- 如何设计一个秒杀系统?
- C++ 实现大小写转换
- 可恶的零宽空格—ZWSP
- 千兆网线水晶头的接法
- mysql 报错Incorrect string value: '\xF0\x9F\x98\x84' 解决方案
- Windows无法连接到打印机怎么办?快收藏这些正确做法!
- 熬夜读完这份高分宝典,四面字节之后成功拿下
- BIM建筑环境规则和分析(BERA)语言介绍(三)第二章 背景
- 微软C2030服务器,高手们,帮分析下这个报告,在线等
热门文章
- 基于ARM的嵌入式SMTP远程控制设计
- EM9636数据上传百度云
- Spring Boot学习笔记(二十一)Spring boot 数据校验 @Validated、@Valid用法详解
- Windows Server - NIC Teaming
- 载硫酸庆大霉素PLGA纳米粒PNPs(GS修饰PLGA纳米粒)/cRGD修饰PLGA纳米粒的制备方法
- 征服,才是技术人的本能
- 解决React Hooks useEffect控制台报错:内存泄漏
- 计算机科学与技术张萌,牢记使命,扬帆起航——记计算机科学学院两委第一次例会圆满召开...
- Icebound and Sequence(等比数列公式的递归处理)
- 计算机运行快是取决什么,电脑速度快慢取决哪个硬件