1、CTC ( Connectionist Temporal Classification)

网络结构

参考地址: CTC白话参考地址

其中CTC-loss 部分使用到了动态规划的思想。
大目标是:

min∑B(π)=z∏t=1Tyπttmin∑B(π)=z∑t=1Tlog(yπtt)min \sum_{B(\pi)=z } {\prod_{t=1}^{T} y_{\pi_t}^{t}} \\ min \sum_{B(\pi)=z } {\sum_{t=1}^{T} log(y_{\pi_t}^{t})} minB(π)=z∑​t=1∏T​yπt​t​minB(π)=z∑​t=1∑T​log(yπt​t​)

其中TTT表示总帧数。yπtty_{\pi_t}^{t}yπt​t​表示模型预测的第t帧,因素为πt\pi_tπt​的概率值。

dp[i][j]: 表示第考虑到i帧,压缩路径满足z=(n,i,h,a,o)z=(n,i,h,a,o)z=(n,i,h,a,o)的前j个时的,所有路径总概率和。记为:
∑B(π)=z∏t=1iyπtt\sum_{B(\pi)=z } {\prod_{t=1}^{i} y_{\pi_t}^{t}} B(π)=z∑​t=1∏i​yπt​t​

所以状态转移方程为:
dp[i][j]=dp[i−1][j]∗yzj+dp[i][j−1]∗yzjdp[i][j] = dp[i-1][j] * y_{z_j} + dp[i][j-1] * y_{z_j} dp[i][j]=dp[i−1][j]∗yzj​​+dp[i][j−1]∗yzj​​

2、RNN-Transducer

网络结构

3、LAS(Listen Attention Speech)

网络结构

CTC,RNN-Transducer, LAS相关推荐

  1. 深度学习与人类语言处理-语音识别(part1)

    深度学习与人类语言处理课程笔记,上节回顾深度学习与人类语言处理-introduction.这节课将会简单介绍语音识别的最新研究方法,请看正文 语音识别该何去何从? 1969年,J.R. PIERCE: ...

  2. NLP——李宏毅课程笔记

    课程主页:Hung-yi Lee (ntu.edu.tw) 任务类型: 1.Speech Recognition 2.Text-to-Speech Synthesis 3.Speech Separat ...

  3. 【深度学习人类语言处理】1 课程介绍、语音辨识1——人类语言处理六种模型、Token、五种Seq2Seq Model(LAS、CTC、RNN-T、Neural Transducer、MoChA)

    Deep Learning for Human Ianguage Processing 1. DLHLP-Introduction 1.1 概述 1.2 六种模型与应用 1.2.1 语音到文本 1.2 ...

  4. Paper:RNN之《Generating Sequences With Recurrent Neural Networks用循环神经网络生成序列》的翻译和解读

    Paper:<Generating Sequences With Recurrent Neural Networks>的翻译和解读 目录 Generating Sequences With ...

  5. Google 又逆天:语音输入离线实时输出文字,仅占 80 MB !然而……

    作者 | 琥珀 出品 | AI科技大本营(公众号id:rgznai100) Python规划学习路线图,速领取? https://edu.csdn.net/topic/python115?utm_so ...

  6. 【NLP】自然语言处理学习笔记(一)语音识别

    前言 本笔记参考的课程是李宏毅老师的自然语言处理 课程Link:https://aistudio.baidu.com/aistudio/education/lessonvideo/1000466 To ...

  7. 研究生周报(第十九周)

    研究生周报(第十九周) 学习目标 Transformer LAS CTC RNN-T Language-Model 学习时间 9.11 ~ 9.17 学习产出 Transformer Embeddin ...

  8. Google又逆天:语音输入离线实时输出文字,仅占80MB!然而……

    4 月 13 日-4 月 14 日,CSDN 将在北京主办"Python 开发者日( 2019 )",汇聚十余位来自阿里巴巴.IBM.英伟达等国内外一线科技公司的Python 技术 ...

  9. 自动语音识别(ASR)研究综述

    自动语音识别ASR研究综述 一.语言识别基础知识 从语音系统识别构成来讲,一套完整的语音识别系统包括:预处理.特征提取.声学模型.语言模型.以及搜索算法等模块,具体结构示意图如下所示: 特征提取(MF ...

  10. 用python直接调用asr技术_语音识别技术ASR(一)基本概念

    注:本文内容主要来源自台大李宏毅老师的Deep Learning for Human Language Processing系列课程 一.语音识别的基本过程 语音识别的输入一般是时域的语音信号,数学上 ...

最新文章

  1. 设计模式:单例模式之双重检查
  2. JQuery 基础 || 目前 jQuery 有三个大版本||JQuery快速入门
  3. 计算机网络实验(华为eNSP模拟器)——第十三章 VLAN注册协议(GVRP)
  4. Robotium编写测试用例如何模拟Junit4的BeforeClass和AfterClass方法1 - 条件判断法
  5. 英语笔记:词组句子:0712
  6. [短评]什么是大教堂与集市(和谐)
  7. 【异或】LeetCode 136. Single Number
  8. (十四)三次样条插值
  9. LinkedList遍历方式区别
  10. eclipse字体大小设置教程(eclipse主窗口和控制台字体大小设置)
  11. w ndows模拟器,iPad 模拟器 模拟器(windows - iPadian)
  12. 如何设计一个秒杀系统?
  13. C++ 实现大小写转换
  14. 可恶的零宽空格—ZWSP
  15. 千兆网线水晶头的接法
  16. mysql 报错Incorrect string value: '\xF0\x9F\x98\x84' 解决方案
  17. Windows无法连接到打印机怎么办?快收藏这些正确做法!
  18. 熬夜读完这份高分宝典,四面字节之后成功拿下
  19. BIM建筑环境规则和分析(BERA)语言介绍(三)第二章 背景
  20. 微软C2030服务器,高手们,帮分析下这个报告,在线等

热门文章

  1. 基于ARM的嵌入式SMTP远程控制设计
  2. EM9636数据上传百度云
  3. Spring Boot学习笔记(二十一)Spring boot 数据校验 @Validated、@Valid用法详解
  4. Windows Server - NIC Teaming
  5. 载硫酸庆大霉素PLGA纳米粒PNPs(GS修饰PLGA纳米粒)/cRGD修饰PLGA纳米粒的制备方法
  6. 征服,才是技术人的本能
  7. 解决React Hooks useEffect控制台报错:内存泄漏
  8. 计算机科学与技术张萌,牢记使命,扬帆起航——记计算机科学学院两委第一次例会圆满召开...
  9. Icebound and Sequence(等比数列公式的递归处理)
  10. 计算机运行快是取决什么,电脑速度快慢取决哪个硬件