语音识别HCLG解码
1. 相关部分包含的主要任务
1.1 WFST Key Concepts
determinization
minimization
composition
equivalent
epsilon-free
functional
on-demand algorithm
weight-pushing
epsilon removal
1.2 HMM Key Concepts
Markov Chain
Hidden Markov Model
Forward-backward algorithm
Viterbi algorithm
E-M for mixture of Gaussians
2. HCLG
L.fst: The Phonetic Dictionary FST
L maps monophone sequences to words.
The file L.fst is the Finite State Transducer form of the lexicon with phone symbols on the input and word symbols on the output.
L_disambig.fst:The Phonetic Dictionary with Disambiguation Symbols FST
A lexicon with disambiguation symbols
G.fst:The Language Model FST
FSA grammar (can be built from an n-gram grammar).
C.fst:The Context FST
C maps triphone sequences to monophones.
Expands the phones into context-dependent phones.
H.fst:The HMM FST
H maps multiple HMM states (a.k.a. transition-ids in Kaldi-speak) to context-dependent triphones.
Expands out the HMMs. On the right are the context-dependent phones and on the left are the pdf-ids.
HCLG.fst: final graph
总结一下:
构图过程 G -> L -> C -> H
G: 作为 acceptor (输入 symbol 与输出相同),用于对grammar 或者 language model 进行编码
L: Lexicon, 其输出 symbol 是 words, 输入 symbol 是 phones
C: context-dependency 其输出 symbol 是 phones, 其输入 symbol 为表示context-dependency phones
如: vector ctx_window = { 12, 15, 21 };
含义:id = 15 的 phone 为 中心 phone, left phone id = 12, right phone id = 21
H: 包括HMM definitions,其输出 symbol 为context-dependency phones, 其输入 symbol 为transitions-ids(即 对 pdf-id 和 其它信息编码后的 id)
asl=="add-self-loops”
rds=="remove-disambiguation-symbols”,
and H' is H without the self-loops:
HCLG = asl(min(rds(det(H' o min(det(C o min(det(L o G))))))))
语音识别HCLG解码相关推荐
- 语音识别维特比解码_3-GMM-HMMs语音识别系统-解码篇
本文主要描述基于GMM-HMMs传统语音识别的解码过程. Outline: Viterbi decoding Cross-word decoding Beam search 1.Viterbi dec ...
- 语音识别—Viterbi解码
Viterbi解码理论与实战 笔者最近着手研究 ...
- kaldi 源码分析(七) - HCLG 分析
Kaldi 语音识别主流程: 语音识别过程 解码网络使用 HCLG.fst 的方式, 它由 4 个 fst 经过一系列算法组合而成.分别是 H.fst.C.fst.L.fst 和 G.fst 4 个 ...
- 带你认识传统语音识别技术
摘要:隐马尔可夫链HMM模型自从1980年代被用于语音识别以来,一直都是实际语音识别系统的主流方法. 本文分享自华为云社区<新手语音入门(四): 传统语音识别技术简介 | 隐马尔可夫链 | 声学 ...
- 语音识别中的WFST和语言模型
导读 在语音识别系统中,有限加权状态转换机(Weighted Finite State Transducers, WFST)扮演着重要角色.本文主要介绍发音词典.语言模型和WFST的原理,以及在实践过 ...
- 语音识别——解码器(WFST、Lattice)
解码为给定声学观测序列的前提下,找到最有可能出现的词序列,由贝叶斯得: 解码的目的:从解码空间中找到一条或多条从初始状态到终止状态的最优路径. 解码器是语音识别系统中的重要一环,主要解码方式有以下几种 ...
- 语音识别框架最新进展——深度全序列卷积神经网络登场
干货|语音识别框架最新进展--深度全序列卷积神经网络登场 2016-08-05 17:03 转载 陈杨英杰 1条评论 导读:目前最好的语音识别系统采用双向长短时记忆网络(LSTM,LongShort ...
- 【机器听觉】初探语音识别技术
感谢原文博主,转自:https://blog.csdn.net/ArrowYL/article/details/79979470 语音识别根据实际需求的不同也会有所不同.目前主要追求大词汇量.连续.非 ...
- INTERSPEECH 2017系列 | 语音识别之语言模型技术
编者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术.系统和相关产品,而阿里巴巴集团作为钻石赞助商也派出 ...
最新文章
- 深入研究敏捷的成功因素
- VC模仿超炫QQ界面的实现
- ggtree实现系统发育树可视化
- Mac 终端便利工具: 管理工具-Homebrew 和提示工具oh my zsh
- mysql dblink 链接mysql库
- Ubuntu12.04使用技巧
- 廖雪峰Java1-3流程控制-9break、continue
- webpack打包vue文件报错,但是cnpm run dev正常,最后我只想说:是我太笨,还是webpack4.4版本太坑...
- postgresql 创建用户_国内源安装postgresql
- html 无效源,IE bug无效源HTML5音频 - 解决方法
- [vue] 你有使用过vue开发多语言项目吗?说说你的做法?
- 自建服务器打印机,关于Windows 2016 Server创建打印机服务器后对打印机设置权限的问题...
- sql between 效率高吗_整个SQL语句的执行效率都靠它了...
- LayaAir引擎开发HTML5最简单教程(面向JS开发者)
- C++标准库之stack
- java多线程(简单介绍)
- 罗技G29方向盘Mac驱动
- 离散数学 --- 特殊图 --- 欧拉图,哈密顿图
- CodeSmith注册错误的解决方法
- 个人陈述 计算机专业,研究生个人陈述范例,计算机专业