语音识别HCLG解码

1. 相关部分包含的主要任务

1.1 WFST Key Concepts

determinization

minimization

composition

equivalent

epsilon-free

functional

on-demand algorithm

weight-pushing

epsilon removal

1.2 HMM Key Concepts

Markov Chain

Hidden Markov Model

Forward-backward algorithm

Viterbi algorithm

E-M for mixture of Gaussians

2. HCLG

L.fst: The Phonetic Dictionary FST

L maps monophone sequences to words.

The file L.fst is the Finite State Transducer form of the lexicon with phone symbols on the input and word symbols on the output.

L_disambig.fst:The Phonetic Dictionary with Disambiguation Symbols FST

A lexicon with disambiguation symbols

G.fst:The Language Model FST

FSA grammar (can be built from an n-gram grammar).

C.fst:The Context FST

C maps triphone sequences to monophones.

Expands the phones into context-dependent phones.

H.fst:The HMM FST

H maps multiple HMM states (a.k.a. transition-ids in Kaldi-speak) to context-dependent triphones.

Expands out the HMMs. On the right are the context-dependent phones and on the left are the pdf-ids.

HCLG.fst: final graph

总结一下：

构图过程 G -> L -> C -> H

G: 作为 acceptor (输入 symbol 与输出相同)，用于对grammar 或者 language model 进行编码

L: Lexicon, 其输出 symbol 是 words, 输入 symbol 是 phones

C: context-dependency 其输出 symbol 是 phones, 其输入 symbol 为表示context-dependency phones

如： vector ctx_window = { 12, 15, 21 };

含义：id = 15 的 phone 为中心 phone, left phone id = 12, right phone id = 21

H: 包括HMM definitions,其输出 symbol 为context-dependency phones, 其输入 symbol 为transitions-ids(即对 pdf-id 和其它信息编码后的 id)

asl=="add-self-loops”

rds=="remove-disambiguation-symbols”,

and H' is H without the self-loops:

HCLG = asl(min(rds(det(H' o min(det(C o min(det(L o G))))))))

语音识别HCLG解码相关推荐

语音识别维特比解码_3-GMM-HMMs语音识别系统-解码篇
本文主要描述基于GMM-HMMs传统语音识别的解码过程. Outline: Viterbi decoding Cross-word decoding Beam search 1.Viterbi dec ...
语音识别—Viterbi解码
Viterbi解码理论与实战笔者最近着手研究 ...
kaldi 源码分析(七) - HCLG 分析
Kaldi 语音识别主流程: 语音识别过程解码网络使用 HCLG.fst 的方式, 它由 4 个 fst 经过一系列算法组合而成.分别是 H.fst.C.fst.L.fst 和 G.fst 4 个 ...
带你认识传统语音识别技术
摘要:隐马尔可夫链HMM模型自从1980年代被用于语音识别以来,一直都是实际语音识别系统的主流方法. 本文分享自华为云社区<新手语音入门(四): 传统语音识别技术简介 | 隐马尔可夫链 | 声学 ...
语音识别中的WFST和语言模型
导读在语音识别系统中,有限加权状态转换机(Weighted Finite State Transducers, WFST)扮演着重要角色.本文主要介绍发音词典.语言模型和WFST的原理,以及在实践过 ...
语音识别——解码器（WFST、Lattice）
解码为给定声学观测序列的前提下,找到最有可能出现的词序列,由贝叶斯得: 解码的目的:从解码空间中找到一条或多条从初始状态到终止状态的最优路径. 解码器是语音识别系统中的重要一环,主要解码方式有以下几种 ...
语音识别框架最新进展——深度全序列卷积神经网络登场
干货|语音识别框架最新进展--深度全序列卷积神经网络登场 2016-08-05 17:03 转载陈杨英杰 1条评论导读:目前最好的语音识别系统采用双向长短时记忆网络(LSTM,LongShort ...
【机器听觉】初探语音识别技术
感谢原文博主,转自:https://blog.csdn.net/ArrowYL/article/details/79979470 语音识别根据实际需求的不同也会有所不同.目前主要追求大词汇量.连续.非 ...
INTERSPEECH 2017系列 | 语音识别之语言模型技术
编者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,众多的高校研究机构和著名的公司纷纷在本次会议上介绍了各自最新的技术.系统和相关产品,而阿里巴巴集团作为钻石赞助商也派出 ...

语音识别HCLG解码

语音识别HCLG解码相关推荐

最新文章

热门文章