语音识别common1(音素,三音素)
语音是一个连续的音频流,它是由大部分的稳定态和部分动态改变的状态混合构成。
一个单词的发声(波形)实际上取决于很多因素,而不仅仅是音素,例如音素上下文、说话者、语音风格等;
协同发音(指的是一个音受前后相邻音的影响而发生变化,从发声机理上看就是人的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的频谱与其他条件下的频谱产生差异。)的存在使得音素的感知与标准不一样,所以我们需要根据上下文来辨别音素。将一个音素划分为几个亚音素单元。如:数字“three”,音素的第一部分与在它之前的音素存在关联,中间部分是稳定的部分,而最后一部分则与下一个音素存在关联,这就是为什么在用HMM模型做语音识别时,选择音素的三状态HMM模型。(上下文相关建模方法在建模时考虑了这一影响,从而使模型能更准确地描述语音,只考虑前一音的影响的称为Bi-Phone,考虑前一音和后一音的影响的称为 Tri-Phone。)
有时候,音素会被放在上下文中考虑,这样就形成了三元音素或者多元音素。但它与亚音素不同,他们在波形中匹配时长度还是和单一音素一样。只是名字上的不同而已,所以我们更倾向于将这样的多元音素称为senone。一个senone的上下文依赖比单纯的左右上下文复杂得多,它是一个可以被决策树或者其他方式来定义的复杂函数。(英语的上下文相关建模通常以音素为基元,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。决策树用来实现高效的triphone对senone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定其HMM状态应使用哪个senone。分类回归树CART模型用以进行词到音素的发音标注。)
特征:
我们用帧frames去分割语音波形,每帧大概25(原文10ms,大部分资料都是以25ms为基准)ms,然后每帧提取可以代表该帧语音的39个数字,这39个数字也就是该帧语音的特征,用特征向量来表示。而如何提取特征向量是当下热门的研究课题,但这些提取方法都是由频谱衍生出来的。
声学模型acoustic model:
一个声学模型包含每个senone的声学属性,其包括不依赖于上下文的属性(每个音素phone最大可能的特征向量???暂时不明白,后边再回来补充)和依赖于上下文的属性(根据上下文构建的senone)。
语音学字典phonetic dictionary:
字典包含了从单词words到音素phones之间的映射。
字典并不是描述单词words到音素phones之间的映射的唯一方法。可以通过运用机器学习算法去学习得到一些复杂的函数去完成映射功能。
网格Lattice是一个代表识别的不同结果的有向图。一般来说,很难去获得一个最好的语音匹配结果。所以Lattices就是一个比较好的格式去存放语音识别的中间结果。
本文主要对 http://blog.csdn.net/zouxy09/article/details/7941055 进行了简单的信息压缩处理,如果感觉不够连贯可以参考原文。
语音识别common1(音素,三音素)相关推荐
- 传统语音识别介绍【五】—— 单音素和三音素
一.音素(单音素) 音素(phone),是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素.音素分为元音与辅音两大类.如汉语音节 ā(啊)只有一个音素,ài( ...
- 《kaldi语音识别实战》阅读笔记:三音素模型训练—train_deltas.sh解析
一.使用说明 1.1 描述 训练三音素模型.与单音素模型训练相比,因为建模单元变为三音素,因此多了决策树状态绑定. steps/deltas.sh Usage: steps/train_deltas. ...
- 语音识别补充(一)(音素,三音素)
语音是一个连续的音频流,它是由大部分的稳定态和部分动态改变的状态混合构成.一个单词的发声(波形)实际上取决于很多因素,而不仅仅是音素,例如音素上下文.说话者.语音风格等: 协同发音:(指的是一个音受前 ...
- [语音识别] 单音素、三音素、决策树
了解单音素.三音素.决策树主要从几个问题出发: (1)什么是音素? 以前的音标现在也可以叫音素,而且现在正广泛的把音标叫音素. 每一种语言中的音素都是不一样的,即使是同种语言中,方言的音素也是不一样的 ...
- kaldi 学习笔记-三音素训练1(Decision Tree)
开始介绍kaldi三音素训练大致流程.本文主要介绍决策树(Decision Tree)部分. 1. acc-tree-stats Usage: acc-tree-stats [options] < ...
- kaldi学习笔记-三音素训练2
本文介绍三音素训练部分. 上篇文章已经提到了如何对三音素聚类,构建决策树,接下来进行对三音素中各个GMM进行训练.三音素训练部分和单音素大致相同,都是运用EM算法进行参数的更新,具体部分可以看单音素训 ...
- 从0开始学习kaldi决策树绑定+三音素
从0开始的Kaldi决策树绑定+三音素 这个博客主要介绍了三音素GMM的原理以及Kaldi对其的实现,由于没有分篇幅所以全篇较长 三音素GMM 在单音素GMM中,我们对每一个音素建立一个HMM模型,并 ...
- Kaldi三音素GMM学习笔记
建议在csdn资源页中免费下载该学习笔记的PDF版进行阅读:)点击进入下载页面 Kaldi三音素GMM学习笔记 三音素GMM与单音素GMM的主要差别在于决策树状态绑定,与GMM参数更新相关的原理.程序 ...
- 从单音素到三音素模型
参考文章: <Tree-Based State Tying for High Accuracy Acoustic Modelling Basics Triphone Tying Decision ...
最新文章
- Spring Cloud Alibaba【Nacos 服务治理】 高可用保证:Nacos 如何有效构建注册中心集群
- 五、(H3C)基于802.1x+AD+DHCP+NPS动态下发vlan 华三交换机配置
- 面试:Java 泛型背后的原理是什么?
- linux ls 命令排序,如何在Linux中使用ls命令按大小对所有文件进行排序
- 数据库服务器操作系统查询命令行,MySQL命令行客户端命令
- Python - re - 正则表达式 - 怎么用
- 房间混响时间的计算与测量
- 前后端分离的跨域请求问题解决
- 什么叫做石英表_什么是石英表?石英表与机械表的区别
- Python——基础语法
- 所谓“生活的艺术“, 就是悠闲二字
- python openpyxl怎么将数组写入excel_Python-使用openpyxl模块写入Excel文件
- 综合布线系统计算机辅助设计nVisual
- 苹果自带相册打马赛克_剪映app怎么给视频局部打马赛克
- java代码获取银行实时汇率
- Ipopt with Metis编译指南
- 03弱引用内存泄露和hash冲突-ThreadLocal详解-并发编程(Java)
- 网管到底要学什么(一)
- 浅析VS游戏竞技平台识别作弊软件的手段
- “Windows 正在配置 Auto CAD 2007,请稍后...”的解决办法