近年来,随着深度学习的兴起,使用了接近30年的语音识别声学模型HMM(隐马尔科夫模型)逐渐被DNN(泛指深度神经网络)所替代,模型精度也有了突飞猛进的变化。

整体来看声学建模技术从建模单元、模型结构、建模流程等三个维度都有了比较明显的变化,如图5所示:

其中,深度神经网络超强的特征学习能力大大简化了特征抽取的过程,降低了建模对于专家经验的依赖,由此带来的影响是:

(1)建模流程逐步从之前复杂多步的流程转向了简单的端到端的建模流程

(2)建模单元逐步从状态、三音素模型音节、字等较大单元演进。

(3)模型结构从经典的GMM-HMMDNN+CTC转变,演进的中间态是DNN-HMM的混合模型结构。

一、声学模型演变流程 

1、GMM-HMM(高斯混合模型-隐马尔科夫模型,传统方法)

HMM最早创立于20世纪70年代。80年代得到了传播和发展,成为信号处理的一个重要方向,现已成功地用于语音识别,行为识别,文字识别以及故障诊断等领域。

详细来看,经典的HMM建模框架如下所示:

其中,输出概率使用高斯混合模型GMM建模,如下:

2、 DNN-HMM(深度神经网络-隐马尔科夫模型,用DNN代替GMM)

2012年,微软邓力和俞栋老师将前馈神经网络FFDNN (Feed Forward Deep Neural Network) 引入到声学模型建模中,将FFDNN的输出层概率用于替换之前GMM-HMM中使用GMM计算的输出概率,引领了DNN-HMM混合系统的风潮,很多研究者使用了FFDNN、CNN、RNN、LSTM等多种网络结构对输出概率进行建模,并取得了很好的效果,如图7所示。

DNN-HMM建模框架中,输入特征使用了在当前帧左右拼帧的方式来实现模型对时序信号长时相关性的建模,模型输出则保持了GMM-HMM经常使用的trihone(三音素)共享状态,中文大词汇量连续语音识别中状态数一般设置在1万左右。

3、RNN及LSTM的引入(用LSTM代替HMM)

语音的协同发音现象说明声学模型需要考虑到语音帧之间的长时相关性,尽管上文中DNN-HMM通过拼帧的方式对上下文信息进行了建模,但是毕竟拼接的帧数有限,建模能力不强,因此引入了RNN(循环神经网络)增强了长时建模的能力,RNN隐层的输入除了接收前一个隐层的输出之外,还接收前一时刻的隐层输出作为当前输入,通过RNN的隐层的循环反馈,保留了长时的历史信息,大大增强了模型的记忆能力,语音的时序特性通过RNN也得到了很好的描述。但是RNN的简单结构在模型训练进行BPTT (Backpropagation Through Time) 时很容易引起梯度消失/爆炸等问题,因此在RNN的基础上引入了LSTM(长短时记忆模型),LSTM是一种特殊的RNN,通过Cell以及三个门控神经元的特殊结构对长时信息进行建模,解决了RNN出现的梯度问题,实践也证明了LSTM的长时建模能力优于普通RNN。

4、CTC的引入(DNN+CTC)

上述的建模技术在模型训练时需要满足一个条件,就是训练数据中每一帧都要预先确定对应的标注,即对应DNN输出状态的序号,训练特征序列和标注特征序列必须是等长的,而为了得到标注,需要使用已有模型对训练数据序列和标注序列进行强制对齐。

【问题一】基于大数据训练时标注的准备比较耗费时间;

【问题二】对齐使用的模型精度往往存在偏差,训练中使用的标注会存在错误;

因此引入了CTC (Connectionist Temporal Classification|连接主义时间分类) 准则,解决了标注序列与特征序列不等长的问题,通过向后向算法自动学习语音特征中的模型边界,这种准则与用于时序建模的神经网络(如LSTM)的结合可以直接用于端到端的模型建模,颠覆了语音识别使用接近30年之久的HMM框架。

CTC准则引入了blank类别(空类别),用于吸收发音单元内部的混淆性,更加突出模型与其他模型之间的差异性,因此CTC具有非常明显的尖峰效果,图13是使用triphone-lstm-ctc模型对内容为“搜狗语音”的语音进行识别后的输出概率分布,可以看到大部分区域都被blank吸收,识别出的triphone对应着明显尖峰。

可以预期,基于CTC或者引用CTC概念(如LFMMI)的端到端识别技术将逐渐成为主流,HMM框架将逐渐被替代。

传统语音识别介绍【三】—— 声学模型相关推荐

  1. 传统语音识别介绍【五】—— 单音素和三音素

    一.音素(单音素) 音素(phone),是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素.音素分为元音与辅音两大类.如汉语音节 ā(啊)只有一个音素,ài( ...

  2. 传统语音识别介绍【四】—— 语言模型

    前言 语言模型是针对某种语言建立的概率模型,目的是建立一个能够描述给定词序列在语言中的出现的概率的分布. 给定下边两句话: 定义机器人时代的大脑引擎,让生活更便捷.更有趣.更安全. 代时人机器定义引擎 ...

  3. 传统语音识别介绍【一】—— 前端处理

    前段时间做过语音识别相关的内容,先把小组整理的文档发布出来,供大家参考. 一.语音预处理 在对语音信号进行分析和处理之前,必须对其进行预加重.分帧.加窗等预处理操作.这些操作的目的是尽可能减小因为人类 ...

  4. 自动语音识别(ASR):研究综述【传统语音识别:基于贝叶斯公式,对联合概率P(X|W)·P(W)进行建模(语音识别结果=声学模型×语言模型)】【端到端语音识别:直接对条件概率 P(W|X)进行建模 】

    一.传统语音识别基本原理(基于贝叶斯公式) 设一段语音信号经过特征提取得到特征向量序列为 X=[x1, x2, -, xN], 其中 xi 是一帧的特征向量, i=1, 2, -,N, N 为特征向量 ...

  5. 带你认识传统语音识别技术

    摘要:隐马尔可夫链HMM模型自从1980年代被用于语音识别以来,一直都是实际语音识别系统的主流方法. 本文分享自华为云社区<新手语音入门(四): 传统语音识别技术简介 | 隐马尔可夫链 | 声学 ...

  6. 语音识别技术之声学模型

    本公众号已经改版,推出了线上线下课程,并且推出免费2个月广告服务业界优质产品. 编者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,众多的高校研究机构和著名的公司纷纷在本 ...

  7. 中国传统节日介绍——中秋节

    预祝朋友们合家团圆!事事如意!中秋快乐! 中国传统节日介绍--中秋节 来源于:网络 每年农历八月十五日,是我国传统的中秋佳节.这时是一年秋季的中期,所以被称为中秋.这也是我国仅次于春节的第二大传统节日 ...

  8. 如何人物抠图?介绍三种人物抠图的方法

    如何将照片里的人物从照片里抠出来呢?在广告制作. 社交媒体.商品展示.影视制作等场景下,需要将产品图片与人物图片进行组合,这时就需要将人物从原始图片中抠出来,然后放置到广告背景中.今天来介绍三种方法, ...

  9. 语音识别、传统语音识别、带权有限转态转换器、深度语音识别、时序分类、CTC解码

    语音识别.传统语音识别.带权有限转态转换器.深度语音识别.时序分类.CTC解码 目录

最新文章

  1. 0xc0000225无法进系统_冷却塔进风格栅结冰主要原因及对策
  2. IOS开发之自定义Button(集成三种回调模式)
  3. thinkpython2e在线阅读_LaTeX排版的《Think Python 2e》最新版中文翻译
  4. 副主任护师主要英语和计算机吗,有没有晋升副主任护师的
  5. kubectl apply -f_广州车展捷豹路虎参展阵容 全新F-PACE 路虎卫士90
  6. JDK源码解析之 Java.lang.Byte
  7. windows下使用net-snmp实现agent扩展(一)
  8. 网络流24题——魔术球问题(有向无环图最小路径覆盖)
  9. Storm案例:统计单词个数
  10. Vue简介及HelloWord编写
  11. linux笔记_防止ddos攻击
  12. 如果您能天天读上一遍,就能和老外对话了!
  13. BC26 电信IOT平台 MCU软件升级
  14. 超好用的网站克隆工具,就是玩
  15. Java基于ssm开发的古董竞标拍卖系统也可以改成拍卖品网站
  16. Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video Super-Resolution
  17. spark算子详细介绍(v、k-v、vv类型)
  18. ReSharper配置及用法(转)
  19. 机器学习集成学习与模型融合
  20. 笨方法学python40-42

热门文章

  1. 响铃:蜗牛读书“文”、网易云信“武”:游戏之外网易的AB面
  2. 小程序管理还能这样做,让小程序管理更高效
  3. 【48期分享】4款产品发布PPT模板免费下载
  4. 解决Win10中ALT+Tab键Edge出现多个页面的问题
  5. 《迁移学习导论》--在读
  6. (28)Linux命令【chown命令】
  7. PROTEUS最新版本下载CSDN_剪映4k版本下载-剪映4k版本60帧画质最新版v4.4.4
  8. python简单可视化聊天界面_Python可视化界面
  9. 【SpringBoot】27、SpringBoot中整合Ehcache实现热点数据缓存
  10. UE风格化Day8-SD瓦片材质/木纹材质/SP技巧