语音识别作为信息技术中一种人机接口的关键技术,具有重要的研究意义和广泛的应用价值。介绍了语音识别技术发展的历程,具体阐述了语音识别概念、基本原理、声学建模方法等基本知识,并对语音识别技术在各领域的应用作了简要介绍。

语言是人类相互交流最常用、最有效、最重要和最方便的通信形式,语音是语言的声学表现,与机器进行语音交流是人类一直以来的梦想。随着计算机技术的飞速发展,语音识别技术也取得突破性的成就,人与机器用自然语言进行对话的梦想逐步接近实现。语音识别技术的应用范围极为广泛,不仅涉及到日常生活的方方面面,在军事领域也发挥着极其重要的作用。它是信息社会朝着智能化和自动化发展的关键技术,使人们对信息的处理和获取更加便捷,从而提高人们的工作效率。

1 语音识别技术的发展

语音识别技术起始于20世纪50年代。这一时期,语音识别的研究主要集中在对元音、辅音、数字以及孤立词的识别。

20世纪60年代,语音识别研究取得实质性进展。线性预测分析和动态规划的提出较好地解决了语音信号模型的产生和语音信号不等长两个问题,并通过语音信号的线性预测编码,有效地解决了语音信号的特征提取。

2O世纪70年代,语音识别技术取得突破性进展。基于动态规划的动态时间规整(Dynamic Time Warping,DTW)技术基本成熟,特别提出了矢量量化(Vector Quantization,VQ)和隐马尔可夫模型(Hidden Markov Model,HMM)理论。

20世纪80年代,语音识别任务开始从孤立词、连接词的识别转向大词汇量、非特定人、连续语音的识别,识别算法也从传统的基于标准模板匹配的方法转向基于统计模型的方法。在声学模型方面,由于HMM能够很好的描述语音时变性和平稳性,开始被广泛应用于大词汇量连续语音识别(Large Vocabulary Continous Speech Recognition,LVCSR)的声学建模;在语言模型方面,以N元文法为代表的统计语言模型开始广泛应用于语音识别系统 。在这一阶段,基于HMM/VQ、HMM/高斯混合模型、HMM/人工神经网络的语音建模方法开始广泛应用于LVCSR系统,语音识别技术取得新突破。

20世纪90年代以后,伴随着语音识别系统走向实用化,语音识别在细化模型的设计、参数提取和优化、系统的自适应方面取得较大进展 。同时,人们更多地关注话者自适应、听觉模型、快速搜索识别算法以及进一步的语言模型的研究等课题 。此外,语音识别技术开始与其他领域相关技术进行结合,以提高识别的准确率,便于实现语音识别技术的产品化。

2 语音识别基础

2.1 语音识别概念

语音识别是将人类的声音信号转化为文字或者指令的过程。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支。语音识别的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领域。

根据在不同限制条件下的研究任务,产生了不同的研究领域。这些领域包括:根据对说话人说话方式的要求,可分为孤立字(词)、连接词和连续语音识别系统;根据对说话人的依赖程度,可分为特定人和非特定人语音识别系统;根据词汇量的大小,可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

2.2 语音识别基本原理

从语音识别模型的角度讲,主流的语音识别系统理论是建立在统计模式识别基础之上的。语音识别的目标是利用语音学与语言学信息,把输入的语音特征向量序列X=x1,x2,……,xT转化成词序列W=w1,w2,……,wN并输出。基于最大后验概率的语音识别模型如下式所示:

上式表明,要寻找的最可能的词序列

,应该使P(X|W)与P(W)的乘积达到最大。其中,P(X|W)是特征矢量序列X在给定W条件下的条件概率,由声学模型决定。P(W)是W独立于语音特征矢量的先验概率,由语言模型决定。由于将概率取对数不影响W的选取,第四个等式成立。logP(X|W)与logP(W)分别表示声学得分与语言得分,且分别通过声学模型与语言模型计算得到。A是平衡声学模型与语言模型的权重。从语音识别系统构成的角度讲,一个完整的语音识别系统包括特征提取、声学模型、语言模型、搜索算法等模块。语音识别系统本质上是一种多维模式识别系统,对于不同的语音识别系统,人们所采用的具体识别方法及技术不同,但其基本原理都是相同的,即将采集到的语音信号送到特征提取模块处理,将所得到的语音特征参数送入模型库模块,由声音模式匹配模块根据模型库对该段语音进行识别,最后得出识别结果 。

语音识别系统基本原理框图如图1所示,其中:预处理模块滤除原始语音信号中的次要信息及背景噪音等,包括抗混叠滤波、预加重、模/数转换、自动增益控制等处理过程,将语音信号数字化;特征提取模块对语音的声学参数进行分析后提取出语音特征参数,形成特征矢量序列。语音识别系统常用的特征参数有短时平均幅度、短时平均能量、线性预测编码系数、短时频谱等。特征提取和选择是构建系统的关键,对识别效果极为重要。

图1 语音识别基本原理框图

由于语音信号本质上属于非平稳信号,目前对语音信号的分析是建立在短时平稳性假设之上的。在对语音信号作短时平稳假设后,通过对语音信号进行加窗,实现短时语音片段上的特征提取。这些短时片段被称为帧,以帧为单位的特征序列构成语音识别系统的输人。由于梅尔倒谱系数及感知线性预测系数能够从人耳听觉特性的角度准确刻画语音信号,已经成为目前主流的语音特征。为补偿帧间独立性假设,人们在使用梅尔倒谱系数及感知线性预测系数时,通常加上它们的一阶、二阶差分,以引入信号特征的动态特征。

声学模型是语音识别系统中最为重要的部分之一。声学建模涉及建模单元选取、模型状态聚类、模型参数估计等很多方面。在目前的LVCSR系统中,普遍采用上下文相关的模型作为基本建模单元,以刻画连续语音的协同发音现象。在考虑了语境的影响后,声学模型的数量急剧增加,LVCSR系统通常采用状态聚类的方法压缩声学参数的数量,以简化模型的训练。在训练过程中,系统对若干次训练语音进行预处理,并通过特征提取得到特征矢量序列,然后由特征建模模块建立训练语音的参考模式库。

搜索是在指定的空间当中,按照一定的优化准则,寻找最优词序列的过程。搜索的本质是问题求解,广泛应用于语音识别、机器翻译等人工智能和模式识别的各个领域。它通过利用已掌握的知识(声学知识、语音学知识、词典知识、语言模型知识等),在状态(从高层至底层依次为词、声学模型、HMM状态)空间中找到最优的状态序列。最终的词序列是对输入的语音信号在一定准则下的一个最优描述。在识别阶段,将输入语音的特征矢量参数同训练得到的参考模板库中的模式进行相似性度量比较,将相似度最高的模式所属的类别作为识别中间候选结果输出。为了提高识别的正确率,在后处理模块中对上述得到的候选识别结果继续处理,包括通过Lattice重打分融合更高元的语言模型、通过置信度度量得到识别结果的可靠程度等。最终通过增加约束,得到更可靠的识别结果。

2.3 声学建模方法

常用的声学建模方法包含以下三种:基于模式匹配的动态时间规整法(DTW);隐马尔可夫模型法(HMM);基于人工神经网络识别法(ANN)等。

DTW 是较早的一种模式匹配的方法。它基于动态规划的思想,解决孤立词语音识别中的语音信号特征参数序列比较时长度不一的模板匹配问题 在实际应用中,DTW通过计算已预处理和分帧的语音信号与参考模板之间的相似度,再按照某种距离测度计算出模板间的相似度并选择最佳路径。

HMM是对语音信号的时间序列结构所建立的统计模型,是在马尔可夫链的基础上发展起来的,它是一种基于参数模型的统计识别方法。HMM可模仿人的言语过程,可视作一个双重随机过程:一个是用具有有限状态数的马尔可夫链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与马尔可夫链的每一个状态相关联的观测序列的随机过程。

ANN以数学模型模拟神经元活动,将人工神经网络中大量神经元并行分布运算的原理、高效的学习算法以及对人的认知系统的模仿能力充分运用到语音识别领域,并结合神经网络和隐含马尔可夫模型的识别算法,克服了ANN在描述语音信号时间动态特性方面的缺点,进一步提高了语音识别的鲁棒性和准确率。其中成功的方法就是在混合模型中用ANN替代高斯混合模型估计音素或状态的后验概率。2011年,微软以深度神经网络替代多层感知机形成的混合模型系统大大提高了语音识别的准确率。

3 语音识别的应用

语音识别技术有着非常广泛的应用领域和市场前景。在语音输入控制系统中,它使得人们可以甩掉键盘,通过识别语音中的要求、请求、命令或询问来作出正确的响应,这样既可以克服人工键盘输入速度慢,极易出差错的缺点,又有利于缩短系统的反应时间,使人机交流变得简便易行,比如用于声控语音拨号系统、声控智能玩具、智能家电等领域。在智能对话查询系统中,人们通过语音命令,可以方便地从远端的数据库系统中查询与提取有关信息,享受自然、友好的数据库检索服务,例如信息网络查询、医疗服务、银行服务等。语音识别技术还可以应用于自动口语翻译,即通过将口语识别技术、机器翻译技术、语音合成技术等相结合,可将一种语言的语音输入翻译为另一种语言的语音输出,实现跨语言交流。

语音识别技术在军事斗争领域里也有着极为重要的应用价值和极其广阔的应用空间。一些语音识别技术就是着眼于军事活动而研发,并在军事领域首先应用、首获成效的,军事应用对语音识别系统的识别精度、响应时间、恶劣环境下的顽健性都提出了更高的要求。目前,语音识别技术已在军事指挥和控制自动化方面得以应用。比如,将语音识别技术应用于航空飞行控制,可快速提高作战效率和减轻飞行员的工作负担,飞行员利用语音输人来代替传统的手动操作和控制各种开关和设备,以及重新改编或排列显示器上的显示信息等,可使飞行员把时间和精力集中于对攻击目标的判断和完成其他操作上来,以便更快获得信息来发挥战术优势。

4 结语

语音识别的研究工作对于信息化社会的发展,人们生活水平的提高等方面有着深远的意义。随着计算机信息技术的不断发展,语音识别技术将取得更多重大突破,语音识别系统的研究将会更加深入,有着更加广阔的发展空间。

简要介绍语音识别技术在各领域的应用相关推荐

  1. 语音识别技术原理是什么 讯飞语音识别技术特点介绍【详解】

    语音识别技术原理简介 自动语音识别技术(Auto Speech Recognize,简称ASR)所要解决的问题是让计算机能够"听懂"人类的语音,将语音中包含的文字信息"提 ...

  2. 语音识别技术在汽车上的应用

    苹果和谷歌这两大国际IT巨头的战略表明,在智能手机上广泛应用的语音识别技术很快会在汽车上普及.本文以宝马.本田和福特等几个典型汽车厂商的案例介绍语音识别在汽车上的应用,并展望未来发展趋势. 苹果公司i ...

  3. 纳米技术在计算机领域应用,纳米技术在计算机中的应用(精选).doc

    文档介绍: 纳米技术在计算机中的应用 ***** (20**级*****班学号:******) 摘要:对纳米技术在计算机中的应用做了简要的论述,并对未来发展方向做了一定程度上的瞻望. 关键词:纳米技术 ...

  4. 马志强:语音识别技术研究进展和应用落地分享丨RTC Dev Meetup

    本文内容源自「RTC Dev Meetup 丨语音处理在实时互动领域的技术实践和应用]的演讲分享,分享讲师为寰语科技语音识别研究主管马志强. 01 语音识别技术现状 1.语音成为万物互联时代人机交互关 ...

  5. 人工智能哪些技术在教育领域中得到了应用?

    随着人工智能的高速发展,人工智能技术在很多领域中,都得到了广泛的使用.教育领域是人工智能所涉及到的主要领域.那么人工智能哪些技术在教育领域中得到了应用? 人工智能哪些技术在教育领域中得到了应用? 知识 ...

  6. 计算机视觉及模式识别技术在农业领域的应用

    计算机视觉及模式识别技术在农业领域的应用 高 华.周 林 (山东农业大学信息技术与工程学院 山东 泰安 201018) 摘要:计算机视觉技术在农业各个领域的应用研究得到了广泛开展,并随着相关技术的不断 ...

  7. 语音识别技术:如何开启语音交互的新时代?

    深入篇:漫游语音识别技术-带你走进语音识别技术的世界 语音识别技术作为人工智能领域的一项重要技术,近年来得到了广泛的关注和应用.在日常生活中,语音识别技术已经被广泛应用于智能手机.智能音箱.语音助手等 ...

  8. 语音识别技术是什么_语音识别技术应用领域介绍

    语音识别技术,也被称为自动语音识别AutomaTIc Speech RecogniTIon,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键.二进制编码或者字符序列.与说话 ...

  9. 语音识别技术应用领域介绍

    随着语音识别技术的不断发展和进步,也应用到越来越多的产品跟领域中.它们都少不了语音识别芯片.语音识别模块的支持.那么市面上有哪些语音识别模块好用呢?哪些领域又运用到语音识别技术呢?语音识别模块哪个好用 ...

最新文章

  1. Gradient descent --梯度下降(to be continued)
  2. Java-二分查找算法
  3. Pandas实用技能,将列(column)排序的几种方法
  4. 江陵中学2021高考成绩查询,2021高考序幕拉开 荆州38080名考生赴考
  5. thinkcmf ajax,thinkcmfx 中如何用jquery ajax提交数据,自己尝试去做之后,还是没法提交,求助!...
  6. 1282:最大子矩阵《信息学奥赛一本通》
  7. ASP.NET初级传智播客.net第十季asp.net基础 文字总结(未完)
  8. Navicat for MySQL 连接 Mysql 8.0.16 时报错1251- Client does not support.....的解决办法
  9. JavaSE JDK搭建
  10. c语言cyc函数,cyc指标源码
  11. 快点来学吧!9次Android面试经验总结,已开源
  12. mysql单表瓶颈_mysql单表性能瓶颈_优化系列 | 实例解析MySQL性能瓶颈排查定位-云栖社区-阿里云...
  13. ps、firewords在win78中无法直接拖入的问题解决方法
  14. 联想电脑谷歌浏览器f12无法唤起开发者工具
  15. git版本回退(git reset、git revert、git stash)
  16. [导入]推荐一个好网站
  17. 人工智能在游戏领域的应用
  18. 在电脑上安装或更新Kindle阅读软件
  19. 程序员后端开发苹果电脑常用快捷键(实用版)
  20. ZOJ 1204 Additive equations

热门文章

  1. 在低谷期应该做点什么
  2. Struts2-初学小结
  3. NFC对于大家真的实用吗
  4. 全球5G发展洞察2022(中)
  5. 电力电子技术——电力电子器件概述
  6. Android判断网络状态是否断开
  7. 普通人如何投资区块链才不亏?
  8. 知名插画师走尺,带你走进“薪”世界
  9. 浙大计算机学院郭庆,团队介绍
  10. 京东2020校招笔试题-算法工程师