作者:Janie

Chang

2011年国际语音通讯协会第12次年会(Interspeech 2011)于8月28日至31日在意大利佛罗伦萨举行。来自微软研究院的研究人员在会上发表了他们的研究成果,这些成果极大地提升了非特定人实时语音识别系统的潜力。

来自微软雷德蒙研究院的研究员俞栋博士以及来自微软亚洲研究院的高级研究员兼研究经理Frank

Seide是这项研究的带头人,两支团队精诚合作,在基于人工神经网络的大词汇量语音识别研究中取得了重大突破。

语音识别研究的终极目标

语音-文本转换(voice-to-text)软件和自动电话服务等应用背后的关键技术是语音识别。在这些应用中语音识别准确率是至关重要的,而为了做到这一点,语音-文本转换软件通常要求用户在安装过程中对软件进行“训练”,软件本身也要随着时间的推移慢慢适应用户的语音模式。需要与多个说话者互动的自动语音服务则不允许存在使用者对软件进行训练的环节,因为它们必须能够在第一时间为任何用户服务。为了解决识别准确率较低的问题,这些系统要么只能处理很小的词汇量,要么严格限制用户可以使用的字句或模式。

自动语音识别的最终目标是提供即买即用、可以自动快速适应任何说话者的语音识别服务,这个系统不需要用户训练就可以针对所有用户和各种条件,良好地发挥功用。

“这个目标在移动互联网时代显得尤为重要,”俞栋博士表示,“因为语音是智能手机和其他移动设备必不可缺的接口模式。虽然个人移动设备是采集和学习用户语音的理想设备,但用户只有在初始体验,也就是在针对该用户的模型建立之前的体验非常良好时,才会继续使用语音功能。”

非特定人语音识别技术对于没有机会或办法适应用户的语音识别系统也非常重要,例如在呼叫中心,来电者身份是未知的,而且通话时间只有几秒钟;又例如用户可能会因为担心隐私问题而不愿意在提供“语音-语音(speech-to-speech)”翻译的网络服务中留存语音样本。

重燃对神经网络的兴趣

自20世纪50年代以来,人工神经网络(ANNs),也就是人类大脑低级回路的数学模型,就已经为人们所熟知。利用人工神经网络改善语音识别性能的想法早在20世纪80年代就已出现,而且一项名为人工神经网络-隐马尔可夫混合模型(ANN

- HMM)的技术显示了其在大词汇量语音识别中的潜力。那么,为什么商用语音识别系统反而不采纳人工神经网络技术呢?

“这一切都归结于性能,” 俞栋博士解释道,“在针对传统的上下文相关的高斯混合模型-隐马尔可夫模型(CD-GMM-HMMs)区分性训练算法发明后,高斯混合模型-隐马尔可夫模型的精度得到了提升,并在大词汇量语音识别方面的表现超过了人工神经网络模型。”

俞栋博士以及微软雷德蒙研究院语音组的成员们对人工神经网络模型重新燃起兴趣,是因为最近在训练更加复杂的深层神经网络(DNNs)方面取得了新的进展,这些进展使得基于人工神经网络的自动语音识别系统具有超越现有技术水平的潜力。2010年6月,多伦多大学实习生George

Dahl加入研究团队,研究人员开始探讨如何利用深层神经网络改善大词汇量语音识别。

“George带来了对深层神经网络工作原理的深刻见解,”俞栋博士说,“而且他在深层神经网络训练方面有着丰富的经验,而深层神经网络正是我们所要创建系统的关键组成部分之一。”

语音识别系统在本质上就是对语音组成单元进行建模。英语中表达发音方式的大约30个音素就是这样的组成单元。最先进的语音识别系统使用更短的称为senone的单元,总数达到几千或上万个。

之前的基于深层神经网络的语音识别系统就是对音素进行建模。俞栋博士的研究实现了一次飞跃,当他与语音组首席研究员邓力博士和首席研究员兼研究经理Alex

Acero博士讨论之后,提出使用深层神经网络对数以千计的senones(一种比音素小很多的建模单元)直接建模。由此产生的论文《基于预训练的上下文相关深层神经网络的大词汇语音识别》(George Dahl、俞栋、邓力和Alex

Acero合著)描述了第一个成功应用于大词汇量语音识别系统的上下文相关的深层神经网络-隐马尔可夫混合模型(CD-DNN-HMM)。

“也有人尝试过上下文相关的人工神经网络模型,”俞栋博士指出,“但他们使用的架构效果不佳。在我们发现所用的新方法使语音搜索的准确率大大提高地那一刻,我们非常激动。我们意识到,通过使用深层神经网络对senones直接建模,我们可以比最先进的常规CD-GMM-HMM大词汇量语音识别系统相对误差率减少16%以上。考虑到语音识别作为一个活跃的研究领域已经存在了50多年,这样的进展确实具有非常重要的意义。”

为了加速实验,研究小组还使用了通用图形处理器来进行语音模型训练和解码。神经网络的计算在结构上类似于电脑游戏中使用的3-D图形,而现代的图形卡可以同时处理近500个这样的计算。在神经网络中运用这种计算能力大大提升了建模可行性。

2010年10月,俞栋博士在微软亚洲研究院的一次内部研讨中介绍了这篇论文,他提到在此基础上开发性能更强的大词汇量语音识别声学模型面临以下挑战:实现并行训练和使训练扩展到更大的训练集。Seide被这项研究深深触动,他随即加入该项目,并为团队带来了大词汇量语音识别、系统开发和基准测试等方面的经验。

神经网络基准测试

“我们通常认为数百上千的senones数量太大而无法用神经网络准确地建模和训练,”Seide说,“然而,俞栋和他的同事们证明,这样做不仅是可行的,而且还能显著提高准确率。现在,我们要证明的是这套CD-DNN-HMM模型可以有效使用更多的训练数据。”

在新项目中,CD-DNN-HMM模型被用于语音-文本转换,并在研究界公认的极具挑战性的电话语音识别标准数据集Switchboard上进行评测。

首先,研究团队对深层神经网络训练工具进行了改写,以支持更大的训练数据集。然后,在微软亚洲研究院软件开发工程师李刚的帮助下,他们将新的模型和工具在含有300小时语音训练数据的Switchboard标准数据集上进行评测。为了支持如此大量的数据,研究人员建立了一些巨大的神经网络模型,其中一个包含了6,600多万神经间连结,这是语音识别研究史上最大的同类模型。

随后的基准测试取得了令人惊讶的低字词错误率——18.5%,与最先进的常规系统相比,相对错误率减少了33%。

“我们开始运行Switchboard基准测试时,”Seide回忆说,“我们只期望实现类似语音搜索任务中所观察到的结果,也就是16-20%的相对改善。整个训练过程大约花费了20天的计算时间,而且每隔几个小时就产生一个稍稍改良的新模型。每隔几个小时,我都会迫不及待地测试最新模型。你无法想象,当相对改善超出预期的20%时,我们有多兴奋,而且模型仍在不断改善,最后定格在30%以上。过去,只有极少数的单项技术能在语音识别方面实现如此幅度的改善。”

由此产生的论文题为《使用上下文相关深层神经网络进行交谈语音转写》(Frank

Seide、李刚和俞栋合著),已经于8月29日发表。这项工作已经引起了科研界的高度重视,而研究团队希望通过在会议上发表这篇论文进一步启迪这条新的研究路径,并最终将基于深层神经网络的大词汇量语音识别推到一个新的高度。

离未来更近了一步

这种基于人工神经网络的非特定人语音识别新方法所实现的识别准确率比常规系统高出了三分之一以上,俞栋、Seide和他们的团队向着流畅的“语音-语音交互”这一目标又迈进了一大步。这项创新简化了大词汇量语音识别中的语音处理,能实时识别并取得较高的准确率。

“这项工作仍处于研究阶段,还会面临很多挑战,其中最严峻的挑战在于扩展到使用数万小时训练数据。我们的研究成果只是一个开始,这一领域将来还会有更多令人振奋的进展。”Seide说:“我们的目标是实现以前没法实现的新的基于语音的流畅服务。我们相信,这项研究最终将改变我们的工作和生活。想象一下吧:用语音-语音实时翻译进行自然流畅的交谈,用语音进行检索,或者用交谈式自然语言进行人机互动。”

(注:本文所有图片均来自网络)

相关阅读

___________________________________________________________________________________

欢迎关注

语音识别技术突飞猛进相关推荐

  1. 语音识别技术突飞猛进,语音识别公司都有哪些?

    近年来,语音识别技术取得了重大进展,并已开始从实验室走向人们的生活. 预计在未来10年内,语音识别技术将进入各个领域,如工业.家用电子产品.通信.汽车电子.今天小编就语音识别的公司来分析. 大致来看, ...

  2. 盘点语音识别技术在人工智能中的应用

    语音是人类最自然的交互方式.计算机发明之后,让机器能够"听懂"人类的语言,理解语言中的内在含义,并能做出正确的回答就成为了人们追求的目标.这个过程中主要涉及3种技术,即自动语音识别 ...

  3. 科学网—语音识别技术发展史

    语音识别技术发展史 与机器进行语音交流,让它听明白你在说什么.语音识别技术将人类这一曾经的梦想变成了现实.语音识别就好比"机器的听觉系统",该技术让机器通过识别和理解,把语音信号转 ...

  4. 语音识别技术的原理及研究难点

    在我们的生活中,语言是传递信息最重要的方式,它能够让人们之间互相了解.人和机器之间的交互也是相同的道理,让机器人知道人类要做什么.怎么做.交互的方式有动作.文本或语音等等,其中语音交互越来越被重视,因 ...

  5. 智能电话机器人中的语音识别技术是什么?

    最近几年,随着深度神经网络的应用,加上海量大数据的使用和云计算的普及,语音识别技术取得了突飞猛进的发展.越来越多的语音技术产品进入到人们的生活中,例如苹果的Siri.亚马逊的Alexa以及各种人工智能 ...

  6. 语音识别技术的发展及难点分析

    语音识别技术的发展 与机器进行语音交流,让它听明白你在说什么.语音识别技术将人类这一曾经的梦想变成了现实.语音识别就好比"机器的听觉系统",该技术让机器通过识别和理解,把语音信号转 ...

  7. 从不温不火到炙手可热:语音识别技术简史

    作者 | 陈孝良,冯大航,李智勇 出品 | AI科技大本营(ID: rgznai100) [导读]语音识别自半个世纪前诞生以来,一直处于不温不火的状态,直到 2009 年深度学习技术的长足发展才使得语 ...

  8. 通过语音发展史及语音识别产品对比,来看看语音识别技术都有哪些难点-通信/网络-与非网...

    与机器进行语音交流,让它听明白你在说什么.语音识别技术将人类这一曾经的梦想变成了现实.语音识别就好比"机器的听觉系统",该技术让机器通过识别和理解,把语音信号转变为相应的文本或命令 ...

  9. 智能语音识别技术入门系列(上)

    本系列文章开始,我们将一起探索自动语音识别.语言处理技术所包含的核心算法.模型及未来的发展趋势.本篇文章我们主要讨论语音识别的基本概念.并理解语音识别技术的流程. (一) 自动语音识别技术ASR 自动 ...

最新文章

  1. Python慢,为啥还有大公司用?
  2. 浅蓝色设计类网站模板
  3. c语言求100以内整除13的最大,VB程序设计的一道题,找出100以内能被3整除的所有数之和,并把值保存在一维数组中...
  4. 出现无效字符_网站出现死链的原因分析 - 最蜘蛛池租用
  5. jsp页面 字体颜色 白色_CSS 文本字体颜色(CSS color)
  6. 观点 PK | 商用 PC or 消费 PC,开发者究竟该如何取舍?
  7. python3 集体智慧编程第九章advancedclassify.py代码
  8. 中文版modbus测试软件,Modbus调试工具
  9. 计算机仿真系统模型有,计算机仿真在光伏发电系统模型中的应用研究原稿(最终定稿)...
  10. Web前端学习路线笔记(六)html5
  11. MI(mutal information)and Entropy
  12. 整理收纳的概念和意义
  13. ethtool 开启网卡_技术|如何使用 ethtool 命令管理以太网卡
  14. 业务与信令-第5章VoLTE原理
  15. 测绘技能大赛-无人机航测虚拟仿真(内业部分)
  16. 掌握.NET中的日常打印
  17. Tesseract训练新字体
  18. 久别重逢,如期而归——杭州区块链国际周7月开启!
  19. 2023-Python实现有道翻译接口加密解密
  20. mongodb的or和and查询

热门文章

  1. git常用命令--tag
  2. Centos7安装vsftpd (FTP服务器)
  3. python下的selenium和PhantomJS
  4. 豆瓣书籍数据爬取与分析
  5. Mac中java实现自动打开软件问题
  6. jquery实现章节目录效果
  7. CODE[VS] 1098 均分纸牌 ( 2002年NOIP全国联赛提高组)
  8. PAPI性能测试工具的安装、使用及实例
  9. MSDN上的异步socket 服务端例子
  10. JSK-10926 各位数字之和的和【入门】