从《2011 太空漫游》中的 HAL 到《星球大战》中的 C-3PO,人们长期以来一直幻想着能够与机器对话。科学家在研制计算机的过程中一直在努力开发语音识别技术。如今,经过近半个世纪的发展,几百万人经常与汽车、智能电话和客户服务呼叫中心内的计算机进行语音交互。

语音广告的分析

这份 IBM 广告介绍了 IBM 约克镇研究中心的语音识别项目。

Shoebox

William C. Dersch 的 Shoebox 可以通过语音命令执行简单的数学计算。

展开与折叠

IBM 语音识别系统从在一个机房中存储 5000字发展到在一台 IBM 个人电脑中存储 20,000字的词汇量。

ViaVoice 98

1998年发布的这篇新闻报道介绍了语音识别、使用方式以及 IBM 研究院改进其生产力和通信能力的方式。

目前,经过几百位统计、语言学、语义学、预测算法和音频处理科学家和工程师几十年的努力,语音识别的效率大大提高。早在 20世纪 50年代,IBM 员工(如 IBM® 701 的设计师 Nathaniel Rochester)就在研究模式识别和人工智能,这是语音识别的构件。

1962年,William C. Dersch 发明了 Shoebox — 这种机器可以通过语音命令进行简单的数学计算。位于加利福尼亚州圣何塞的 IBM 实验室的工程师 Dersch 在电视上和 1962年的华盛顿州西雅图世界博览会上演示了 Shoebox。这个设备可以识别通过麦克风说出的十个数字和六个控制符号—包括“加号”、“减号”和“总计”。

1971年, IBM 开发了语音识别技术的下一个试验性应用系统。自动呼叫识别系统使美国各地的工程师能够向位于北卡罗来纳州罗利市的一台计算机讲话,并接收计算机“说出”的答案。这是 IBM 第一个通过电话线运行的语音识别系统,并且可以对不同的声音和声调做出响应。

之后, IBM 委派一个任务组,负责调查语音识别的长期潜力。他们强烈建议通过多学科方法利用 IBM 的计算能力实现突破。

20世纪 70和 80年代,康奈尔大学信息理论专业的杰出教授在 Thomas J. Watson 研究中心负责领导研究工作。

尽管其他人更愿意采用基于人类积累的专家知识的方法,但 Jelinek 认为,基于统计建模的数据驱动型方法是推动机器语音识别发展的途径。1987年 Jelinek 在《THINK》杂志上表示:“我们认为要求机器模拟人是错误的。毕竟,如果机器要移动,它必须有轮子—而不是走路。如果机器要飞,它就会像飞机那样—而不是通过煽动翅膀实现。我们并不是大力研究人们如何倾听和理解语音,而是希望找到一种自然的途径让机器做到这一点。”

Jelinek 和他的团队通过在 20世纪 70年代的一系列突破性试验而确定了这种理念的基本可行性,但这并不够。业界认为这些技术根本不可能真正实施。Jelinek 将此视为挑战,并且制订了宏伟的计划,在 80年代开发出了语音激活的打字机。一种名为 Tangora 的试验性语音识别系统采用 IBM PC AT 识别语音,并打印在纸上。每个讲话人必须分别训练打字机,使其能够识别他或她的声音,并且在每两个字之间稍作停顿。到 20世纪 80年代中期,Tangora 识别的词汇量达到了 20,000字,证明了统计方法的有效性。

然而,要将这种语音识别创新转化为可商用的产品,还有很长一段路要走。这个过程要求在处理能力和降低计算成本方面实现飞跃。

David Nahamoo 将 Jelinek 的开创性工作向前推进了一步。David Nahamoo 接任 Jelinek 领导这一工作。Nahamoo 和其他许多 IBM 员工为多种产品铺平了道路,例如第一款套装的语音识别产品—— IBM 语音服务器系列 (1992),以及第一款大词汇量连续语音识别产品 —— IBM MedSpeak 产品 (1996)—— 作为 IBM ViaVoice® 技术而得到了更广泛的应用。Nahamoo 在 2008年被选为 IBM 院士。

到 2003年, IBM 将 ViaVoice 的独家经销权授予 Dragon Naturally Speaking 的制造商 Nuance Communications,而 IBM 退出了语音识别的消费市场。到 20世纪 90年代末, IBM 决定集中精力开发电话和嵌入式产品,例如用于呼叫中心的 IBM WebSphere® Voice Server 和用于汽车导航的 IBM 嵌入式 ViaVoice®。尽管交互式语音识别在过去占主导地位,但目前,用于转录语音数据的新型应用不断发展。这些应用包括记录讲座和会议内容,以及电视广播的自动隐藏式字幕。

最后,过去十年内为帮助计算机理解人类语言所做的开创性工作在 Watson 机器的自然语言处理能力中得到了体现,2001年,Watson 机器在《Jeopardy!》节目中击败了真人冠军选手。Watson “阅读”写出来的线索,而不是“收听”所说的内容,但采用了统计和语言学的许多进步来分析问题。此外,Watson 还采用 IBM 语音团队主要利用统计方法论开发的语音合成技术说出答案。

1993年,Fred Jelinek 成为 Johns Hopkins 大学的计算机工程教授,并在该学校的语言和语音处理中心授课,他于 2010年 9月去世,享年 77岁。IEEE 语音和语言处理技术委员会主席 Steve Young 说:“他不是语音识别的开创者,但他实际上又是语音识别的开创者。”

IBM - 开拓语音识别 - 概述 - 中国相关推荐

  1. IBM PVM Study之--IBM PVM技术概述

    IBM PVM Study之--IBM PVM技术概述 虚拟化在 System p 上的价值 IT 部门的主要目标之一是快速响应新增或更改系统部署的业务需求.这就要求尽可能快速且经济有效地: 部署新的 ...

  2. 《人工智能》之语音识别概述

    文章目录 一.语音识别概述 二.语音识别简史 1.知识积累阶段(1930-1950) 2.模式匹配阶段(1950-1980) 3.统计模型阶段(1980-2000) 4.机器学习阶段(2000-201 ...

  3. ibm中文语音识别输入系统

    广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 选自ibm作者:george saon机器之心编译参与:吴攀.黄小天去年十月,微软 ...

  4. 创新性应用深度学习,IBM在语音识别领域取得了里程碑式突破

    最近,IBM的一个研究团队宣布他们在语音识别上创造了一个新的业界纪录,在使用SWITCHBOARD语料库的情况下词错误率为5.5%,接近于人类的错误率5.1%.人们一般会在所听到的20个单词中遗失其中 ...

  5. 铁流:苹果为何不找IBM,而选择中国浪潮

    据外媒日前报道,苹果计划与中国服务器供应商浪潮集团合作建设数据中心,而且数据中心很有可能会位于中国大陆和中国香港.那么,数据中心位于中国有何意义?苹果这次为何不找IBM.惠普.戴尔等美国科技公司,偏偏 ...

  6. 语音识别入门第一节:语音识别概述

    目录 语音识别的定义 语音识别的重要性 语音交互 语音识别的挑战性 语音识别的发展历史 语音识别的深度学习时代 现代语音识别框架 语料库与工具包 语音识别的定义 语音识别:Automatic Spee ...

  7. IBM viavoice语音识别引擎vv的通用类以及调用方法

    分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! #inc ...

  8. 万达牵手IBM:万达进军企业级云业务,IBM Watson进入中国

    云计算市场来了新玩家,他是王健林.3月19日,万达集团董事长王健林与IBM董事长兼首席执行官罗睿兰(GinniRometty)在北京见面.握手.当日,万达集团旗下的万达网络科技集团与IBM(NYSE: ...

  9. IBM朱近之:服务助云计算在中国落地

    12月8日,IBM举办了主题为"掣动云引擎,创新云应用"云引擎合作伙伴计划授牌仪式大会,49家ISV.SI正式加入IBM"云引擎"合作伙伴 计划并被授予顶级云会 ...

最新文章

  1. Google学术分析公司科研实力:谷歌1161,华为110,为何差10倍?
  2. http://q.cnblogs.com/q/54251/
  3. Android编译系统分析四:实战-新增一个产品
  4. mysql handlers,2 Handlers
  5. Nginx反向代理,负载均衡,redis session共享,keepalived高可用
  6. odoo xml样式_自定义Odoo的界面样式
  7. python 开发api_使用FastAPI和Python快速开发高性能API
  8. mysql5.7.20官方文档,MySql 5.7.20安装及data和my.ini文件的配置
  9. 无法连接网络的解决办法
  10. vue中延时函数用法
  11. 怎么使用小爱同学音响_小爱同学怎么用
  12. C# 打印自定义纸张设置
  13. 怎么设置浏览器默认搜索引擎,设置默认搜索引擎的方法步骤
  14. 状压DP例题(种花小游戏+广场铺砖)
  15. 【前端】Vue+Element UI案例:通用后台管理系统-用户管理:Form表单填写、Dialog对话框弹出
  16. IOS -- 获取用户的健康数据的运动步数
  17. GAP:Learning Contextual Representations for Semantic Parsing with Generation-Augmented Pre-Training
  18. Golang的Panic和Recover
  19. 图片题注和章节不对应
  20. 使用pymupdf获取pdf文档中的文本下划线信息(全网唯一解决方案)

热门文章

  1. vim 基础命令大全
  2. 20165332第六周学习总结
  3. redis服务以及phpredis扩展的安装
  4. [Err] 1093 - You can't specify target table 's' for update in FROM clause
  5. linux命令 screen的简单使用
  6. Activity返回值[转]
  7. .NET 正则验证邮箱
  8. I00001 杨辉三角
  9. 构建工具 —— Groovy 与 Gradle
  10. vim 与 ascii 码表与可显示字符