当语音识别技术应用到计算机桌面的时候,这看起来似乎是一个好主意。但是,对于大多数人来说,语音识别还不能取代键盘和鼠标。现在,语音技术正用于一个全新的环境:手机。语音识别技术在手机中的应用将进一步推动这种技术向新的方向发展和应用。这是语音识别技术在台式电脑应用中从来没有涉足的方向。本文引用地址:http://www.eepw.com.cn/article/165434.htm

IBM今年将纪念其创建100周年。IBM在60年代初期创建了一个名为“Shoebox”的试验性的语音识别系统。这个系统解决了口语算法问题。语音识别技术是在50年代作为一项早期的技术第一次出现的,当时主要是由于好奇。在60年代初,IBM的“Shoebox”设备能够识别出16个口语单词并且能够回答简单的数学问题,如“3 + 4 =?”。

Dragon Systems在80年代初为DOS计算机推出的DragonDictate可能是第一个语音识别应用程序。这个应用程序只能识别单个单词,每次只说一个单词。随着时间的推移,这个应用程序已经发展成为名为“Dragon NaturallySpeaking”(目前是第11个版本,由Nuance通讯公司所有)的产品。这个应用程序能够翻译以正常的会话语音和速度读出的文本。

语音识别技术在台式电脑中的应用有两个制约因素。第一,为了使这个应用程序以更高的准确性工作,这个应用程序必须要进行训练以便识别用户的语音特征。Windows Vista和Windows 7操作系统中的本地语音转换文本技术和Dragon NaturallySpeaking等第三方产品仍然都需要一个用户训练期才能使用。

第二个制约因素是键盘的流行程度。大多数人已经习惯于键盘打字而不是讲话,因此,语音控制面临Dvorak键盘布局同样的应用障碍。当简单的老式QWERTY键盘供货充足并且工作的很好的时候,为什么要学习使用Dvorak键盘呢?

微软TellMe团队是负责为多媒体环境开发语音识别技术的部门。TellMe团队高级产品经理Abhi Rele指出,在台式电脑环境,用户有方便的人机交流模式,如键盘和鼠标。因此,语音的使用主要是针对语音爱好者的。

语音控制的计算更广泛的应用需要两件事情:更好的方便的应用和主要使用语音的地方。手机正是很长时间以来一直在增长的这种地方。

Nuance负责产品管理和营销的副总裁Matt Revis解释说,台式电脑和移动环境的区别是这样的:台式电脑是一个固定的环境,重点完全在于台式电脑的使用情况。因此,台式电脑的语音技术主要执行如下任务:支持办公应用程序、网络浏览、通讯等。在移动方面,语音更多地用于支持各种生活方式方面:移动中的专业人员、户外的有趣活动、免提电话等等。

Gartner分析师Tuong Nguyen赞同这个观点:语音在移动环境中更有意义。他说,从使用的角度看,掌上设备的语音识别功能价值更大。它增加了用户友好的、方便的输入方式。

Nguyen补充说,如果不用语音技术说出一个简单的说明语句,而是翻动许多菜单或者努力地在小显示屏键盘上进行输入,语音识别的价值就显现出来了。随着触摸屏设备(没有物理键盘)应用的增长,语音识别技术将用来增强数据输入和输出。语音识别还支持免提要求或者法律要求。

在移动设备方面

因为移动设备一般仅支持台式电脑的一部分存储和处理功能,语音处理需要一些时间才能以基本的形式出现在手机中。

语音处理Springer手册解释了手机在2000年代初的情况。尽管那时还有一些局限性,但是,手机经过编程之后能够识别逐个数字的拨号语音,在某种程度上还能识别人的名字。主要问题是内存,因此,大多数手机一次只能识别10个数字或者名字。但是,这些作者指出的另一个问题是这个功能使用的比较少,可能是因为手机厂商在这方面的营销很糟糕。

随着手机的增加内存和增强处理能力,普通手机的识别能力也增强了。三星电子在2005年发布的售价99美元的SCH-p-207型手机增加了语音至文本的听写功能和语音拨号功能。随着内存达到数百MB和存储容量达到数GB,目前这一代智能手机很少受到限制。

另一个关键的进步是网络速度。速度更快的无线网络浪潮抬高了许多大船,包括最新一代的语音处理技术。速度更快的网络能够把语音处理任务从网络迁移到远程服务器。

谷歌语音搜索产品经理Amir Mane解释了速度更快的网络是如何帮助谷歌语音应用程序的。他说,由于所有繁重的处理任务都是由谷歌服务器在网络上处理的,我们减少了掌上设备计算能力的限制。

目前的应用程序

手机语音识别技术目前的状态不仅仅局限于语音拨号。语音启动的功能实际上就包括语音拨号。这是手机上出现的第一个语音识别功能。目前,甚至许多低端手机都有这个功能,尽管这个功能处理手机电话簿中一些不常用的名字的时稍差一些。

Gartner分析师Nguyen指出,比较新的一代语音功能是更开放的。不用编程执行某些功能的具体的语音指令,应用程序可识别语音并且执行适当的行动。更高端的、更强大的设备使这些应用更可行。换句话说,不仅仅是能够使用这个短语“呼叫888-555-1212”拨打一个电话号码,用户还可以说“呼叫妈妈”或者“给我妈妈打电话”。

谷歌语音搜索拥有比以前的语音识别技术更少的限制,因为所有的繁重任务都是由网络服务器完成的。这使谷歌语音搜索等语音驱动的应用程序更可行。例如,如果你说“创战纪电影时间”,你会看到一个网页列出地区编号或者位置。这个应用程序不仅能够识别出这个短语的意思,而且还能提供你的手机(你当前的位置)和网站(上映时间)的信息。

这个应用程序还非常熟悉英语,不用进行训练就能自动分辨出一些词汇的差别。如果我说“摩特里裤(Motley Crue)乐队”,这个应用程序甚至能在搜索词汇方便使用这个乐队的独特的拼写,尽管它会漏掉变音符号。搜索“Motley's Crew”,你会得到一个喜剧片。

这就是说谷歌语音识别的限制明显地表明将使你进一步脱离主流的英语。外国人的名字是没有帮助的。语音识别应用程序的另一个问题是环境的噪音。移动用户受环境噪音的影响通常比台式电脑用户多。Nuance公司的Revis称,在充满噪音的户外环境中,语音识别的准确性是一个问题。

自从2005年三星的那款手机推出以来,听写功能已经取得了长足的进步。由Dragon NaturallySpeaking驱动的iPhone的Dragon听写功能允许用户听写从备忘录、电子邮件到Twitter更新等一切内容。用于电子邮件的Dragon软件为黑莓设备提供了类似的功能。

对于Android手机来说,Nuance提供了FlexT9软件。这个软件把Dragon听写功能与三种类型的触摸屏输入方式结合在了一起。还有一个Handcent短信应用程序。这个应用程序集成了Android本地语音识别技术以帮助你用语音发短信。

文本之间的翻译目前已经推出多年(如通过知名的Babel Fish网站进行翻译)。同声翻译功能现在还没有,不过,这种软件很快会推出。例如,用于iPhone的Jibbigo软件可翻译单词、短语和合理的简单句子,让双方交替地讲话。

上一页

1

2

下一页

智能手机的超性能语音识别技术简介相关推荐

  1. 带你认识传统语音识别技术

    摘要:隐马尔可夫链HMM模型自从1980年代被用于语音识别以来,一直都是实际语音识别系统的主流方法. 本文分享自华为云社区<新手语音入门(四): 传统语音识别技术简介 | 隐马尔可夫链 | 声学 ...

  2. 语音识别技术之声学模型

    本公众号已经改版,推出了线上线下课程,并且推出免费2个月广告服务业界优质产品. 编者:今年的INTERSPEECH于8月20日至24日在瑞典的斯德哥尔摩顺利召开,众多的高校研究机构和著名的公司纷纷在本 ...

  3. 低延迟流式语音识别技术在人机语音交互场景中的实践

    美团语音交互部针对交互场景下的低延迟语音识别需求,提出了一种全新的低出字延迟流式语音识别方案.本方法将降低延迟问题转换成一个知识蒸馏过程,极大地简化了延迟优化的难度,仅通过一个正则项损失函数就使得模型 ...

  4. 语音识别中代价函数_语音识别技术简述(概念-原理)

    目录 语音识别技术简述(概念->原理) 语音识别概念 语音识别原理 语音识别技术简介 1.动态时间规整(DTW) 2.支持向量机(SVM) 3.矢量量化(VQ) 4.隐马尔科夫模型(HMM) 5 ...

  5. 语音识别技术简述(概念-原理)

                                 语音识别技术简述(概念->原理) 目录 语音识别技术简述(概念->原理) 语音识别概念 语音识别原理 语音识别技术简介 1.动态时 ...

  6. NLP之ASR:语音识别技术(Automatic Speech Recognition)的简介、发展历史、案例应用之详细攻略

    NLP之ASR:语音识别技术(Automatic Speech Recognition)的简介.发展历史.案例应用之详细攻略 目录 语音识别技术(Automatic Speech Recognitio ...

  7. 语音专题第四讲,语音识别之解码器技术简介|大牛讲堂

    雷锋网(公众号:雷锋网)按:本文作者潘复平,地平线机器人语音识别算法工程师.博士毕业于中国科学院声学研究所,曾任声学所副研究员.百度语音技术部资深工程师等职位.在中科院工作期间曾领导完成多个" ...

  8. 小米副总裁崔宝秋:智能手机是今天AI技术最大的平台,AIoT又让AI无处不在 | MEET 2021...

    编辑部 整理自 MEET 2021 量子位 报道 | 公众号 QbitAI 什么是未来的智能生活? 每个人根据自己的需求,再加上一个时间维度,十年?二十年?都会有不同的答案. 今年,小米正式将未来10 ...

  9. AI之NLP:自然语言处理技术简介(是什么/学什么/怎么用)、常用算法、经典案例之详细攻略(建议收藏)

    AI之NLP:自然语言处理技术简介(是什么/学什么/怎么用).常用算法.经典案例之详细攻略(建议收藏) 目录 NLP是什么? 1.NLP前置技术解析 2.python中NLP技术相关库 3.NLP案例 ...

最新文章

  1. R语言使用ggplot2包geom_jitter()函数绘制分组(strip plot,一维散点图)带状图(双分类变量分组:色彩配置、形状配置)实战
  2. 通过变长数组(VLA)来看编译器的不同
  3. 这是霄哥的天气预报,屌不屌?
  4. this的用法添加样式给tr或者div
  5. python excel操作库,可能是全网最完整的 Python 操作 Excel库总结!
  6. 基于JAVA+SpringMVC+Mybatis+MYSQL的个人记账管理系统
  7. 选择在共享模式中运行时使用的采样频率和位深度_优化的逻辑(三)干扰相关及扫频仪的使用...
  8. Unity直接导出Android Apk包环境配置
  9. [js插件]分享一个文章内容信息提示插件Colortip
  10. 解决办法:error: 'size_t' does not name a type、unknown type name 'size_t'
  11. cocos android保存图片到相册,android平台 cocos2d-x 读取相册数据
  12. 用户故事(一):什么是用户故事?
  13. UDP与TCP报文格式,字段意义
  14. ArcMap导入Excel数据显示没有注册类
  15. 为什么react选择了函数式组件(剖析原理)
  16. VS2010 编写代码时的光标变成了黑块,黑块选中了字,再输入的时候就会替换掉那个黑块选中的字
  17. 视频主观质量评价和视频客观质量评价
  18. matlab程序设计基础教程 刘国良,MATLAB程序设计基础教程 刘国良 西安电子科技大学出版社...
  19. C语言实现的一个小学生算数自测系统源码分享
  20. 解决CentOS 7,ATI显卡,屏幕亮度调节问题

热门文章

  1. win10 redis安装教程
  2. java取整和四舍五入方法
  3. Smarty3——foreach
  4. Linux(CentOS6.5)修改默认yum源为国内的阿里云、网易yum源
  5. Sikuli -- 创新的图形化编程技术
  6. Bailian2854 点和正方形的关系【水题】
  7. POJ NOI0113-6 最长单词2【文本处理】
  8. Bailian4096 信号转换【密码】
  9. HDU2200 Eddy's AC难题【组合计算】
  10. 音译 —— 本身的含义