语音识别如何处理工作 语音识别功能三个处理阶段
当今的消费者对技术的要求日益提升,这一点在用于与设备进行互动的界面技术上体现得尤为明显。人们对包括手机、车载电子、家用网络和办公环境下的设备要求越来越高,要求它们能够融入更易操作的、更直观的用户界面,以更贴切反映人与人之间的互动关系。
在每一个新的产品周期中,设计人员都倍感压力,要设计出操作更加精确、用户界面更加直观的产品。近年来,继触屏技术逐渐普及到包括电话、平板电脑、显示器、销售点解决方案、ATM和查询机等设备之后,语音识别技术正在快速成为驱动产品创新与运用的下一代用户界面技术。语音识别,甚至是手势与影像识别,成为各种工作与个人设备的标准配备只是个时间问题。由于语音识别技术在某种程度上受制于嵌入式应用的发展,因此其至今仍然处于发展的初期。然而,语音识别交互界面技术将最终被广泛采用,这是技术发展的大势所趋。汽车工业已经在计划引入更多具备更强嵌入式语音识别功能的尖端模块。
语音识别技术之所以发展缓慢,部分是由于用户界面越直观,其所需的处理能力与内存就呈指数级别上升,这反过来促进了闪存技术的创新发展。正如大多数设计人员所熟知的那样,用户界面越直观,其所需的技术平台与设计就越复杂。用户界面技术将消耗更多的计算能力与闪存,才能在达到高性能的处理能力的同时,保持最佳用户体验。一种解决方案是采用专门的硬件,即具有下一代闪存能力、集成了逻辑与灵活软件算法的专用协处理器。这些协处理器能够作为独立的硬件加速器分担主应用处理器的负担,从而获得市场上最高水平的用户体验。
人机交互界面的演进
自从电脑鼠标问世以来,HMI(人机交互)技术取得了长足进步。用户界面的创新从历史上看可归功于新器件的成功运用,例如,从老款移动电话的实体按键变为智能手机的触屏。打造具有吸引力的用户界面极具挑战性,需要相当复杂的系统来创造功能性强、易于访问、逻辑清晰与令人愉悦的用户体验。这种复杂系统对高可靠性、高性能硬件提在处理能力和闪存带宽方面要求较高。由于终端产品的核心功能创新已接近成熟,消费者们正日益将产品的工业设计与用户界面作为标准来做出购买决定。生产商也注意到了这一变化,而闪存生产商与设计人员也在市场的压力下,加快创新以回应市场的要求。语音识别正是下一波人机交互技术创新的焦点之所在。
语音识别如何处理工作
在先进的HMI技术正日益成为许多消费电子产品事实上标准的同时,高性能处理能力对嵌入式系统而言正变得的更为关键。总体而言,语音识别功能可被细分为三个处理阶段:
第一个阶段是声音处理阶段,这通常会占用不到5%的处理能力,即系统将捕获的声音信号从模拟信息转化为数字信息。这同时也是过滤、抑制噪声和回声消除的阶段,将话筒声音与错误捕获的杂音区分开来。经过处理后的信号以数字声音流的形式输出,每一段声音都如同指纹一样是独一无二的。第二个阶段为匹配阶段,即系统将这些声音信号与“语音库”,即声学模型进行匹配。这种匹配阶段被称作声学打分,会占用系统处理带宽的50%到70%。第二阶段产生的声学得分将作为输入信息进入第三个阶段,即系统通过搜索语言与词典模型,将这些声学信号转译为文字信息。这一阶段会占用30%到50%的处理能力。
一般说来,整个处理过程由一个CPU负责,而这个处理器也同时需要负责处理若干其他的任务。由于语音识别非常占用计算能力与闪存空间,因此在一个嵌入式解决方案共享资源会导致无法接受的延迟,或者限制了带宽处理日益增加的软件模型的能力。为了取得更高的精确性,软件模型的大小正在日益膨胀。
为何为HMI处理过程配备专门的硬件?
由于HMI(如语音识别)处理过程中繁重的存储与运算带宽限制,这种多任务共享一个CPU资源的方式常常以牺牲某些终端用户体验为代价。
例如,在语音识别中,在共享资源的嵌入式系统条件下,设计人员必须在速度与精确性之间进行取舍。更大的声学模型能实现更高的精确性,不过却要有更大的处理能力才能避免无法接受的延迟响应速度。另外,由于用户提升了他们对语音处理界面的期望,例如希望界面能够区分性别、噪音、对话、口音以及多语言等,这种功能丰富的语音模块的大小则会呈指数级别与日俱增,而可靠性高、可快速访问的内存对这种日益提升的性能而言将变得更加重要。 不幸的是,如今资源共享、资源限制型的硬件平台并不能为目前最大型的声学模型提供可接受的处理能力。因此,业内目前只能退而求其次,开发出压缩版的声学模型,仅能在最低程度可接受的响应时间内提供最低程度可接受的精确性。
为了克服这个缺点,业界最近已经开发出了一套解决方案:一款能够提升处理能力,加速某些语音识别处理阶段的专用硬件协处理器。这类解决方案的第一个代表就是Spansion语音协处理器。Spansion语音协处理器负责语音识别的声学评分阶段,从而分担了CPU的负荷,最多能减少50%的响应延迟。此外,Spansion语音协处理器能够为当今最大的声学模型提供足够大的处理能力,最大能达到目前我们常见声学模型的10倍。采用这种解决方案能彻底解决延迟性与精确性的取舍问题,而在基于资源共享平台的嵌入式语音识别解决方案中,这是个重大的设计问题。
这几类专用的用户界面协处理器运用先进的闪存技术,实现一系列应用的瞬间响应、高可靠性与高性能。
先进的HMI看起来将会是什么样子的?
虽然语音识别代表了嵌入式系统HMI当下发展的潮流,目前,在为自然语言理解、图像识别或情绪感知等功能提供先进的HMI方面,我们仅仅迈出了一小步。然而,近年来闪存技术的发展,正不断地推动着整个行业向着更新颖、更富创造性的发展高度。专用的硬件与先进的闪存和逻辑器件结合,能为功能更丰富、更强大的软件模型的运行提供基础,逐步引领我们更加接近未来更尖端的HMI技术。随着闪存创新步伐的不断向前推进,我们也将更有能力设计出功能更丰富、更贴近自然的界面,最终改善用户体验。
消费者对最佳用户体验的追求,不断地鞭策着我们开创新的架构。因此,正是用户不断推动着闪存技术的不断创新并向前高速发展。如今,下一个技术发展的前沿与挑战是提供更加丰富的用户体验,在先进的闪存技术与专用硬件的助力下获得更强大的语音识别能力。
打开APP精彩内容
点击阅读全文
语音识别如何处理工作 语音识别功能三个处理阶段相关推荐
- 研究生语音识别课程作业记录(三) 非特定人孤立词识别
研究生语音识别课程作业记录(三) 非特定人孤立词识别 前言 一. 任务要求 二. 识别方法 三. 语音数据库 四. 特征参数提取 五. 识别过程及分析 六. 实验总结 七. 小结 前言 研究生期间的语 ...
- Android中语音识别与语音播报功能(记录)
功能需求: (1)语音识别,将语音识别为文字,用于语音文字输入功能. (2)语音播报,将文字通过语音的形式播放出来. 主要思路: (1)语音识别:使用百度的第三方免费语音识别SDK.(特别注意,只要是 ...
- 【人工智能】科大讯飞语音识别应用开发(第三集)
前言 这次需要对科大讯飞语音识别接口进行语音识别应用开发,前两次都是通过WebAPI调用接口,这次换一下,通过SDK调用接口 下面是开发的详细记录过程(基于前两次的基础上) 语音识别接口调用 第一步 ...
- 恒压供水(3托3) 功能: 三拖三(3台变频3台水泵),3台水泵循环软启,定时轮换工作
恒压供水(3托3) 功能: 三拖三(3台变频3台水泵),3台水泵循环软启,定时轮换工作. 硬件:采用西门子200smart +昆仑通态触摸屏. 优点: 自己重新修改,调试,完美运行. 一对一变频,一台 ...
- 语音识别的原理_语音识别原理_语音识别原理框图 - 云+社区 - 腾讯云
广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 深入浅出地介绍了基于hmm的语音识别的原理,不注重公式的细节推导而是着重阐述公式背 ...
- 英语语音识别_英语 语音识别_英语语音识别软件 - 云+社区 - 腾讯云
广告关闭 2017年12月,云+社区对外发布,从最开始的技术博客到现在拥有多个社区产品.未来,我们一起乘风破浪,创造无限可能. 腾讯云语音识别服务开放实时语音识别.一句话识别和录音文件识别三种服务形式 ...
- 语音识别英语_英语语音识别_英语 语音识别 - 云+社区 - 腾讯云
广告关闭 腾讯云双11爆品提前享,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高满返5000元! 腾讯云语音识别服务开放实时语音识别.一句话识别和录音文件识别三种服务形式,满足不同 ...
- 【语音识别】自动语音识别(ASR)研究综述
自动语音识别(ASR)研究综述 Note: 正文内容绝大部分取自 语音识别研究综述 WeNet的部署参考该Blog WeNet平台搭建 文章目录 自动语音识别(ASR)研究综述 零.参考资料 1.参考 ...
- 语音云识别工具_语音识别工具_web语音识别应用程序的工具 - 云+社区 - 腾讯云...
广告关闭 2017年12月,云+社区对外发布,从最开始的技术博客到现在拥有多个社区产品.未来,我们一起乘风破浪,创造无限可能. 语音识别服务具备识别准确率高.接入便捷.性能稳定等特点. 腾讯云语音识别 ...
最新文章
- 2019前沿信息科技创新论坛成功举办
- 使用Cocoapods快速创建自己的podspec,让你的框架支持cocoapods,podspec
- JENKINS系统的安装部署
- 转:SharePoint站点中用户信息与AD用户信息的“不一致”问题
- 获取Flex SDK加载进度的方法
- sql2008能否打开mysql数据库_mysql数据库数据能不能导入到sql server中
- 雨林木风win11 64位安全旗舰版镜像V2021.09
- 解决CHROME中画布中无法显示图片的方法
- android开发我的新浪微博客户端系列教程
- kibana常见启动报错
- Python基础——模块的安装
- 搭建nginx代理,为前端页面跨域调用接口
- 草根创新的狂欢——《大数据时代》对程序员的启示
- Django REST framework 中文文档
- What Music简单的全网音乐播放器
- POJ 1080 Gene
- USACO Raucous Rockers——dp
- SMCJ系列TVS瞬态抑制二极管型号参数表
- Python QT5文件对话框总是错误代码-1073740791 (0xC0000409)
- 无心插柳OR志在必得?阿里推“来往”的意图