语音触发器架构的选择

一次语音触发是一个简短的关键字或者词(例如“你好!手机”),它能够使设备被唤醒并且响应后面输入的语音。图1所示即为这种半自主的低功耗的“永远工作”的处理域,它为这种语音触发提供了一个平台。

图1:使用了一个音频中枢的永远工作的语音触发。

音频中枢为语音触发功能提供了一个自然的中心,它带有通往所有内部功能和耳机麦克风端口的接口,并且在待机模式下通常也在运行,这是因为需要处理像附件接口监控其它原因。这个降低了系统中诸如时钟发生器和电压参考等常用基础功能的重复率,降低了静态功耗。音频中枢里针对语音唤醒的硬件优化使信号处理周期针对不同环境的噪声情况将被保持在绝对的最低值,将平均电池电流最小化。

可相互替代的架构分成两类:分离式解决方案和基于系统级芯片(SoC)语音的触发。其功率消耗情况和用户交互方式在很大程度上依赖于对这些架构的选择。软件架构,尤其是管理应用场景转换和串行端口配置的软件,也在确定交流方式中扮演着一个重要的角色。

基于系统级芯片(SoC)的语音触发器(如图2)往往因为主要的中央处理单元持续活跃而引起的非常高的静态功耗开销。这些解决方案的电池电流消耗通常比那些基于音频中枢的解决方案高出一个数量级。

图2:基于SoC的语音触发模式。

分离式解决方案(如图3)通常使用来自主音频通道的不同的硬件接口。这有时可以导致音频不持续,原因在于应用场景转换管理和噪音抑制的启用/禁用等在不同的集成电路间,因为延迟和信号格式不同等因素而变得复杂。这些不连续有时会引起通话被中断,尤其是在转换到工作模式运行发生时,从而导致了对可听见提示的需要并限制了交流方式。在一些情况,因为连接到有限数量的麦克风也能限制其使用性(例如耳机麦克风的操作)。

图3:分离式语音触发解决方案。

确保更好的用户体验

由于所有技术创新都是从根本上改变用户与消费电子设备交互的方式,衡量成功的真正标准是用户对他们所期望的改变的回应。参考触摸屏案例,新的语音控制技术的最终目标是它们应该成为下一代移动硬件可接受的和所预期的一项功能。我们将可能非常快就学会如何与新一代能够响应语音的机器进行交互,其方式与我们在触摸屏中开发出来的直观熟悉性大致相同,直到像触摸功能已经成为进入市场的新设备的一个标准功能这样的程度。

尽管如此,不同于较早的在远端也是人类的语音通信技术,仍然不确定的是用户在熟悉技术的行为特性后,是否将受益于与其设备进行了有用的或有趣的沟通。这在很大程度上取决于该技术的性能,但是今天用来衡量语音识别性能的标准仍然很粗放,并且不足以用来描述未来代系语音识别系统的有效性。考虑到更高级别的机器智能化、与系统其余部分的交互,以及与云计算的交互,还需要一种更广泛的方式。一种不会限制或者延迟下一代改善的音频架构,能够使这些性能跨越更加迅速地发生,很大程度上将不受硬件和低级别固件的限制。现在已经可以使用这种技术去构建移动设备。

低功耗音频中枢待机模式音频处理能力已经突破了语音识别可用性中一些最关键的瓶颈。虽然去除按键是一个重要的里程碑,但这只是可用于今天移动平台设计的许多语音识别提升中的一项。但在集成阶段选择了合适的架构,就可以支持一种完全自然的沟通风格,它极大地改变我们在未来几年使用移动设备的方式。

与机器人对话的语音识别解决方案相关推荐

  1. python编写的语音识别+机器人对话+文字播报一体

    1.语音识别 这里用到了百度api的语音识别,目前开源的语音识别成文字的效果都很差,百度api的语音识别效果还可以. 2.机器人对话,这里用到了青云客机器人对话,通过爬虫获取对话的内容,机器人对话效果 ...

  2. 哈工共哲二手库卡机器人多种焊接工艺集成解决方案

    KUKA库卡机器人的应用比较广泛,它在农业机械.电梯.PC.工程机械.轨道交通等等众多领域具有非常强大的智能解决能力.接下来就哈工共哲选取的二手库卡机器人智能化焊接解决方案,为大家介绍下二手库卡机器人 ...

  3. ros+科大迅飞语音包+图灵机器人(四)与机器人对话

    将以前下载的的语音包的 samples/iat_record/的iat_record.c speech_recognizer.c speech_recognizer.c 拷贝到工程src中, linu ...

  4. 计算机视觉、机器学习、自然语言处理、机器人技术、语音识别等人工智能技术的应用

    人工智能受益于神经网络和深度学习在算法上的突破,技术水平得到飞跃提升.未来,计算机视觉.机器学习.自然语言处理.机器人技术.语音识别等人工智能技术或将给整个人类社会带来巨大改变. 语音识别与自然语言处 ...

  5. 情感分析中的情感分析机器人:基于语音识别的方法

    作者:禅与计算机程序设计艺术 <情感分析中的情感分析机器人:基于语音识别的方法> 引言 1.1. 背景介绍 随着人工智能技术的快速发展,自然语言处理(Natural Language Pr ...

  6. 树莓派百度语音识别+图灵机器人对话聊天机器人

    硬件 树莓派3B.USB声卡.麦克.USB音响 软件 python.百度语音识别API.图灵机器人.espeak 树莓派官方系统自带python环境.注册百度语音识别开发者账号,获取api key. ...

  7. 【NLP-ChatBot】能干活的聊天机器人-对话系统概述

    我们之前介绍过,按照应用场景的不同,聊天机器人可以分为问答系统,对话系统以及闲聊机器人三类.今天我们就来详细讲一讲其中的对话系统. 作者&编辑 | 小Dream哥 1 什么是对话系统 通常来讲 ...

  8. 人工智能机器人对话,使用/教程/实例

    第六届 GAIR 全球人工智能与机器人大会今日开幕:创历史.敬传奇.前两年致敬传奇的两大主题论坛曾收获巨大热度,本届GAIR的高端对话又将留下怎样的经典语录?"今日9:30,第六届GAIR全 ...

  9. 机器人对话常用语模板_聊天机器人的技术原理和未来的发展

    近年来,人工智能越来越火,那你们真的知道人工智能吗? 一.人工智能是什么 人工智能(Artificial Intelligence),英文缩写为AI.它是研究.开发用于模拟.延伸和扩展人的智能的理论. ...

最新文章

  1. Eclipse 报 “Exception in thread main java.lang.OutOfMemoryError: Java heap space ”错误的解决办法...
  2. linux内核启动后门,Linux下编写隐蔽的自启动回连后门
  3. 使用React hooks,些许又多了不少摸鱼时间
  4. YBTOJ:字符串匹配(KMP)
  5. 建模元件有哪些在MapleSim中
  6. python 网络运维框架scape_“python scape 教程“求PhotoScape X Pro for Mac软件
  7. php28,ajax2—php(28)
  8. 如何学习前端知识?优秀的前端开发工程师应该具备什么条件?
  9. android动画水波纹外扩,Android实现水波纹扩散效果
  10. poi导出excel日期格式问题
  11. 煲机:让耳机的声音更动听!
  12. 双绞线接头(RJ45)连接方法详解
  13. vue生命周期,组件,slot替换,tab切换,简易留言板
  14. 近期杂文集锦-数学方法谈
  15. MMO之禅(二)职业精神
  16. C++typedef的用法
  17. gtx780有html接口吗,NVIDIA GTX780Ti评测_评测_太平洋电脑网PConline
  18. mysql varchar能不能超过255个字节及产生的问题。
  19. android后台获取view,如何获取AdapterView中当前显示的项目?
  20. 中国风PPT不会做?三个小技巧帮你搞定!!!

热门文章

  1. [No0000120]Python教程3/9-第一个Python程序
  2. 过滤器-filter
  3. 分析Linux 0.11中的kernel部分的makefile文件
  4. uml的图与代码的转换——类图
  5. ashx实现ajax功能遇到的浏览器缓存问题
  6. Bailian4124 海贼王之伟大航路【DP】
  7. UVA11774 Doom‘s Day【数学规律+GCD】
  8. CSP202012-1 期末预测之安全指数(100分)【序列处理】
  9. HDU2148 Score【序列处理】
  10. JSK-A1144 代码填空:阶梯三角形【水题】