语音认别---唤醒技术KWS介绍

  由于目前终端(如手机)上的CPU还不足够强劲,不能让语音识别的各种算法跑在终端上,尤其现在语音识别都是基于深度学习来做了,更加不能跑在终端上,所以目前主流的语音识别方案是声音采集和前处理在终端上做,语音识别算法则放在服务器(即云端)上跑。虽然这种方案有泄漏隐私(把终端上的语音数据发给服务器)和没有网络不能使用等缺点,但也是不得已而为之的,相信在不久的将来等终端上的CPU足够强劲了会把语音识别的所有实现都放在终端上的。

  是不是意味着终端上做不了语音识别相关的算法了?其实也不是,语音唤醒功能是需要在终端上实现的。语音唤醒是指设定一个唤醒词,如Siri的“Hi Siri”,只有用户说了唤醒词后终端上的语音识别功能才会处于工作状态,否则处于休眠状态。这样做主要是为了降功耗,增加续航时间。目前很多终端都是靠电池供电的,对功耗很敏感,是不允许让语音识别功能一直处于工作状态的。

Google 基于CNN实现的算法,属于Deep KWS方案

评判标准:FRR (False Reject Rate), "漏警率", CNN的FRR比DNN的FRR提升了27%~44%.

限制了乘法的运算量,限制了参数的数量

很早以前大家使用HMM,后来2014年,Google使用了DNN的方案SMALL-FOOTPRINT KEYWORD SPOTTING USING DEEP NEURAL NETWORKS - 2014 IEEE,然后2014年有人使用CNN进行语音识别Deep Convolutional Neural Networks for large-scale speech tasks, 但是这种CNN架构对计算量要求比较大,而KWS方案对计算量要求有一定的限制,所以本论文中他们提出了优化了版本的CNN方案。

Baidu基于CRNN实现的算法KWS方案

又一个Deep KWS方案

CRNN (Convolutional Recurrent Neural Networks): CNN+RNN,

流程:PCEN -> CNN -> BRNN -> DNN -> SoftMax

RNN对信噪比大的场景很有帮助

Apple基于DNN实现的算法KWS方案

没找到Apple发的相关论文,只找到两篇Apple官方提供的文档,Apple对音频的识别是基于DNN模型实现的,但是他有2个DNN模型,首先会用一个计算量较小的模型进行预检,然后再用更加精确的Large DNN进行计算,语音识别后,在通过HMM Scorer计算得分,如果分数满足阈值要求,会触发Siri。但是如果不满足要求,系统也会进入几秒的敏感期,这个敏感期内,如果用户再次重复这个主题,那么会快速识别,这样降低了漏报率。
手表中使用的DNN模型只有一个,是介于Small DNN和Large DNN之间的模型。

语音认别---唤醒技术KWS介绍相关推荐

  1. 语音唤醒技术的原理是什么?

    https://www.toutiao.com/a6644766450860950024/ 2019-01-10 15:27:29 "天猫精灵.""哎,在的,你说&quo ...

  2. 国内那几家语音唤醒技术做的比较好? 语音唤醒技术哪家强?

    编辑导语: 随着语音交互技术的日渐成熟,越来越多的智能硬件都选择增加语音能力作为产品卖点之一.但是,设备在进入语音交互工作状态的时候,需要先进行唤醒操作. 常见的唤醒语音交互的操作有按键或者触屏形式, ...

  3. 【无标题】音频蓝牙语音芯片,WT2605C-32N实时录音上传技术方案介绍

    基于WT2605C-32N音频蓝牙语音芯片的实时录音上传技术方案介绍 现代社会,信息技术的发展尤其迅速,信息和数据的重要性和安全性日渐深刻,在某些特殊场合,因为工作上的需要,或者日常生活的需求,往往需 ...

  4. 说话就能轻松操控,科大讯飞语音唤醒技术带来便利体验!

    如果,紧箍咒失灵了,孙悟空还会听唐僧的话吗? 如果,专注驾驶途中,一声呼唤便可响应需求是否很方便? 如果,手机落在卧室的某个角落,轻轻唤醒便能找到是否心情舒畅? 现实生活中的这一切,都可以通过语音唤醒 ...

  5. 西北工业大学计算机操作系统实验_西北工业大学语音关键词检出技术上线腾讯信息服务...

    通过产学研合作项目和腾讯犀牛鸟精英人才培养计划,西北工业大学计算机学院智能语音方向谢磊教授团队与腾讯合作的基于QBE的语音关键词检出技术近日成功上线腾讯信息服务.这也是继去年该团队语音识别后处理技术成 ...

  6. 用MindStudio完成基于CTC算法的语音热词唤醒

    Bilibili视频链接: 使用MindStudio完成基于CTC算法的语音热词唤醒_哔哩哔哩_bilibili 一. MindStudio 介绍与安装 相关课程:昇腾全流程开发工具链(MindStu ...

  7. 语音识别中唤醒技术调研

    上篇博客(语音识别传统方法(GMM+HMM+NGRAM)概述)说到我们team要做语音识别相关的项目,而我们公司的芯片是用在终端上的,即我们要做终端上的语音识别.由于目前终端(如手机)上的CPU还不足 ...

  8. TTS技术简单介绍和Ekho(余音)TTS的安装与编程

    TTS技术简单介绍和Ekho(余音)TTS的安装与编程 zouxy09@qq.com http://blog.csdn.net/zouxy09 一.TTS技术简单介绍: TTS技术,TTS是Text ...

  9. 盲人方便的使用计算机输入文字,中文信息学报盲人用计算机软件系统中的语音和自然语言处理技术Ξ.PDF...

    中文信息学报盲人用计算机软件系统中的语音和自然语言处理技术Ξ 中 文 信 息 学 报 第 18 卷 第 4 期 JOURNAL OF CHINESE INFORMATION PROCESSING Vo ...

最新文章

  1. iOS autolayout 约束冲突添加symbol breakpoint
  2. c++代码小游戏_用Python编写一个打乒乓球小游戏
  3. python中文件路径格式_Python应用-临床路径格式转换
  4. 使用CmakeLists应该知道的一些知识
  5. Nginx- 实现跨域访问
  6. Python中文乱码
  7. ie6-7中会出现图片下有空隙
  8. java模拟洗衣机程序,JAVA洗衣机仿真程序实验报告及代码
  9. Ubuntu 设置 samba共享文件夹
  10. Ubuntu 重置用户密码
  11. obd协议 混动车_OBD完整协议
  12. cairo填充_Cairo图形指南
  13. 2014 年最热门的国人开发开源软件 TOP 100 - 开源中国社区
  14. WIN10-IE首页劫持后通过Internet选项更改首页无效问题
  15. mysql中sql_mode的那些问题
  16. 什么是XXE漏洞,XXE漏洞的原理
  17. ibm电脑服务器郑州维修,郑州IBM ThinkPad笔记本芯片级维修中心
  18. Verilog设计(二):分频电路设计
  19. 各个JDK版本的新特性
  20. 人工智能及其应用——第二章学习笔记(上)

热门文章

  1. android投影到创维电视,创维电视怎么投屏?图文讲解安卓和苹果手机投屏到创维电视方法...
  2. 中国移动国际mCloud如何助力企业乘风破浪?
  3. 如何利用MATLAB调用手机摄像头(手把手教程)
  4. VMware Workstation 虚拟机安装windows 10 系统步骤
  5. 抽象代数 04.01 群的生成元组
  6. 计算机视觉笔记及资料整理(含图像分割、目标检测小方向学习)
  7. 【百练】护林员盖房子
  8. vmbox主机和虚拟机无法共通网络服务 主机无法使用虚拟机的网络服务 虚拟机无法使用主机的网络服务
  9. github官网打开速度很慢的解决办法
  10. 创建一个闪亮的应用程序以使用rtweet和R搜索Twitter