作者 / Wang Quan

原文链接 / https://ai.googleblog.com/2020/11/improving-on-device-speech-recognition.html

2018年,我们推出了VoiceFilter系统,该系统利用了谷歌的Voice Match,通过允许用户注册和登记自己的语音,实现与辅助技术的个性化交互。

https://www.youtube.com/watch?v=TSd080akKUY&feature=youtu.be

虽然VoiceFiltr的方法很成功,并且实现了比传统方法更好的信噪比(SDR),但高效的设备上流媒体语音识别需要解决模型大小、CPU、内存限制和电池使用注意事项和延迟最小化等的限制。

在“Voice Filter-lite方面:针对面向设备上语音识别的流媒体目标语音分离”中,我们推出了针对设备上使用的Voice Filter的更新,该更新可以通过利用选定发言人的注册语音来达到显著提高和改善重叠语音的语音识别。重要的是,该模型可以很容易地与现有的设备语音识别应用程序集成,允许用户在极其嘈杂的条件下访问语音辅助功能,即使互联网连接不可用。我们的实验表明,一个2.2MB的voice filer-lite模型在重叠语音上可以使误词率(WER) 改善25.1% 。

https://www.youtube.com/watch?v=kOqYEWLuAZQ&feature=youtu.be

改进设备上的语音识别

虽然最初的VoiceFilter系统非常成功地将目标发言人的语音信号从其他重叠的信号源中分离出来,但它的模型大小、计算成本和延迟,对于移动设备上的语音识别是不可行的。

新的Voice Filter-Lite系统经过精心设计,与设备上的应用程序相适应。Voice Filter-Lite不需要处理音频波形,而是采用与语音识别模型完全相同的输入特征功能(stacked log Mel-filterbanks堆叠的对数Mel滤波器组) , 并通过实时过滤掉不属于目标说话者的组成部分来直接增强这些特征。加上对网络拓扑的多项优化,运行时操作的数量大大减少。在使用Tensor Flow Lite库对神经网络进行量化后,模型大小只有2.2MB,适合大多数设备上的应用程序。

为了训练Voice Filter-Lite模型,将带噪声语音的滤波器组与代表目标发言人身份的嵌入向量(i.e.ad-vector d矢量)一起被输进网络。该网络预测了一个掩码,将其与输入逐元素相乘,从而产生增强的过滤库。在训练过程中,我们定义了一个损失函数来最小化增强滤波器组和干净语音的滤波器组之间的差异。

Voice Fliter-Lite系统的模型架构

Voice Filter-Lite是一种即插即用的模型,它允许实如果说话者没有登记他们的声音,那么实现它的应用程序可以轻松地绕过它。这也意味着语音识别模型和Voice Filer-Lite模型可以分别进行训练和更新,这在很大程度上降低了部署过程中的工程复杂性。

作为即插即用模型,如果发言人没有注册他们的声音,Voice Fliter-Lite可以很轻易地被忽略。

应对过度抑制的挑战

当使用语音分离模型来改进语音识别时,可能会出现两种类型的错误:抑制不足,即模型无法滤除信号中的噪声成分;以及过度抑制,当模型不能保留有用的信号时,导致一些单词从识别的文本中丢失。过度抑制问题尤其严重,因为现代语音识别模型通常已经使用大量的增强数据(如房间模拟和SpecAugment) 进行训练,因此对抑制不足更有鲁棒性。

Voice Filter-Lite通过两种新方法解决了过度抑制的问题。首先,它在训练过程中使用了非对称性损失,使得模型对过度抑制的容忍度低于抑制不足的。其次,它对运行时的噪声类型进行预测,并根据预测结果自适应地调整抑制强度。

当检测重叠语音时,Voice Filter-Lite自适应地应用更强的抑制强度。

通过这两种解决方案,Voice Filter-Lite模型在其他场景(如安静或各种噪声条件下的单扬声器语音)的流媒体语音识别方面保持了出色的性能,同时在重叠语音方面仍然提供了显著的改进。从我们的实验中,我们观察到将2.2MB Voice Filter-Lite模型应用于附加性重叠语音后,单词错误率改善了25.1%。对于混响重叠语音,模拟远场设备(如智能家庭扬声器)是一项更具挑战性的任务, 我们还观察到使用Voice Filter-Lite可以改善14.7%的单词错误率。

未来的工作

虽然Voice-Filter Lite在各种设备语音应用程序中显示出了巨大的潜力,但我们也在探索其他几个方向,以使Voice-Filter Lite更有用。首先,我们目前的模型只用英语语音进行训练和评估。我们很高兴能够采用同样的技术来改进更多语言的语音识别。其次,我们想在训练Voice Filter-Lite的过程中直接优化语音识别损失,这可能会进一步提高语音识别,而不仅仅是重叠语音。

感谢

本文所描述的研究代表了谷歌中多个团队的共同努力。贡献者包括Quan Wang, Ignacio Lopez Moreno, Mert Saglam, Kevin Wilson, Alan Chiao, Renjie Liu, Yanzhang He, Wei Li, Jason Pelecanos, Philip Chao, Sinan Akay, John Han, Stephen Wu, Hannah Muckenhirn, Ye Jia, Zelin Wu, Yiteng Huang, Marily Nika, Jaclyn Konzelmann, Nino Tasca, and Alexander Gruenstein.Share on Twitter Share on Facebook在Twitter上的分享,在Facebook上的分享。

lms自适应滤波器实现噪声干扰的语音恢复_使用VoiceFliter-Lite改进设备上的语音识别...相关推荐

  1. lms自适应滤波器实现噪声干扰的语音恢复_ZLG深度解析语音识别技术

    语音识别已成为人与机器通过自然语言交互重要方式之一,本文将从语音识别的原理以及语音识别算法的角度出发为大家介绍语音识别的方案及详细设计过程. 语言作为人类的一种基本交流方式,在数千年历史中得到持续传承 ...

  2. 基于LMS自适应滤波器的QPSK信号均衡器matlab仿真

    目录 1.算法概述 2.仿真效果 3.MATLAB仿真源码 1.算法概述 在自适应滤波器设计中,最小均方(Least Mean Square,LMS)算法使用随机梯度下降的方法实现代价函数的最小化,具 ...

  3. LMS自适应滤波器算法及其改进

    -- 年初DSP课程期末设计时为了答辩做的PPT,内容背的滚瓜烂熟,给老师留下了深刻的印象,想必整个系也没有第二个人像我这么上心了,因此最后决定把PPT放到博客上:此外因为不希望PPT上有太多字,所以 ...

  4. 基于Simulink的RBF神经网络的LMS自适应滤波器设计仿真

    目录 1.算法描述 2.仿真效果预览 3.MATLAB核心程序 4.完整MATLAB 1.算法描述 LMS(Least Mean Square), 由 Widrow 和 Hoff 于1960年提出,也 ...

  5. 语音ic,音乐芯片在电子医疗设备上的应用

    随着社会的发展和科学技术的不断进步,人们对医疗健康.生活质量.疾病护理等方面的要求越来越高.同时,依托于高新领域电子技术的各种治疗和监护手段越来越先进,而医疗设备的便携化.智能化,又对其语音芯片提出更 ...

  6. lms自适应滤波器matlab_自适应回声消除器简介

    本文介绍了一种基于最小均方(LMS)算法的基本声学回声消除器.声学回声消除器对于许多现代通信产品是必需的.我确定你曾经遇到过在电话讲话时听到声音的时候,对吗?嗯,这是声学回声的一个例子.声学回声是一个 ...

  7. 自适应滤波器在matlab仿真的程序_电气信息类专业课程之matlab系统仿真 第五章 BPSK通信系统(3)...

    继续讲解! 上一篇文章提出了那么多问题, 不知道大家是否能回答上来啊? 如果回答不了, 有没有去问问度娘呢? 程序写完了,回想了一下辅导2017届学生毕业设计的过程,那是真累.我要求他们在现有程序基础 ...

  8. 传统语音增强——最小均方(LMS)自适应滤波算法

    一.语音降噪的意义 语音降噪主要研究如何利用信号处理技术消除信号中的强噪声干扰,从而提高输出信噪比以提取出有用信号的技术.消除信号中噪声污染的通常方法是让受污染的信号通过一个能抑制噪声而让信号相对不变 ...

  9. 自适应滤波器更新算法-EP2

    文章目录 1.变步长 SC-MPNLMS 频域分块算法 1.1 算法原理 1.2 算法代码 1.3 算法优缺点 2.集成多种自适应滤波算法的回声消除器 1.1 算法原理 1.2 算法代码 1.3算法优 ...

最新文章

  1. 舒工给您娓娓道来:2019-nCoV,教室布局筛查追溯系统算法解密!
  2. Oracle11g新特性导致空表不能导出问题
  3. python数据挖掘试题四十道,你敢来挑战吗?
  4. python进阶书籍的推荐-Python 入门到进阶书籍推荐
  5. instanceof封装
  6. spring boot apollo demo
  7. P5357 【模板】AC自动机(二次加强版) fail树
  8. 修改maven打包名字
  9. mysql创建表时反引号的作用
  10. java 从excel中读取数据_java如何从excel中读出数据
  11. MySQL 查询缓存快速理解。。。(1分钟图解如何优化查询缓存)
  12. ToolTip特效 JavaScript 盗取厦门人才网的特效
  13. 边缘计算对于基础架构和运营领导者意味着什么
  14. iOS开发中的火星坐标系及各种坐标系转换算法
  15. 2022年MySQL8 OCP最新题库整理,传授有缘人
  16. 【Fusion】mosek.fusion基本模型
  17. chm 打不开 解决办法
  18. Ubuntu 18.04 安装驱动
  19. 扫一下这个神奇的二维码,Wifi不用输密码
  20. 用python做youtube自动化下载器 思路

热门文章

  1. 字符串数值的比较 java
  2. 代码款空题 包的使用
  3. django-模板语言
  4. linux-bash的基本-自动补全-快捷键-历史-命令的别名
  5. 浏览器推送 comet技术
  6. Spring Cloud Config Server
  7. 为你的网站加上SSL,可以使用HTTPS进行访问
  8. 让你变成优秀程序员的几个小习惯
  9. 非职业程序员的工具箱
  10. win8 任务栏不合并隐藏标题