使用VoiceFliter-Lite改进设备上的语音识别

正文字数：1896 阅读时长：2分钟

语音辅助技术使用户能够使用语音命令与他们的设备进行交互，并且依靠准确的语音识别来确保对特定用户的响应。但是在许多实际的使用案例中，这类技术的输入一般由重叠的语音组成，这给许多语音识别算法带来了巨大的挑战。

作者 / Wang Quan

原文链接 / https://ai.googleblog.com/2020/11/improving-on-device-speech-recognition.html

2018年，我们推出了VoiceFilter系统，该系统利用了谷歌的Voice Match，通过允许用户注册和登记自己的语音，实现与辅助技术的个性化交互。

https://www.youtube.com/watch?v=TSd080akKUY&feature=youtu.be

虽然VoiceFiltr的方法很成功，并且实现了比传统方法更好的信噪比（SDR），但高效的设备上流媒体语音识别需要解决模型大小、CPU、内存限制和电池使用注意事项和延迟最小化等的限制。

在“Voice Filter-lite方面：针对面向设备上语音识别的流媒体目标语音分离”中，我们推出了针对设备上使用的Voice Filter的更新，该更新可以通过利用选定发言人的注册语音来达到显著提高和改善重叠语音的语音识别。重要的是，该模型可以很容易地与现有的设备语音识别应用程序集成，允许用户在极其嘈杂的条件下访问语音辅助功能，即使互联网连接不可用。我们的实验表明，一个2.2MB的voice filer-lite模型在重叠语音上可以使误词率(WER) 改善25.1% 。

https://www.youtube.com/watch?v=kOqYEWLuAZQ&feature=youtu.be

改进设备上的语音识别

虽然最初的VoiceFilter系统非常成功地将目标发言人的语音信号从其他重叠的信号源中分离出来，但它的模型大小、计算成本和延迟，对于移动设备上的语音识别是不可行的。

新的Voice Filter-Lite系统经过精心设计，与设备上的应用程序相适应。Voice Filter-Lite不需要处理音频波形，而是采用与语音识别模型完全相同的输入特征功能(stacked log Mel-filterbanks堆叠的对数Mel滤波器组) ，并通过实时过滤掉不属于目标说话者的组成部分来直接增强这些特征。加上对网络拓扑的多项优化，运行时操作的数量大大减少。在使用Tensor Flow Lite库对神经网络进行量化后，模型大小只有2.2MB，适合大多数设备上的应用程序。

为了训练Voice Filter-Lite模型，将带噪声语音的滤波器组与代表目标发言人身份的嵌入向量(i.e.ad-vector d矢量)一起被输进网络。该网络预测了一个掩码，将其与输入逐元素相乘，从而产生增强的过滤库。在训练过程中，我们定义了一个损失函数来最小化增强滤波器组和干净语音的滤波器组之间的差异。

Voice Fliter-Lite系统的模型架构

Voice Filter-Lite是一种即插即用的模型，它允许实如果说话者没有登记他们的声音，那么实现它的应用程序可以轻松地绕过它。这也意味着语音识别模型和Voice Filer-Lite模型可以分别进行训练和更新，这在很大程度上降低了部署过程中的工程复杂性。

作为即插即用模型，如果发言人没有注册他们的声音，Voice Fliter-Lite可以很轻易地被忽略。

应对过度抑制的挑战

当使用语音分离模型来改进语音识别时，可能会出现两种类型的错误：抑制不足，即模型无法滤除信号中的噪声成分；以及过度抑制，当模型不能保留有用的信号时，导致一些单词从识别的文本中丢失。过度抑制问题尤其严重，因为现代语音识别模型通常已经使用大量的增强数据(如房间模拟和SpecAugment) 进行训练，因此对抑制不足更有鲁棒性。

Voice Filter-Lite通过两种新方法解决了过度抑制的问题。首先，它在训练过程中使用了非对称性损失，使得模型对过度抑制的容忍度低于抑制不足的。其次，它对运行时的噪声类型进行预测，并根据预测结果自适应地调整抑制强度。

当检测重叠语音时，Voice Filter-Lite自适应地应用更强的抑制强度。

通过这两种解决方案，Voice Filter-Lite模型在其他场景(如安静或各种噪声条件下的单扬声器语音)的流媒体语音识别方面保持了出色的性能，同时在重叠语音方面仍然提供了显著的改进。从我们的实验中，我们观察到将2.2MB Voice Filter-Lite模型应用于附加性重叠语音后，单词错误率改善了25.1%。对于混响重叠语音，模拟远场设备(如智能家庭扬声器)是一项更具挑战性的任务，我们还观察到使用Voice Filter-Lite可以改善14.7%的单词错误率。

未来的工作

虽然Voice-Filter Lite在各种设备语音应用程序中显示出了巨大的潜力，但我们也在探索其他几个方向，以使Voice-Filter Lite更有用。首先，我们目前的模型只用英语语音进行训练和评估。我们很高兴能够采用同样的技术来改进更多语言的语音识别。其次，我们想在训练Voice Filter-Lite的过程中直接优化语音识别损失，这可能会进一步提高语音识别，而不仅仅是重叠语音。

感谢

本文所描述的研究代表了谷歌中多个团队的共同努力。贡献者包括Quan Wang, Ignacio Lopez Moreno, Mert Saglam, Kevin Wilson, Alan Chiao, Renjie Liu, Yanzhang He, Wei Li, Jason Pelecanos, Philip Chao, Sinan Akay, John Han, Stephen Wu, Hannah Muckenhirn, Ye Jia, Zelin Wu, Yiteng Huang, Marily Nika, Jaclyn Konzelmann, Nino Tasca, and Alexander Gruenstein.Share on Twitter Share on Facebook在Twitter上的分享，在Facebook上的分享。

LiveVideoStackCon 2020 SFO（线上峰会）日程发布

无需漂洋过海，我们在线上等您！

LiveVideoStackCon 2020 美国旧金山站

北京时间：2020年12月11日-12月13日

点击【阅读原文】了解更多日程信息

使用VoiceFliter-Lite改进设备上的语音识别相关推荐

lms自适应滤波器实现噪声干扰的语音恢复_使用VoiceFliter-Lite改进设备上的语音识别...
作者 / Wang Quan 原文链接 / https://ai.googleblog.com/2020/11/improving-on-device-speech-recognition.html ...
使用 TFLite 在移动设备上优化与部署风格转化模型
文 / Khanh LeViet 和 Luiz Gustavo Martins,技术推广工程师风格转化 (Style Transfer) 是一种优化技术,用于采集两张图像,一张内容图像(如建筑物), ...
TensorFlow Lite：TensorFlow在移动设备与嵌入式设备上的轻量级跨平台解决方案 | Google 开发者大会 2018...
Google 开发者大会 (Google Developer Days,简称 GDD) 是展示 Google 最新开发者产品和平台的全球盛会,旨在帮助你快速开发优质应用,发展和留住活跃用户群,充分利用 ...
边缘AI新方法TinyML，超低功耗，存储占用KB计，在边缘设备上进行机器学习
点击上方"迈微AI研习社",选择"星标★"公众号重磅干货,第一时间送达选自:towardsdatascience 人工智能 AI 正在加快速度从云端走向边缘 ...
【论文】AMC:AutoML用于移动设备上的模型压缩和加速
摘要模型压缩是在计算资源有限且功率预算紧张的移动设备上高效部署神经网络模型的有效技术.传统的模型压缩技术依赖于手工制作的特性,需要领域专家在模型大小.速度和精度之间进行权衡,以探索大的设计空间,这通 ...
【读点论文】PP-PicoDet: A Better Real-Time Object Detector on Mobile Devices，一种可在边缘设备上部署的深度学习目标检测
PP-PicoDet: A Better Real-Time Object Detector on Mobile Devices https://github.com/ChanChiChoi/awes ...
【Paper Reading】MCUNet：物联网设备上的微型深度学习
MCUNet: Tiny Deep Learning on IoT Devices 本文纯翻译,原文见:https://arxiv.org/abs/2007.10319 目录 MCUNet: Tiny ...
干货 | 如何使用 CNN 推理机在 IoT 设备上实现深度学习
作者 | 唐洁责编 | 何永灿通过深度学习技术,物联网(IoT)设备能够得以解析非结构化的多媒体数据,智能地响应用户和环境事件,但是却伴随着苛刻的性能和功耗要求.本文作者探讨了两种方式以便将深度学 ...
如何用TensorFlow在安卓设备上实现深度学习推断
在 Insight 任职期间,我用 TensorFlow 在安卓上部署了一个预训练的 WaveNet 模型.我的目标是探索将深度学习模型部署到设备上并使之工作的工程挑战!这篇文章简要介绍了如何用 Te ...

使用VoiceFliter-Lite改进设备上的语音识别

使用VoiceFliter-Lite改进设备上的语音识别相关推荐

最新文章

热门文章