小米AI实验室4篇论文入选语音技术顶会INTERSPEECH 2022

滴滴——重磅消息新鲜出炉！！

全球语音领域顶级会议 INTERSPEECH 2022公布了论文入选名单，小米 AI 实验室4篇论文被接收。INTERSPEECH 是由国际语音通信协会ISCA组织的语音领域的顶级会议之一，也是全球最大的综合性语音领域的科技盛会，在业内享有极高的声誉，对参与企业和单位有着严苛的准入门槛要求。

高手云集的技术宴，小米工程师究竟在语音、声学技术领域显露哪些高招？论文亮点，都在这里！

▍《UniKW-AT: Unified Keyword Spotting and Audio Tagging》

《UniKw-AT：统一的唤醒和环境识别》

作者：Dinkel H*，王永庆*，闫志勇*，张俊博，王育军

目前市场上所使用的绝大多数智能助手是通过唤醒被激活。唤醒识别是在语音行业里一个比较重要的服务。而除了唤醒以外，最近也有其他服务对使用者有所帮助，这种服务是“环境识别”，专门给有听力障碍的人群提供环境声音识别的服务。但目前为止，它们依然是独立存在的服务，即唤醒模型和环境识别模型。而在这一篇论文中，介绍了一个能够统一两个任务/服务的新方法。

这个新方法的优点具体有以下几点：

唤醒模型能理解环境，提升唤醒模型的鲁棒性*；
模型小和推理时间短，适合在设备端运行；
降低误唤醒率，特别在复杂唤醒下，如：有音乐环境音、嘈杂声等；
唤醒时模型也可以提供环境信息，如：小爱同学＋下雨声，或小爱同学+孩童声，即唤醒时可分辨出此刻发出声音的唤醒人是儿童。

鲁棒性*：Robust的音译，也就是健壮和强壮的意思。它也是在异常和危险情况下系统生存的能力。比如说，计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下，能否不死机、不崩溃，就是该软件的鲁棒性。

▍《Exploring Representation Learning for Small-Footprint Keyword Spotting》

《基于表征学习的语音唤醒》

作者：崔凡，郭理勇，王全东，高鹏，王育军

这篇论文针对数据和计算资源受限的语音唤醒任务，设计了一种结合预训练模型和对比学习的轻量级语音唤醒方法。首先，WVC(Wav2Vec constraint module)模块利用Wav2Vec预训练模型约束唤醒模型学习帧级别的通用特征表示；其次，LGCSiam(Local-global contrastive siamese networks) 模块提出了一种对偶自学习结构进行句级别的表征学习。

结合以上方法，大量非同源无标签数据可被用于唤醒模型训练，进而提升唤醒模型的效果。实验证明，利用同源无标注或非同源数据进行表征学习，都能极大的提升数据受限情况下的语音唤醒效果。

此研究的主要优势是，基于预训练模型的约束模块和局部与全局对偶学习模块来进行表征学习，能够提升资源受限的语音唤醒任务能力（这里的资源受限主要是指训练数据有限和设备计算资源有限）。因为获取同源有标注的训练数据成本较高，此方法可以利用预训练模型，在训练数据资源有限的情况下，提升模型的泛化性；对于设备计算资源有限的情况，可以利用teacher-student训练提升模型的表达能力。

▍《BIT-MI System to Non-intrusive Speech Quality Assessment Challenge in Online Conferencing Applications》

《针对在线会议的无参考语音质量评估系统》

作者：刘淼，王晶，徐亮，张戬骞，李世聪，相非

语音质量是通信业务的核心体验，对语音的在线质量监测一直以来都是行业难题之一。在本文中，研究者们结合传统信号处理与听觉主观感知机制，提出了一种新的基于深度学习神经网络，适用于线上业务的实时无参考语音通话质量评估的方法，以此对实时语音通信进行质量评价。

经测试验证，此算法与语音质量评测方法的标准基线系统相比在各项指标上都有明显提升。其主要应用场景针对如今需求日益增长的线上会议场景，能够在实时通信交互的同时对于线上通信语音质量进行实时评估，以期改善语音通信的质量。

本文中实时无参考语音通话质量评估方法的优势如下：

相较于传统的有参考质量评估方法，本算法中采用的无参考方法能够更好地降低运算时延与模型开销，提供更适用于线上会议交互任务需求的应用方案；
在主要应用场景（线上会议场景）之外，其算法在其他的应用场景上具有较好的泛化性能，对于日常通话，视频聊天，在线直播等多种场景中均有较好的适用性；
其线上实时运算的特性支持这项技术能够轻量级部署在各种移动终端与智慧互联终端上，例如车载网络、智能家居、可穿戴设备等，通过其低时延的语音质量监测业务提升通话质量与用户体验。

现阶段此项目主要应用于接收端的下行质量评估，后续研发过程当中，此项目的应用场景将得到进一步扩展，有望应用于上行质量评价当中。

▍《Pruned RNN-T for Fast, Memory-Efficient ASR Training》

《Pruned RNN-T：更快更省内存的训练》

作者 : 匡方军，郭理勇，康魏，林珑，罗明双，姚增伟，Daniel Povey

RNN-T是语音识别中最流行的模型之一，因其天然地支持实时识别而得到广大研究者的青睐。然而，常规RNN-T损失函数的计算既慢又耗内存，这极大影响了此类模型的实用性。研究者们在本论文中提出的Pruned RNN-T损失函数可有效解决这个问题。

Pruned RNN-T的基本思想是，只计算联合网络（Joiner）中那些对最终损失函数有显著贡献的（t，u）点对。为此团队进行了两次损失函数的计算，如图2所示，第一次计算基于一个可快速计算的“平凡”联合网络，研究者们利用它的输出可求得哪些（t, u)点对是有重要贡献的，然后，在这些重要点对上做第二次运算，得到最终的Pruned RNN-T损失函数。在整个过程中，不需要分配像（N，T，U，V）这样大的四维矩阵，从而实现提速和减少内存的目的。

图1. RNN-T和Pruned RNN-T Lattice对比

图2. Pruned RNN-T损失函数计算流程图

经过研究者们评测，发现与Pytorch中的RNN-T损失函数相比，Pruned RNN-T损失函数在只使用其五分之一内存的情况下，获得了约15倍的计算速度提升。在实际的语音识别模型训练中（conformer-transducer模型），与Pytorch RNN-T损失函数相比，使用Pruned RNN-T损失函数依然能将训练速度提升1倍。这极大地降低了RNN-T模型的训练时间，增加了RNN-T模型的实用性。

▍在探索中超越，小米离用户更近的语音、声学技术是什么？

近年来，小米在语音、声学技术上的积累日渐成熟，并逐渐落地在小米的产品中。

从2017年到2022年，“小爱同学”已经从语音助手逐步升级为智能生活助手，小米工程师所关注的也不止于用户所提出的需求，更有用户的潜在所需与具体情境。那么，一个贴近用户生活、尊重用户情感的“小爱”究竟内含何种技术力量呢？

从语音技术的角度来看，小米工程师倾力于打磨小爱同学的“耳朵”和“嘴巴”，让它能听会说。使用自研的多麦克风“端到端”语音处理，多模态拾音，情绪感知，环境音感知，让小爱同学能听得更远更清晰；自研的语音唤醒技术实现了手机端语音误唤醒率低至0.49%。在对语音技术不断深耕的过程中，我们不仅首发了手机声音复刻、超级拟人语音生成技术，让小爱同学说出更自然流利富有情感的话语；还首发了歌声定制技术，让用户只需要使用20句话，就可以用自己或者自己亲人的声音合成歌曲。在这些技术的强大支撑下，小爱同学接连上线了家庭传声、声纹识别、跨设备控制、AI通话、AI读屏以及超级拟人音色等功能。

此外，在声学技术层面，我们开展了通话降噪、声场控制、智能感知、音频处理、声学测量等五个方向的研究工作，为小米手机及IoT全生态硬件产品提供了智能声学基础算法支撑，打造业界领先的音频体验。例如，强风噪音抑制技术，实现了耳机用户在复杂声音环境中的清晰通话，而协同唤醒的智能多设备应答，更是规避了“一呼百应”的问题。目前，AI通话降噪、自适应主动降噪、协同唤醒、空间音频、协同放音、扬声器均衡等算法达到行业领先水平，已应用于小米手机、电视、小爱、耳机、音箱、IoT等60余款产品，广受用户好评。

小米产品功能的不断提升源自于小米工程师对人文关怀的追求，小爱同学不仅是机器，更是能陪伴大家的伙伴。未来，小米也将持续守护每一个用户的生活，以更智能的技术创造更加贴心的语音体验，聆听情绪，服务需求。

END