Lyra：一种用于语音压缩的新型极低比特率编解码器

视频介绍：Lyra：一种用于语音压缩的新型极低比特率编解码器

通过语音和视频通话与其他人在线联系越来越成为日常生活的一部分。实时通信框架（如WebRTC）使这成为可能取决于有效的压缩技术、编解码器，以编码（或解码）信号以进行传输或存储。几十年来，编解码器是媒体应用程序的重要组成部分，它允许需要带宽的应用程序有效地传输数据，并导致人们对随时随地进行高质量通信的期望。

因此，开发视频和音频编解码器的持续挑战是提供更高的质量、使用更少的数据并最大限度地减少实时通信的延迟。尽管视频似乎比音频更需要带宽，但现代视频编解码器可以达到比当今使用的某些高质量语音编解码器更低的比特率。即使在低带宽网络中，结合低比特率视频和语音编解码器也可以提供高质量的视频通话体验。然而，从历史上看，音频编解码器的比特率越低，语音信号就越难以理解，越机器人化。此外，虽然有些人可以访问一致的高质量、高速网络，但这种连接水平并不普遍，即使是连接良好的地区的人有时也会遇到质量差、带宽低、

为了解决这个问题，我们创建了Lyra，这是一种高质量、极低比特率的语音编解码器，即使在最慢的网络上也可以进行语音通信。为此，我们应用了传统的编解码器技术，同时利用机器学习 (ML) 的进步和在数千小时数据上训练的模型来创建压缩和传输语音信号的新方法。

Lyra 概述
Lyra 编解码器的基本架构非常简单。每 40 毫秒从语音中提取一次特征或独特的语音属性，然后进行压缩以进行传输。特征本身是log mel 频谱图，这是一个数字列表，代表不同频段中的语音能量，传统上用于它们的感知相关性，因为它们是根据人类听觉响应建模的。另一方面，生成模型使用这些特征来重新创建语音信号。从这个意义上说，Lyra 与其他传统的参数编解码器非常相似，例如MELP。

然而，传统的参数编解码器只是从语音关键参数中提取，然后可用于在接收端重建信号，实现低比特率，但通常听起来很机械和不自然。这些缺点导致了新一代高质量音频生成模型的开发，这些模型不仅能够区分信号，还能够生成全新的信号，从而彻底改变了该领域。DeepMind 的WaveNet是这些生成模型中的第一个，为许多生成模型铺平了道路。此外，目前 Duo 中使用的基于生成模型的丢包隐藏系统WaveNetEQ展示了该技术如何用于现实场景。

使用 Lyra 进行压缩的新方法
使用这些模型作为基准，我们开发了一种能够使用最少数据重建语音的新模型。Lyra 利用这些听起来自然的新生成模型的强大功能，在保持参数编解码器的低比特率的同时实现高质量，与当今大多数流媒体和通信平台中使用的最先进波形编解码器相当。波形编解码器的缺点是它们通过逐个样本压缩和发送信号来实现这种高质量，这需要更高的比特率，并且在大多数情况下不需要实现自然的语音。

生成模型的一个问题是它们的计算复杂性。Lyra 通过使用更便宜的循环生成模型（WaveRNN变体）避免了这个问题，该模型以较低的速率工作，但会并行生成不同频率范围内的多个信号，然后以所需的采样率将这些信号组合成单个输出信号。这个技巧让 Lyra 不仅可以在云服务器上运行，还可以在中端手机的设备上实时运行（处理延迟为 90ms，与其他传统语音编解码器一致）。然后，该生成模型在数千小时的语音数据上进行训练并进行优化，类似于 WaveNet，以准确地重新创建输入音频。

与现有编解码器的比较
自 Lyra 成立以来，我们的使命一直是使用替代品比特率数据的一小部分来提供最佳质量的音频。目前，免版税的开源编解码器Opus是基于 WebRTC 的VOIP应用程序使用最广泛的编解码器，并且具有 32kbps 的音频，通常可以获得透明的语音质量，即与原始语音无法区分。然而，虽然 Opus 可以在低至 6kbps 的更多带宽受限环境中使用，但它开始表现出音频质量下降。其他编解码器能够以与 Lyra 相当的比特率运行（Speex、 MELP 、AMR），但每个编解码器都会增加伪影并导致机器人发声。

Lyra 目前设计为以 3kbps 运行，聆听测试表明，Lyra 在该比特率下的性能优于任何其他编解码器，并且在 8kbps 时与 Opus 相比具有优势，因此带宽减少了 60% 以上。Lyra 可用于带宽条件不足以满足较高比特率且现有低比特率编解码器无法提供足够质量的地方。

确保公平性
与任何基于机器学习的系统一样，模型必须经过训练以确保它适用于所有人。我们已经使用开源音频库对 Lyra 进行了数千小时的音频训练，并使用 70 多种语言的扬声器，然后与专家和众包听众一起验证音频质量。Lyra 的设计目标之一是确保普遍可访问的高质量音频体验。Lyra 在广泛的数据集上进行训练，包括使用多种语言的说话者，以确保编解码器对它可能遇到的任何情况都具有鲁棒性。

社会影响和我们的
未来像 Lyra 这样的技术的影响是深远的，无论是从短期还是长期来看。借助 Lyra，新兴市场的数十亿用户可以使用高效的低比特率编解码器，从而获得比以往更高质量的音频。此外，Lyra 可用于云环境，使具有各种网络和设备功能的用户能够相互无缝聊天。将 Lyra 与新的视频压缩技术（如AV1）配对，即使用户通过 56kbps 拨号调制解调器连接到互联网，也可以进行视频聊天。

Duo已经使用 ML 来减少音频中断，并且目前正在推出 Lyra 以提高极低带宽连接上的音频通话质量和可靠性。我们将继续优化 Lyra 的性能和质量，以确保该技术的最大可用性，并研究通过 GPU 和 TPU 实现的加速。我们也开始研究这些技术如何导致低比特率的通用音频编解码器（即音乐和其他非语音用例）。

更新说明：优先更新微信公众号“雨夜的博客”，后更新博客，之后才会陆续分发到各个平台，如果先提前了解更多，请关注微信公众号“雨夜的博客”。

博客来源：雨夜的博客

Lyra：一种用于语音压缩的新型极低比特率编解码器相关推荐

翻译: Transformer一种用于语言理解的新型神经网络架构 Google AI
神经网络,尤其是循环神经网络(RNN),现在是语言理解任务(如语言建模.机器翻译和问答)的主要方法的核心.在" Attention Is All You Need "中,我们介 ...
论文浅尝 | 用于学习知识图谱嵌入的一种基于注意力机制的新型异构 GNN 框架HRAN...
笔记整理 | 李爽,天津大学链接:http://hfbix45521e79b0484907sowxo0fubpp9b6xwx.fiiz.eds.tju.edu.cn/stamp/stamp.jsp? ...
AIDATANG_1505ZH：一种用于深度学习的大规模汉语语音语料库
AIDATANG_1505ZH:一种用于深度学习的大规模汉语语音语料库文章来源:数据堂网址:https://www.datatang.com/ 前言: 近年来,深度学习在语音识别领域取得了突破性进 ...
计算机网络语音传输杂音回音,一种用于消除网络声音传输的回音和啸叫的系统和方法与流程...
本发明涉及音频处理领域,尤其涉及一种用于消除网络声音传输的回音和啸叫的方法,还涉及一种用于消除网络声音传输的回音和啸叫的系统. 背景技术: 目前,在会议系统或大型演出等场景内,演讲者的音频信息通过麦克 ...
ConvLSTM：一种用于降水预报的机器学习方法
ConvLSTM:一种用于降水预报的机器学习方法论文 Convolutional LSTM Network: A Machine Learning Approach for Precipitatio ...
三星电子推出X-net架构用于语音通话
X-net 影音探索 #003 作者 | Teresa 近日,三星电子推出X-net,这是一种联合学习的Scale-down和Scale-up架构,用于语音编码中的预处理和后处理,作为在带宽受限的语音 ...
cfar恒虚警matlab实现,一种用于距离副瓣抑制的自适应恒虚警方法与流程
本发明涉及脉冲压缩雷达数字信号处理技术领域. 背景技术: 在传统的真空管体制雷达中,由于发射占空比受限,通过设计较低的雷达重复发射频率实现远距离的目标探测,但由于发射的是简单的脉冲调制波形,重复频率降 ...
用于语音情绪识别的基于对抗学习的说话人无关的表示
1. 用于语音情绪识别的基于对抗学习的说话人无关的表示尝试解决的问题: 在语音情绪识别任务中,会面临到要测试的说话人未出现在训练集中的这个问题,本文尝试运用TDNN+LSTM作为特征提取部分,再通过 ...
论文阅读-2022.1.2-A Neural Network Approach for_2016_一种用于知识驱动响应生成的神经网络方法
摘要 We present a novel response generation system.我们提出了一种新颖的响应生成系统. The system assumes the hypothesis ...
几种贴图压缩方式详解
文章大部分摘自:http://kirenenko-tw.blogspot.com/2013/06/opengltexture-compression.html 一.前言游戏场景里,贴图是影响真实性的 ...

Lyra：一种用于语音压缩的新型极低比特率编解码器

Lyra：一种用于语音压缩的新型极低比特率编解码器相关推荐

最新文章

热门文章