I. Speech Codecs

语音编码的目的是在保持语音质量的前提下尽可能地减少传输所用的带宽,主要是利用人的发声过程中存在的冗余度和人的听觉特性达到压缩的目的。经过了多年的发展,目前语音编解码器大致可以分为以下几类:

  1. 波形编码,将时域波形经过采样量化编码,常见的就是PCM编码格式

  1. 参数编码,根据人的发声机制建立数学模型,然后对语音进行压缩,常见的是LPC-10

  1. 混合编码,结合波形编码和参数编码的压缩方式,常见的AMR等

  1. 深度学习编码,利用神经网络将语音编码成隐向量,然后利用神经网络将其恢复成语音信息,微软的Satin以及今天要介绍的Lyra就是其代表

虽然目前很多领域仍是直接把PCM封装成IP包进行传输,但是在带宽限制的领域,如VoIP语音会议,语音编解码是较为关键的技术之一。

II. Lyra

Lyra去年就已经在Github上开源了,并且同时支持Linux和Android系统。当时年轻的我使用VM创建了一个Ubuntu的虚拟机,许多个夜晚睡觉前敲下编译命令:

bazelbuild-copt:encoder_main

第二天兴冲冲地醒来却发现虚拟机已经卡死。如今我吸取了以前的教训,首先我升级了硬件,给我的暗影精灵增加了4G的内存条,然后我抛弃了VM转投双系统的怀抱,关于如何装双系统可以参考我的博客。本以为天时地利人和皆在我,但还是由于一些环境和网络问题花了很多精力才编译成功,如果你不想自己编译的话,本文末尾有对应链接。如果你想自行编译的话,这里给你一些我踩过的坑:1)删除WORKSPACE中关于Android SDK和NDK的repo;2)科学上网采用全局模式。

废话不多说了,我们直接进入正题。目前常用的编解码器Opus是一种混合编解码器,对于窄带语音信号使用SILK进行编码,对于宽带和超宽带使用CELT编码。

而Lyra的整体流程如下所示:

可以看出Lyra整体流程非常简单,在编码过程中,Lyra每40ms提取一次特征,所使用的特征是160维的log melspectrum,然后将它们量化到3kbps;在解码过程中,则使用生成模型将量化后的特征重构语音信号,如果读者对语音合成或者语音转换等任务有所了解的话,那么对解码部分应该不会感到陌生。可惜的是Google只开源了应用,没有开源如何训练这个模型,因此具体的网络结构也不得而知,只能从部分代码中窥探一二。

III. Experiment

下面我们看下Lyra编解码的效果,原始音频如下所示,可以看到原始音频音量比较小,并且能量大多集中在5K以下,该样本PCM格式文件大小的为236KB。

Lyra编码后的文件大小为2.77KB,解码后的音频如下所示,可以看到Lyra一些原始音频中的频率成分没有正确的重构,但同时一些背景噪声也被抑制干净。

从频响曲线中看得更明显:

Lyra中高频部分明显低于原始音频,但是低频部分保留的较为完整,这就可以满足听得懂这个最低的要求。但是由于高频的缺失会导致,听起来声音很闷,不够明亮。由于本人精力有限,没有办法进行较为详细的评测,读者要是有兴趣可以自行实验。

IV. Conclusion

总的来说,对于一个实用的语音编解码应该满足两个部分:

  • 合理的时间复杂度

  • 处理多种多样的语音输入

对于第一点可以通过轻量化模型的方法比如稀疏模型或者使用GRU的生成模型代替WaveNet这种计算量巨大的模型;对于第二点,可以使用频谱特征,并且在训练的过程设计损失函数对待噪声的样本进行一定程度的惩罚。

那么语音编解码的终极模式是什么样子的呢?


本文相关代码在公众号语音算法组菜单栏点击Code获取


参考文献:

[1]. https://ai.googleblog.com/2021/02/lyra-new-very-low-bitrate-codec-for.html

[2]. https://github.com/google/lyra

[3]. https://wenku.baidu.com/view/9be752ee5bf5f61fb7360b4c2e3f5727a5e92466.html

[4]. https://en.wikipedia.org/wiki/Category:Speech_codecs

[5]. On the information rate of speech communication

[6]. GENERATIVE SPEECH CODING WITH PREDICTIVE VARIANCE REGULARIZATION

突破压缩极限的AI语音编解码器相关推荐

  1. SoundStream VS Lyra: 谷歌今年新推出的两款AI音频编解码器有何不同?

    点击上方"LiveVideoStack"关注我们 作者 | Teresa.王晶 技术审校 | 王晶.王立众 SoundStream 影音探索 #001# 近日,谷歌又推出了一款基于 ...

  2. Azure AI的又一里程碑,Neural TTS新模型呈现真人般情感饱满的AI语音

    在人与人之间的对话中,即使是同样的字句,也会因为所处情景和情感的不同而表现出丰富的抑扬顿挫,而这种动态性恰恰是各种AI合成语音的"软肋".相比于人类讲话时丰富多变的语气,AI语音的 ...

  3. 美国AI语音大牛转投小米!因政治正确遭名校JHU开除,其后怒拒FB百万美元合同...

    乾明 李根 发自 凹非寺  量子位 报道 | 公众号 QbitAI 全球AI语音大牛,现在转投小米--只剩下正式官宣. Daniel Povey(简称Dan),英国人,剑桥大学博士,约翰·霍普金斯大学 ...

  4. 离线语音识别软件_从音乐识别软件起家,这家公司如何备战车载AI语音市场GGAI对话...

    加入高工智能汽车专业行业群(自动驾驶5群,车联网智能座舱3群,智能网联商用车2群),加微信:17157613659,出示名片,仅限智能网联汽车软硬件供应商及OEM厂商. 早在2016年,亚马逊推出的语 ...

  5. 全新 AI 语音芯片、双麦 AIoT 模组,科大讯飞硬核技术助力智能家电创新

    据艾瑞咨询的数据显示,2017 年中国智能家居市场规模为 3342.3 亿元,其中智能家电规模为2828.0亿元,占比87%.预计到 2020 年智能家电的市场规模将达到 5155.0 亿元. 智能家 ...

  6. 依图要修AI语音双学位,左手摸底考第一名成绩单,右手开放平台方案

    李根 发自 凹非寺  量子位 报道 | 公众号 QbitAI 依图,又展示出新前途. 这家以"图"起家的AI公司,现在宣布修个"语音"双学位,而且出场便是学霸的 ...

  7. 讯飞智能语音鼠标G50:AI语音、转写翻译、记录截图一键搞定!

    随着互联网的发展,智能鼠标已经成为我们生活和工作中不可或缺的组成部分.然而,鼠标滚轮异响.按键失灵.驱动难用.手感不合适等一系列问题仍时有发生,所以选择一款智能鼠标尤为重要,它不仅可以提高我们的工作效 ...

  8. AI语音电销自动机器人让电销更轻松更高效!

    AI语音电销机器人的到来,让电销更轻松更高效了,智能客服机器人外呼系统就是老板的超级员工,你还在犹豫什么?无论是从成本.时间.数据.还是跟进难度上都可以看出人工智能電話机器人的明显优势.       ...

  9. 用AI打破编解码器内卷,高通最新几篇顶会论文脑洞有点大

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 用AI搞视频编解码器,现在路子有点"野". 插帧.过拟合.语义感知.GAN--你想过这些"脑洞"或A ...

最新文章

  1. BEA Workshop Studio有什么用?
  2. 【Android 高性能音频】Oboe 音频流打开后 耳机 / 音箱 插拔事件处理 ( 设置 Oboe 音频设备 ID | setDeviceId 函数原型 | AudioStream 音频流 )
  3. 多核cpu应用场景_操作系统基础11-关于多核编程
  4. 你真的会玩SQL吗?简单的数据修改
  5. leetcode76:最小覆盖字串(滑动窗口)
  6. 李飞飞:为什么计算机视觉对机器人如此重要?
  7. jmeter强大的扩展插件!!
  8. [机器学习-原理篇]支持向量机(SVM)深入理解
  9. 再次遇到golang乱码问题,用simplifiedchinese解决
  10. [导入]DotText源码阅读(2)-工程、数据库表结构
  11. 关于mysql保存数据的时候报问题分析
  12. ABC三类地址、子网掩码及子网划分
  13. IMDB电影数据分析实践
  14. 【自动化办公】用python实现和女神聊天情话对白,聊天机器人
  15. 天啦噜!原来Android补间动画可以这么玩
  16. 基于Java(SSM)+MySQL的二手书籍交易系统【100010084】
  17. python开发PC端桌面应用
  18. 2020年计算机网络王道_2020年8种最大的网络安全威胁
  19. 常用计算机的外设有哪些,电脑外设设备有哪些 电脑外设产品什么品牌好
  20. Http请求状态码:905

热门文章

  1. RTK与网络RTK技术的发展现状
  2. 抖音商城小程序搭建的注意事项
  3. 机器人门禁控制盒怎么接线方法_机器人自助出入门禁的系统的制作方法
  4. 曲线积分与路径无关的四个等价命题
  5. FPGA学习书籍汇总【持续更新】
  6. dell服务器的raid磁盘管理器型号,Dell服务器PERC H310/H710/H810 RAID磁盘成员的在线管理和维护...
  7. Word控件Spire.Doc 【邮件合并】教程(五): 在 C# 中为组创建邮件合并
  8. cad 打开硬件加速卡_绝地求生:如何设置NVIDIA卡使游戏更加流畅高效!及N卡设置原理...
  9. 谱聚类算法入门教程(一)——Introduction
  10. http请求 响应返回