点击上方“LiveVideoStack”关注我们

近期,谷歌推出了一款基于AI的音频编解码器——SoundStream。根据谷歌介绍,SoundStream是首个可以编码不同声音类型、同时提供高质量音频并能在智能手机CPU上实时运行的神经网络编解码器。今年早些时候,谷歌曾发布了一款名为Lyra的超低比特率音频压缩编解码器。一年之内,谷歌推出了两款基于AI的音频编解码器。这两款编解码器究竟有什么不同?谷歌为什么如此专注于低比特率的音频压缩?SoundStream是否将成为一款通用音频编解码器,还是只专注于特定领域?新版Lyra是否有可能替代Opus?

SoundStream

技术访谈

#004#

带着这些疑问,LiveVideoStack采访了负责SoundStream音频编解码器研发工作的高级产品经理Jamieson Brettle资深软件工程师Jan Skoglund

LiveVideoStack: Jamieson、Jan,你们好。恭喜谷歌在SoundStream上取得的成果。SoundStream的推出在音视频技术领域可谓是一则大新闻,中国音频领域的工程师们也在密切关注它的进展。为了让大家更深入地了解这款新型AI音频编解码器,我们准备了一些问题,请你们解答。

------

Q1:现在人们拥有越来越多的带宽,为什么谷歌还要专注于低比特率的音频压缩?

Jamieson&Jan: 虽然基础设施不断完善,但网络完全普及仍然需要时间。除此之外,用户和应用对带宽的需求意味着即使可用带宽不断增加,需求依然大于供给。所以,我们会极尽所能降低带宽消耗,从而提升整体用户体验。

Q2: 新推出的SoundStream和今年早些时候发布的神经网络音频编解码器Lyra最主要的区别是什么?

Jamieson&Jan: 第一版Lyra使用了一个基于WaveRNN的内置合成引擎,而SoundStream使用了一个类似于自动编码器的网络。SoundStream将成为新版本Lyra的核心技术。

Q3:为什么谷歌会开发两个AI编解码器——SoundStream和Lyra?谷歌对此的Roadmap能透露吗?SoundStream将如何整合到Lyra中?

Jamieson&Jan: 使用ML进行音频编码还处在初期阶段,随着该领域的研究不断增加,我们看到了AI编解码的迅速发展。通过正在进行的项目,我们能够快速将研究产品化,将最好的编解码器应用到实际应用中。Lyra 的未来版本将使用 SoundStream 作为底层引擎。这样一来,现在的开发人员依然可以继续使用相同的 Lyra API,但却能收获显著提升的性能。

Q4:从论文看,SoundStream无论是音质(在相同比特率下)还是对各类音频信号(语音、音乐、无噪音及有噪音)的鲁棒性,还是算法时延,还是计算复杂度都已经全面超越Lyra了。Lyra是否会被完全替代? 

Jamieson&Jan:我们看到SoundStream在音质、对噪音的鲁棒性及处理各类音频信号方面,有了长足的进步。作为新版本Lyra的核心技术,新的SoundStream引擎将取代第一版Lyra中的自回归引擎。

Q5:从论文实验结果看,12kbps的SoundStream性能似乎趋近于饱和了。Google是否认为AI音频编码只适用于低速率场景?中高速率下(如AAC典型速率)AI音频编码有超越传统编码的机会吗?

Jamieson&Jan: 我们认为AI编解码将使各种带宽和应用受益。我们现在正致力于在更高的比特率下改进基于神经网络的音频编码。

Q6:SoundStream在低速率下是否同时适用于语音、音乐以及混合信号的编解码?

Jamieson&Jan:  SoundStream并没有对声音类型进行分类,它能够同时处理不同的声音。

Q7:神经网络编解码器相比传统信号处理编解码器在复杂度上是否有明显优势? 

Jamieson&Jan: 到目前为止,在神经网络编解码器中,编码的复杂度较低,解码的复杂度较高,这通常导致它的整体复杂度比 Opus 等编解码器高得多。但随着时间的推移,我们认为:通过完善硬件支持和新的算法改进, 可以有多种途径提升神经网络编码效率。

Q8:SoundStream是否将成为一款通用音频编解码器,还是只专注于特定领域?

Jamieson&Jan: 初期的应用将可能会专注于实时通信,但未来SoundStream有望用于通用编码。

Q9: 既然SoundStream将会被整合进下一代、改进版本的Lyra中,那么这个新Lyra未来是否有可能替代Opus?

Jamieson&Jan: 至少在短期内,Opus和Lyra将会共存。事实上,我们的团队一直在继续研究并不断改进Opus。

Q10:在音频压缩领域,谷歌的下一步计划是什么?

Jamieson&Jan: 我们将继续使用ML和传统编码方法提升音频压缩效率,并在各类应用领域中不断探索。

翻译/编辑 | Alex

感谢王晶、王立众和王喆三位老师提供问题线索,并审校了本篇访谈。


扫描图中二维码或点击阅读原文

了解大会更多信息

喜欢我们的内容就点个“在看”吧!

对话谷歌技术专家:SoundStream未来有望用于通用音频编码相关推荐

  1. 科学家研发的新型可穿戴设备,未来有望用于智能假肢

    点击上面"脑机接口社区"关注我们 更多技术干货第一时间送达 在很多科幻电影中经常会出现以下炫酷的场景:无需键盘也能打字,无需控制器也可以玩电子游戏,无需方向盘也能驾驶汽车. 无方向 ...

  2. 技术专家预测未来25大颠覆性硬趋势

    文章讲的是技术专家预测未来25大颠覆性硬趋势,无论你身处哪个行业,你的公司都不能没有技术支持.从智能手机.平板电脑到移动应用和基于云计算的技术,有太多的先进技术不仅需要密切关注,我们还需要从中获益.为 ...

  3. 【MCTalk Live】网易对话谷歌:如何成为一个顶50个的A+++++程序员

    MCTalk Live首秀 ---------- 从"互联网时代"到"移动互联网",互联网给时代带来全新的产业生产模式以及理念,而当下,我们站在"人工 ...

  4. [转]QNX与Linux OS比较优劣-QNX与Linux两家未来有望独霸车载电子操作系统

    image.png 声明:本文只用于个人学习交流,若不慎造成侵权,请及时联系我,立即予以改正 车载操作系统 车载电子操作系统是汽车智能化的核心,能够有效分配车机的硬件资源,对车内各种任务功能进行协同管 ...

  5. 声学测试软件手机版_清华31岁教授将手机天线尺寸缩小100倍,未来有望植入人体|专访...

    你知道智能手机也有天线吗? 1887 年,年仅 29 岁的德国人赫兹率先发现电磁波的存在,为人类利用电磁波进行通信创造了条件.如今,我们使用的智能手机便是借助无线电进行远距离信息传输,而天线则是发射和 ...

  6. 用于通用前向纠错的 RTP 有效载荷格式 (RFC-5109)

    RFC文档链接 本备忘录的状态 本文档为 Internet 社区指定了 Internet 标准跟踪协议,并请求讨论和改进建议. 本协议的标准化状态和现状请参考当前版本的<互联网官方协议标准> ...

  7. 草履虫纳米机器人_《Nature》:草履虫大小的微型机器人:由激光驱动,未来可用于显微外科手术!...

    原标题:<Nature>:草履虫大小的微型机器人:由激光驱动,未来可用于显微外科手术! 江苏激光联盟导读: 据悉,<Nature>报道了美国康奈尔大学的最新研究成果,该校研究人 ...

  8. 使用Core Audio实现VoIP通用音频模块

    最近一直在做iOS音频技术相关的项目,由于单项直播SDK,互动直播SDK(iOS/Mac),短视频SDK,都会用到音频技术,因此在这里收集三个SDK的音频技术需求,开发一个通用的音频模块用于三个SDK ...

  9. 【实战分享】使用Core Audio实现VoIP通用音频模块

    最近一直在做iOS音频技术相关的项目,由于单项直播SDK,互动直播SDK(iOS/Mac),短视频SDK,都会用到音频技术,因此在这里收集三个SDK的音频技术需求,开发一个通用的音频模块用于三个SDK ...

最新文章

  1. mysql杠杆加号什么意思_对tb_book表中的数据,按ID序号进行升序排列,查询语句是什么?_学小易找答案...
  2. Java方法调用事件_Java中的事件处理和Java中actionPerformed方法的执行
  3. 如何调试Android Framework?
  4. android广告页白屏_android 白屏
  5. MySQL中EXPLAIN命令详解
  6. [Issue Fixed]-GCC编译[-Werror,-Wformat]
  7. 7怎么把中文改为英文_windows10系统英文版本,如何更改为中文版本
  8. php中等3秒再跳转,跳转和重定向
  9. php 鼠标点击图片放大,鼠标移入放大图片预览效果实现
  10. html 指定对象为块元素,html内联(行内)元素、块级(块状)元素和行内块元素分类...
  11. 在Ubuntu 18.04系统上安装和配置DBeaver的步骤
  12. node 创建静态web服务器(上)
  13. bzoj4152 [AMPPZ2014]The Captain
  14. 麦克斯韦电磁场理论基础
  15. 一个静态路由配置实例(eNSP)
  16. 大数据入门教程系列之Hive篇汇总
  17. 【云原生】—— 学习云计算应用开发你需要掌握的五大技能
  18. 全文检索四种技术解决方案
  19. 刷 LeetCode 吃力正常吗?
  20. 医学计算机应用基础实验报告word,word的操作——实验报告

热门文章

  1. Android 如何修改默认输入法
  2. 联想微型计算机M3500q怎么拆,爆发小宇宙 创新与实用完美结合联想M3500q
  3. 2022-2028年中国亲子装行业市场调查研究及投资策略研究报告
  4. Python小技巧:罗马数字转阿拉伯数字
  5. errno --详解
  6. jQuery入门基础-附案例
  7. HTML+CSS实战——学成在线项目(含源码、素材、psd文件)
  8. 【后端】手机号码校验(正则表达式)
  9. 浩亭PushPull V4 推拉式连接器:助力智能制造业转型升级
  10. Linux脚本命令万能手脚架整理