算法也浪漫——我们和声网音频专家聊了聊美声、降噪与超高音质
/与其说音频技术小众,不如说大家对周围最常用的东西太过习以为常,反而没意识到这些“习以为常”背后的音频技术的存在。/
音频专家的浪漫主义情怀
LiveVideoStack:在您参与过的音频领域的开发项目中,印象最深刻的是哪一个?可以与我们分享您当时的经历与体验吗?
冯建元:我做过的音频领域的项目比较广一些,从实时的美声、音效、音频鉴黄到AI降噪、AI-codec等。印象最深刻的应该是实时美声这个项目,这块我们通过数据挖掘的方式总结出了一套对“好声音”的定义,利用AI和传统算法相结合的方式让人声可以从多个维度进行美化,从而开创了实时美声这一功能。
这个项目之所以最深刻,主要是因为在做项目的过程中需要在各种好听的声音中寻找它们发音好听的原因。此外,“通过不同的算法让一些普通的声音也能焕发光彩”这件事本身也让我自己提升了审美。把科学和艺术结合起来分析还满足了不少我的浪漫主义情怀。
LiveVideoStack:您最近关注的新创以及技术趋势有哪些?
冯建元:最近我关注的趋势主要是如何把 AI 更好地用到我们的音频技术之中,这其中就包括了AI降噪、音源分离、AI-codec、变声等领域。
LiveVideoStack:如果要为想从事音频算法技术领域工作的同学推荐一本书,你会推荐什么?
冯建元:亨宁·雷茨和阿拉德·琼曼的《语音学:标音、产生、声学和感知》。这本书可以说是非常经典的老酒型(愈久弥香,温故知新)书籍,它系统而科学地告诉了读者语音是怎么产生的,又是怎么被接收的。如果大家在设计算法前就能有这些对语音的科学理解,事情往往可以事半功倍。
超高音质与深度学习
LiveVideoStack:您目前负责的声网的“超高音质音频系统”的设计研发工作,这里的“超高音质”在技术和产品体验上是什么样的概念?
冯建元:超高音质,顾名思义就是超越高音质。我们可以先看一下什么是高音质:把采样率拉到 48K——从而满足所有人耳所能听见的频率范围、使用对语音损伤较少的 codec、降噪、AEC——从而不会破坏原有的音质。在这个“高音质”的基础上,我们还要研究如何在不同的场景做声音美化、人声增强,从而让人声听起来更好听、细节更丰富。此外,我们还落地了如语聊美声、歌唱美声等一系列产品。
LiveVideoStack:能请您和我们聊聊深度学习在音频算法中的地位吗,目前声网结合深度学习&机器学习设计研发的音频功能&相关产品的思路是怎样的?
冯建元:深度学习已经成为声网音频算法中不可或缺的一部分。我们在事件检测、降噪、codec 等多个领域都将深度学习的算法集合了进去。其实我们在算法设计的时候会把传统算法、物理建模与深度学习相结合以优化效果和算力。同时,我们还成立了深度学习的模型优化团队,专门负责深度学习算子的优化,从而让深度学习的算法快速落地。
“习以为常” 的背后
LiveVideoStack:RTC场景下的音频算法所面对的还没有完全解决的难题有哪些?当下,配套RTC场景的音频系统还需要要得到怎样的提升与改进,以及目前国内在这方面的进展如何?
冯建元:RTC场景中网络不稳定、回声问题、噪声问题、空间声还原等方向都还有很多需要改进和完善的地方。国内在降噪、去回声等技术上还是有很多不错的发展的,比如AI降噪的使用,以及回声消除在软件和硬件中都有不少优秀的产品。
网络方面的问题不只需要网络设施稳定性的提升,也需要算法层面作出更小码率的codec、更好的 PLC 以及更好的空间声还原等等。这些方面国外的发展可能要稍微领先一些。
LiveVideoStack:您的下一个研发方向是什么?
冯建元:高音质场景下更极致的音频体验。具体来说包括全频带超低码率codec,更好的全频带降噪系统等。
LiveVideoStack:音频技术在国内似乎仍然处于比较小众的地位,您是否同意这一说法以及您如何看待这一现象?
冯建元:从事音频技术的总人数确实不是很多,但音频技术的应用却十分广泛。从通信到娱乐行业,人们每时每刻都在各种声场中切换,但音频技术方向的人才缺口却一直很大。与其说音频技术小众,不如说大家对周围最常用的东西太过习以为常,反而没意识到这些“习以为常”背后的音频技术的存在。
LiveVideoStack:对于这次LiveVideoStackCon 2021 上海站的音频场“音频新势力”的讲师阵容/分享内容(https://sh2021.livevideostack.cn/topics/3169),您有什么样的期待?目前看来,您对哪方面/哪位讲师的分享最感兴趣?
冯建元:希望能听到更多音频技术的使用场景和发展方向:工作上来说, 我比较感兴趣的是 OPPO 吴汉杰的演讲,就是有关如何做出更好听的声音的内容;就我自己兴趣而言,unveil 游戏制作背后的故事我也很有兴趣。
LiveVideoStack:可以与我们分享一个您的 New Year Resolution 吗?
冯建元:希望疫情早日结束,互动精彩永不落幕。
编辑:Coco Liang
LiveVideoStackCon 2021 上海站
时间:2021年4月16日-4月17日
我们准备好全新的内容,在上海欢迎您的到来
点击【阅读原文】了解大会更多详情
算法也浪漫——我们和声网音频专家聊了聊美声、降噪与超高音质相关推荐
- 音频正当时:我们和声网音频专家聊了聊AI、元宇宙、空间音频和“沉浸感”
编者按: 树枝上鸟儿的啁啾声,潺潺流水声,人们踏青时的欢歌笑语声,与春暖花开的画面融合在一起,呈现出一幅春色正浓的动态美景.可是当一切声音被消除,整个世界陷入沉寂,这幅美丽的春景图仿佛也在瞬间失去了色 ...
- AI一分钟 |世界级音频专家入职阿里人工智能团队iDST;亚马逊推AI摄像头,开发者专用定价249美元
一分钟AI 阿里巴巴跨物理界招人,世界级音频专家冯津伟入职人工智能团队iDST "安卓之父"离职Essential公司,报道称其离职谷歌或因桃色事件 谷歌将在下周的 NIPS大会上 ...
- 算法的浪漫 - 相交链表
算法的浪漫 - 相交链表 --如果你和我时空相交,我们终会在某个点相遇 空间复杂度 O(1) 时间复杂度为 O(n) 这里使用图解的方式,解释比较巧妙的一种实现. 根据题目意思 如果两个链表相交,那么 ...
- 阿里巴巴跨物理界招人,世界级音频专家冯津伟入职人工智能团队iDST
原文链接:点击打开链接 摘要: 11月30日阿里巴巴正式宣布,前Polycom(宝利通)声学设计和信号处理首席工程师(Principal Engineer)冯津伟入职人工智能核心团队iDST,担任智能 ...
- 使用耳聆网音频工具箱怎么转换音频格式?
在不同的播放设备和应用上,想要进行音频文件的共享或者传输,可能会受音频文件格式的限制而无法播放和传输,这个时候需要对音频文件的格式进行转换,如何快捷转换音频格式呢? 转换音频格式的办公工具是比较多的, ...
- 成为音频专家从音频工程学校培训
成为音频专家从音频工程学校培训 声音是一个非常重要的方面,在大多数,如果不是所有今天的媒体.从音乐,电视和互联网广播和电影,音频制作技能和知识有很高的需求. 工具音频工程师都比较先进比以往 由于录音的 ...
- 网瘾专家陶宏开:沉迷网游3年智商将下降10%
网瘾专家陶宏开:沉迷网游3年智商将下降10% http://www.sina.com.cn 2007 年08 月13 日 07:59 理财周报 理财周报记者 孙迎娣/文 "起初,我的学生领 ...
- 从AI幻术到电商防线:我们听京东安全专家聊了聊“黑箱”中的秘密
可能大家都有过这种感觉:在迷茫的时候,我们会觉得自己面对的生活是个黑箱子.眼前一片混沌,既看不到未来,也搞不清楚此前都发生了什么. 这种感觉非常之讨厌,可能大部分人都有体会.但是试想一下,假如我们工作 ...
- 不看后悔!阿里内部技术参考图册算法篇!(附网盘链接)
今天跟大家分享阿里内部的技术参考图册,算法篇,文末有网盘链接 1.走进阿里技术 2.人工智能实验室简介 3.走进阿里妈妈技术 4.从人工智能到机器智能 5.阿里云:为了无法计算的价值 6.走进淘宝技术 ...
最新文章
- 树莓派4B Ubuntu18 vnc开机自启动
- springboot扫描组件_SpringBoot入口类和@SpringBootApplication详解
- pytorch的梯度计算以及backward方法
- SQL Server调优系列玩转篇(如何利用查询提示(Hint)引导语句运行)
- xubntu18.10中的conky配置文件
- 【 .NET Core 3.0 】框架之十 || AOP 切面思想
- macbook linux 双系统,MacBook Air 安装 Ubuntu 双系统
- 卢克沃顿对于湖人作用
- AutoJs 4.1.1 实战教程
- 单片机炫彩灯实训报告_单片机实验报告——流水灯
- Python-振动信号加入噪声-代码实现
- 2022年,互联网上赚钱真的有那么难吗?
- 反射系数和透射系数随入射角的变化曲线
- 一次HTTP(S)请求究竟需要多少流量?Wireshark抓包分析
- 菜鸟Django--更改和删除
- 如何用海思HI3516DV300/3518EV200推流H.264
- YUI介绍以及快速入门 Yahoo的JS框架
- JDK自带的反编译工具 javap
- eos安装区块链开发环境
- 前端算法及手写算法JavaScript