前言

音频技术发展到今天,经历了从模拟音频到数字音频到历程。国际音频工程师协会创建于 1948 年,中国数字音频技术起步相对较晚,长期被国外组织和公司垄断。随着中国的不断发展、科技日益进步,经过近三十年的努力,我们在语音识别重建、音效声场重现、数字音频通信等方面,积累了很多自己的音频技术专家和学者,已经逐步缩小和西方的技术差距。

为了更好的促进行业交流,壮大音频领域的中国力量,普及大众对音频技术的理解和认知,我们推出了面向音频领域专家的「一期一会」活动,希望能为更多的音频技术从业者打造一个充分交流的平台,我们欣喜地看到大家在活动中碰撞出许多有意义、有价值的思想火花,愿「一期一会」能承载和点燃更多音频技术人的梦想。

—— 声网技术合伙人、音频编解码专家

@高泽华

本文基于「一期一会 • 音频工程师专场」中讨论内容整理,观点仅供参考。

部分观点前瞻:

● 在音频领域,AI 解决普遍问题,算法解决个例问题,因此 AI 和传统算法的结合是必然的。

● “热点”的问题可能对于开发者而言意义不大,多数组织架构的利益分配机制对一线开发者往往不利。

● 空间音频面临的一个现实问题是,并没有足够多的音源素材可应用,市场上占有率更多的设备和业务场景并不具备相应的条件。

● 从技术角度看,VoIP 有很多事可以做,但从应用场景来看,市场需求才是决定性因素。

1、音频技术发展进入平台期

音频技术发展已经到了一个平台期阶段。神经网络的热潮开始消退,在音频降噪、回声消除、丢包补偿等方面的应用都有所突破,通道技术的改进接近瓶颈,编解码和麦克风阵列的应用尚处于尝试阶段。

长远来看,业务需求的积累和音频技术的迭代一直都在驱动着领域的发展,现在面临的问题是技术层面需要有新的突破。在具体的场景下,例如虚拟会议、空间音频、降噪、车载等等场景对沉浸式体验的追求越来越明显,这都需要工匠精神去打磨。

2、主动降噪在技术侧的新突破

随着 TWS 蓝牙耳机市场的快速增长,主动降噪再次引起人们的关注。在深度学习的加持下,主动降噪(ANC)的应用范围从智能手机、蓝牙耳机等单点降噪向 PC、智能汽车、智能家居等市场扩展。但声源分离(声纹识别)与还原(声场重建)、多路音频的网络传输、算法的收敛等仍是一些值得关注的问题。

无论是智能车机或智能家具抑或元宇宙,随着应用场景的不断扩展,工程师对于主动降噪关注的技术方向应该侧重软件与硬件的结合。终端设备算力的不断提高和云服务的日益普及也必然会为主动降噪技术提供更大的可施展空间;在越来越多的场景中,多个端侧设备的协同调度(回声抑制)正在成为新的课题。

3、市场需求决定了 VoIP 的未来

未来 VoIP 会发展到什么程度?移动通信已经从 2G 发展到 5G 时代,VoIP 也从最初的 8k 提升到 44k 的高清通话水平。高音质也带来了新挑战,通话的稳定性是第一位的,网络的切换和抖动对 VoIP 的影响也很大;在 1v1 和 N v N 的通话场景中要解决的问题也不尽相同。尽管降噪、去回声这 2 大应用课题在学界有了一些进展,但硬件的复杂性也增大在工业界实际应用的难度。

VoIP 已经变得更场景化、多设备化,并且场景与设备的融合度更高,追求沉浸式体验。因此在前端处理(算力)、网络、设备的多样性和复杂性方面存在诸多制约因素。产业界考虑的是稳定性。从技术角度看,VoIP 有很多事可以做,但从应用场景来看,市场需求才是决定性因素。

4、阵列技术的应用迎来新场景

智能设备的发展造成未来很多单声道的场景都会被多声道取代,因此阵列技术的应用场景会变得越来越多。但如何选取传声器或扬声器的音频信号、怎么评估阵列的效果以及声场重建等方面仍面临着挑战(如多区域、指向性、时域滤波等)。除了实验室环境,国内外的研究机构已经在户外音乐会、音乐广场等领域的应用取得进展。

5、空间音频在 RTC 领域大有可为

自从苹果推出空间音频后迅速成行业关注的焦点,应用场景也从耳机设备延伸到外放音响。据了解,苹果在空间音频实现方面采用的是杜比的方案。Facebook、微软最近也都在空间音频方面有所研究,公开的 Demo 显示主要应用在会议场景。

由于会议场景太过复杂,在做空间音频时到底要先做分离还是先做声道,目前业界尚没有统一的实现方案;在人 & 声分离方面,选择哪一路音频(向用户播放给出来)主要取决于上层应用。但考虑到更多的应用场景,工程师须知,空间音频要解决的问题既包括现实场景的模拟与对抗、也包括虚拟场景的模拟与对抗。

目前空间音频的应用还面临一个更为现实的问题是,并没有足够多的音源素材可应用,市场上占有率更多的设备和业务场景并不具备相应的条件,尤其是海量的中低端设备和短视频应用。

另外,空间音频在模拟现实的过程中还有一些信息丢失,对于空间音频的质量评价也缺乏统一的标准,目前空间音频的体验(空间感)或者说音质并不理想。由于空间音频的场景较多,业内公司提出了一些不同的方案,这可能会影响它的进一步应用。

6、AI 和传统算法必然会走向结合

AI 在音频前处理算法的热潮持续到 2018 年前后时,发现音频信号处理的方法在服务具体行业时遭遇了瓶颈(各类播放端的算力和能耗问题),因此更多细分行业的解决方案开始返回到之前传统的音频信号处理技术。在音频领域,AI 解决普遍问题,算法解决个例问题,因此 AI 和传统算法的结合是必然的。

7、软硬技术结合的厂商会更具优势

3A 在传统场景的应用非常成熟,在细分场景下还有许多要提高的地方。以会议场景为例,目前可改进的地方非常多(例如 AEC 的收敛问题、全双工的体验问题等),怎么在细节上提升用户体验才是重点。多人会议时,多设备、多麦克风阵列的问题不能单纯靠软件和算法去改进,硬件设备本身从底层提供支持可以补充软件能力的不足,从而达到事半功倍的效果,未来软硬结合的解决思路将占具优势。

8、工程师应正视元宇宙的乱象与机会

现阶段元宇宙市场的乱象中,的确存在割韭菜的行为,但不可否认硬件设备的升级也带来了新的场景和机会。以沉浸式音频为例,企业混和办公场景下,目前商用的方案造价不菲且对布署环境(例如会议室的规格和声学设计)有一定的要求,可落地的形态和方案仍需继续寻找突破点。目前看,元宇宙实现的侧重点是虚拟的音频沉浸体验,元宇宙/空间音频如果只是为了娱乐,是不是应该在内容制作方面多发力?

9、音频技术的下一个“热点”在哪里?

抛开商业行为,“热点”的问题可能对于开发者而言意义不大,多数组织架构的利益分配机制对一线开发者往往不利。

从技术角度看,VR 和 AI 等新技术已经火过不止一次,这代表有些热点技术存在一定的周期性,值得长期关注。例如,AI 在语音方面还有很大的发展空间,目前高校的学生受大厂影响也比较愿意学,但传统 DSP(数字音频处理器)方向就鲜有人问津;再比如,蓝牙耳机在助听和辅听市场的发展已初现端倪。

其他方面,当前大火的元宇宙对视频的关注明显多于音频,这显然不符合“两条腿”走路的常识。在更多细分领域,把声音的(语音识别、场景识别、音源识别)前端感知能力当作传感器,结合后端逻辑实现物联网、工农业生产、医疗等场景下的定位、识别、检测等自动化管理,都有很广泛的应用前景。

音频技术的下一个“热点”,会出现在哪个领域?丨一期一会 • 音频工程师专场相关推荐

  1. 大数据时代下的迁移学习_继深度学习后,下一个热点技术是迁移学习

    最早提出大数据时代到来的是知名咨询公司麦肯锡,麦肯锡称:"数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素.人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪 ...

  2. 演化计算可能是人工智能的下一个热点

    演化计算--人工智能的下一个热点 演化计算经常用到智能优化和机器学习当中,但是这种机器学习跟大家平常说的深度学习的机器学习不是很一样.演化计算在机器人的脑体一体化设计中应该有相当大的用武之地.演化计算 ...

  3. Nikolai Yakovenko大佬:深度学习的下一个热点:生成对抗网络(GANs)将改变世界

    生成式对抗网络-简称GANs-将成为深度学习的下一个热点,它将改变我们认知世界的方式. 准确来讲,对抗式训练为指导人工智能完成复杂任务提供了一个全新的思路,某种意义上他们(人工智能)将学习如何成为一个 ...

  4. 深度学习的下一个热点——GANs将改变世界

    本文作者 Nikolai Yakovenko 毕业于哥伦比亚大学,目前是 Google 的工程师,致力于构建人工智能系统,专注于语言处理.文本分类.解析与生成. 生成式对抗网络-简称GANs-将成为深 ...

  5. 深度学习的下一个热点:生成对抗网络(GANs)将改变世界

    本文作者 Nikolai Yakovenko 毕业于哥伦比亚大学,目前是 Google 的工程师,致力于构建人工智能系统,专注于语言处理.文本分类.解析与生成. 生成式对抗网络-简称GANs-将成为深 ...

  6. 李开复对话Yoshua Bengio:AI技术的下一个突破

    7月23日,在SGInnovate主办的"深度科技(Deep Tech)造福人类"活动上,创新工场董事长兼CEO李开复与Element AI联合创始人Yoshua Bengio进行 ...

  7. 音频的价值、AI Codec 的意义与算法能力的边界丨一期一会 • 音频工程师专场

    前言 音频技术发展到今天,经历了从模拟音频到数字音频到历程.国际音频工程师协会创建于 1948 年,中国数字音频技术起步相对较晚,长期被国外组织和公司垄断.随着中国的不断发展.科技日益进步,经过近三十 ...

  8. AI ProCon 2020第一天:40+大厂专家共话AI技术应用下一个十年!

    7月3日,2020 年 AI开发者万人大会(AI ProCon 2020)隆重举行,作为CSDN策划并主办的系列技术「开发者大会」之一,本次大会通过线上直播的方式,吸引到了10000+开发者/学习者. ...

  9. NFT会接力Defi,成为下一个热点么?

    介绍 这次火花访谈我们采访了麦子钱包的产品经理PM陆遥远,圈内人也常称呼他为老陆. 作为行业里的早期参与者,老陆可以说一直关注着行业里最前沿的项目,并对圈内新锐项目都有较深的研究,也是圈内较早研究NF ...

最新文章

  1. 一文讲解特征工程 | 经典外文PPT及中文解析
  2. 【PP生产订单】入门介绍(十三)
  3. python入门第六章 信息安全策略-文件备份 用户账户管理
  4. Linux中tty、pty、pts的概念区别
  5. SQL事务与ADO.NET事务
  6. 最新Tuxera NTFS for mac2020读写NTFS磁盘工具 更新详情介绍
  7. Polarion软件下载安装使用试用
  8. 计算机主机显示接口,一文了解电脑视频接口 看完彻底明白了
  9. ASO|几个ASO优化方案解析(下)
  10. squid代理服务器的应用
  11. 分析MP4的名人博客
  12. vue字符串生成二维码的相关组件
  13. sklearn实现Adaboost算法(分类)
  14. ArcGIS JS API 4.x(二) 加载 3.x所说的动态地图服务图层
  15. ML参数及ResNet中Pre-activation和post-activation的区别
  16. stm32流水灯c语言程序,stm32流水灯程序源码
  17. 我眼中的王石(转 目光呆滞的润土)
  18. 服务器主机本地系统6,服务器主机本地系统开机
  19. 开学季征文 | 新学期,新flag
  20. 手把手带你实现西瓜视频的责任链埋点框架

热门文章

  1. css 文字不规则排版,CSS3文字排版
  2. 舒城中学2021年高考成绩查询,舒城教育信息网——舒城县教育局关于对2019年荣获高考目标奖的学校和个人表彰的通报...
  3. 大数据入门-大数据技术概述(一)
  4. 12306能删候补订单记录_12306候补购票功能使用教程:一次只能提交1个候补订单...
  5. tomcat 启动时报错:To prevent a memory leak, the JDBC Driver has been forcibly unregistered
  6. 使用梯子导致的浏览器不能正常使用
  7. 基于vue和nodejs毕业设计电影购票微信小程序影院
  8. MYSQL求百分比的几种方法
  9. matlab里怎么计算期望,§7.4.2 利用MATLAB计算随机变量的期望和方差.pdf
  10. Origin绘制双x,y轴图像