作者丨David Joey 如願

来源丨新智元、 计算机视觉life

一提到AR、VR体验,声音体验都是最重要的一环。

无论是在元宇宙的party上狂欢,还是戴着增强现实 (AR) 眼镜在客厅看家庭电影,声效对用户的沉浸式体验都至关重要。

这不,Meta AI与Meta Reality Lab的音频专家联手,并与德克萨斯大学奥斯汀分校的研究人员合作,共同推出三个开源模型,用于对视频中人声和环境声的同步解析。

「我们正尝试建立这样的MR与VR场景,我们相信人工智能将为每个沉浸式环境提供相匹配的音质」他们说。

人体所处的物理环境不同,人耳所感知的声觉效果也不同。

例如,音乐会在大型场地和客厅的声音有很大的不同。这是因为物理空间的几何形状、该区域的材料和表面,以及声音来自何处的接近度,都影响了我们听到音频的方式。

因此,就需要AI模型来了解我们的环境信息,从而对声觉与视觉信息进行匹配。

Meta的这项研究主要包括三个模型,分别是视觉声觉匹配模型(Visual Acoustic Matching model)、基于视觉的去混响模型(Visually-Informed Dereverberation)、音视频分离模型(Visual Voice)。

同时,这次研究成果还在CVPR 2022论坛上发表5分钟演讲,这也就是TOP5含金量的论文才有这待遇。

首先,视觉声觉匹配模型可将视频中的音频转换为目标环境中的声觉效果,给定目标环境的图像和源音频的波形,模型就可以重新合成音频以匹配目标房间的声学。

然后就是我们基于视觉的音频去混响模型 (VIDA),它可根据观察到的声音和视觉场景来学习消除混响。

而Visual Voice模型则可跨模型将视频中的音频与视频分离。

下面是这些模型的具体操作流程。

视觉和声音的完美盛宴

众所周知,音频与场景不一致的视频,会十分损伤我们的感知。

在过去,从不同的环境中获取音频和视频,并进行匹配,一直是一个挑战。

声学仿真模型可用于生成房间脉冲响应,以重新创建房间的声学效果,但这只有在几何形状(通常以 3D 网格的形式)和空间的材料属性已知的情况下才能完成。不过,在大多数情况下,这些信息是无从获取的。

当然,我们也可以仅根据在特定房间中捕获的音频来估计声学特性,但通过这种方式,只能获取十分有限的声学信息,而且通常不会产生很好的结果。

为了解决这些挑战,研究人员创建了一个自监督的视觉声学匹配模型,称为AViTAR。

它可以调整音频,以匹配目标图像的空间。研究人员使用了一个跨模态Transformer模型,其中输入由图像和音频组成,允许Transformer执行跨模态推理,并生成与视觉输入匹配的真实音频输出。

自监督训练目标从外部网络视频中学习声学匹配,尽管它们缺乏声学不匹配的音频和未标记的数据。

研究人员使用两个数据集构建了这个任务。第一个数据集是建立在与SoundSpaces合作的基础上,SoundSpaces是他们在2020年开放的AI视听平台。

建立在AI Habitat之上,SoundSpaces可以将来自「Replica」和「Matterport3D」数据集中的高保真、逼真的声源模拟,插入到各种真实世界中。

第二个数据集由29万段公开的英语视频组成,这些视频剪辑的内容是人们进行的3到10秒讲话。

对于这两个数据集,研究人员更专注室内环境下的语音。因为这些语音中的大部分可能与未来的很多场景用例相关,同时也因为人类对混响会如何影响语音有很强的先验知识,

研究人员将「麦克风和摄像机需要放在一起,并且远离声源」作为筛选视频的标准。因为根据声源的位置以及人或麦克风所在的位置,听到的声音可能会有所不同。

对于网络视频,研究人员必须克服的一个挑战是:他们只有与目标环境的声学相匹配的音频。

因此引入「失配」的概念,即首先消除混响。再将音频与另一个环境的脉冲响应混合在一起以随机化音效,并添加噪音以创建具有相同内容但不同音效的音频。

研究人员在两个数据集上验证了这个模型,并根据三个标准测量了生成音频的质量,包括它是否最接近真实音频、房间声学的正确性以及合成语音中保留的语音质量。

同时,他们也想看看人类是如何评价该模型的表现,评估的标准是「音响效果是否与参考图像匹配」。

结果表明,该模型成功地将人类语音转换为图像中描绘的各种真实世界场景,而且优于传统的纯音频声学匹配。

对于视觉声学匹配,研究者们感兴趣的话题之一是重温过去的记忆。想象一下,如果能够戴上一副AR眼镜,记忆中经历过的场景就会悄然地浮现在眼前。

比如拿起一件芭蕾舞裙,就能看到孩子芭蕾舞演出的全息图。音频消除了混响,听起来就像您在观众席的确切座位上所经历的那样。

真是妙不可言!

利用视觉信息,去除混响

下一个问题是,去混响。

尽管有些场景下,增加一些混响音效有助于让声音和视觉信息更加匹配,但在语音识别领域,更常见的做法是去混响。

混响会在环境中的表面和物体间反射,这种反射的后果反映在人的耳朵里,就是音质降低,而且会严重影响自动语音识别的精度。

通过去混响,可以尽量剥离环境影响,使语音更容易被识别和增强,比如,为有听力障碍的人生成更准确的字幕,就需要对音源进行去混响处理。

过去的去混响方法往往根据音频模式进行,这种方法并不能了解环境的完整声学特征。更多靠的是人类语音的先验知识,而没有考虑到周围的环境。

为了让这一过程与周围环境结合,需要融入更多的维度的信息,比如视觉信息。

结合了视觉信息的去混响模型称为「VIDA」, 根据观察到的声音和视觉流来学习去混响,这些视觉信息包括房间的几何形状、材料和音源位置等,这些都会影响在音频流中体现的混响效果。

有了这个思路,我们想从一个特定的地方获取混响的音频,并抽离房间的声效。

研究人员开发了一个大规模的训练数据集,使用真实的语音进行渲染。

通过虚拟和真实的图像上的演示表明,在语音增强、语音识别和说话人识别等任务上,VIDA实现了SOTA性能,比传统的纯音频方法有了很大的提升。这对AR和VR应用中建立现实体验是非常重要的。

VisualVoice:通过看和听,理解语音

在复杂环境下,人类比AI更能理解语音的含义,因为我们不仅使用耳朵,还使用眼睛。

例如,我们看到某人的嘴在动,可能凭直觉就知道我们听到的声音一定是来自这个人。

Meta AI正在研究新的AI对话系统,就是要让AI也学会这种本事,识别在对话中看到的和听到的东西之间的细微关联。

VisualVoice的学习方式类似于人类学习掌握新技能的方式,通过从未标记的视频中学习视觉和听觉线索,实现视听语音分离。

对于机器来说,这创造了更好的感知,同时人类的感知力也会得到改善。

想象一下,能够与来自世界各地的同事一起参加元宇宙中的小组会议,随着他们在虚拟空间中的移动,加入更小的小组会议,期间,场景中的声音混响和音色会根据环境做出相应调整。

的确,现在的AI 模型在视频和图像理解方面做得很好。

但要让用户有「很哇塞」声如其境的体验,我们需要「多模式的 AI 模型」。

也就是可同时获取音频、视频和文本信息,并更具有丰富的环境理解的模型。

目前AViTAR 和 VIDA 目前仅支持单个图像,离推向市场还存在距离。

「未来我们希望尝试使用视频和其他动态来捕捉空间的声学特性。这将帮助我们更接近我们的目标,即创建了解现实世界环境以及人们如何体验它们的多模式 AI」。

相关论文地址:

https://vision.cs.utexas.edu/projects/visual-acoustic-matching/

https://vision.cs.utexas.edu/projects/learning-audio-visual-dereverberation/

https://vision.cs.utexas.edu/projects/VisualVoice/

参考资料:

https://ai.facebook.com/blog/ai-driven-acoustic-synthesis-for-augmented-and-virtual-reality-experiences/

https://siliconangle.com/2022/06/24/meta-building-better-ai-driven-audio-virtual-reality/

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

16.基于Open3D的点云处理入门与实战教程

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

Meta再放大招!VR新模型登CVPR Oral:像人一样「读」懂语音相关推荐

  1. 创建可微物理引擎Nimble,开源SOTA人体骨骼模型,斯坦福腿疾博士生用AI「助跑」人生...

    来源:机器之心本文约2000字,建议阅读5分钟 身残志坚,斯坦福大学的这位人工智能 + 机器人博士生想用技术克服身体缺陷. 有一位研究者,他身患残疾,出生时便患有退行性神经疾病,该疾病一直攻击着他的外 ...

  2. Meta开发了一个AI模型,尝试解决维基百科的「性别偏见」问题

    来源:SiliconANGLE 出品:科技行者 撰文:海外来电 图片:海外来电 为了解决两性人物传记比例失衡的情况,Meta操碎了心. 维基百科一直是全球访问量Top 10的网站,是许多人搜索历史人物 ...

  3. 谷歌新模型突破BERT局限:NLP版「芝麻街」新成员Big Bird长这样

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 最新消息,谷歌推出了NLP系列「芝麻街」的新成员Big Bird. 这个在外界眼中看起来有点可爱的动漫小鸟,摇身一变,解决了BERT模型中的 ...

  4. 2020年全球及中国体外诊断行业现状及竞争格局分析,新冠带来全球体外诊断市场的扩容「图」

    一.体外诊断综述 体外诊断,即IVD(In Vitro Diagnosis),是指在人体之外,通过对人体血液.体液.组织等样本进行检测而获取临床诊断信息,进而判断疾病或机体功能的诊断服务.根据临床医学 ...

  5. OpenAI新模型惊艳了!对话问答能力逆天

    编|昕朋 Aeneas 源|新智元 OpenAI新模型来了!全新对话模型ChatGPT,可以回答用户问题,还能挑出问题的错误之处.面对不懂的问题,还会承认错误并拒绝回答! 当人们翘首期待GPT-4时, ...

  6. 千亿参数大模型时代,QQ浏览器团队十亿级小模型「摩天」登顶CLUE

    机器之心专栏 作者:Joshua 今年以来,中文 NLP 圈陆续出现了百亿.千亿甚至万亿参数的预训练语言模型,炼大模型再次延续了「暴力美学」.但 QQ 浏览器搜索团队选择构建十亿级别参数量的「小」模型 ...

  7. 李想的理想 IPO :新造车「异类」背后的思考

    攀登新造车领域的过程中,李想偏执的「凿」出了一条全新的路.在超级务实的战略之下,我们看到了一个更接近「原子」层面的思考和战略. 今天凌晨,理想汽车正式向美国证监会提交首次公开募股(IPO)文件,股票代 ...

  8. CVPR 2020 | 给Deepfake 假脸做 X-Ray,新模型把换脸图打回原形

    机器之心报道 作者:思源 计算机视觉顶会 CVPR 2020 接收结果已公布,6656 篇有效投稿中录取了 1470 篇论文,录取率约为 22%.本文介绍了微软亚洲研究院的研究者被 CVPR 2020 ...

  9. 【CVPR 2020】给Deepfake 假脸做 X-Ray,新模型把换脸图打回原形

    本文转载自机器之心(公众号ID:almosthuman2014),未经许可请勿二次转载. 计算机视觉顶会 CVPR 2020 接收结果已公布,6656 篇有效投稿中录取了 1470 篇论文,录取率约为 ...

最新文章

  1. pandas使用groupby函数计算dataframe数据中每个分组的N个数值的滚动计数个数(rolling count)、例如,计算某公司的多个店铺每N天(5天)的滚动销售额计数个数
  2. 中connect怎么用_烘焙中的各种酒,到底该怎么用?
  3. java ee空指针_Java EE 7是最终版本。 思想,见解和进一步的指针。
  4. 基于智慧教室|无纸化会议的新选择:RTMP解决方案
  5. 17. OD-带有多态、变形的程序进行打补丁去掉nag(分析xor加密解密、自身修改代码的程序)
  6. 杭电2112(SPFA)
  7. 《深入解析Windows操作系统》--第二章 系统结构
  8. 载入Haskell的函数
  9. 【C++】图书管理系统(含全部源代码)
  10. 串口上升时间标准_为什么串口比并口快?
  11. 简化版WIN7安装打印机时提示“打印机无法安装,打印处理器不存在。”正确处理方法...
  12. go用smpt包发送邮件, 被抄送收不到邮件bug
  13. 搞笑--网络小说-紫川 高考题-(附答案)
  14. Python中的打包与解包
  15. iOS开发之Your build settings specify a provisioning profile with the UUID “”, however, no such provisio
  16. 微信小程序input输入框密码的显示与隐藏
  17. 学科实践活动感悟50字_学科实践活动写实记录50字范文
  18. Codeforces Beta Round #7
  19. 谷粒商城11——认证服务、短信验证、Gitee-OAuth 社交登录、分布式session
  20. 基于R语言的回归分析实现

热门文章

  1. 计算机在企业生产中的应用外文,计算机制造外文文献翻译
  2. Linux安装tomcat,配置环境变量
  3. 高稳定度精密可调恒流源的设计与实现
  4. TZOJ 7034: 竹取飞翔 ~ Lunatic Princess 并查集+数学。
  5. m35c android 4.4,索尼m35c刷机的方法
  6. 2022-2027年中国教育云行业市场调研及未来发展趋势预测报告
  7. NumPy入门讲座(3):操作数组
  8. 小生意汽车配件销售管理软件选型
  9. 论文阅读:GMAN: A Graph Multi-Attention Network for Traffic Prediction
  10. 分式化简 设计算法 c语言,化简分式(对小数有用)