本文为52CV粉丝香港中文大学MMLab博士生Johann Zhou投稿。

链接:https://zhuanlan.zhihu.com/p/162689191

HighLight

本文提出了一种全新的通用框架,利用共享的主干网络,同时解决音频-视觉学习的两大主流问题:视觉信息引导的声源分离和立体声重构。

本文的核心在于将双声源分离问题看作双通道立体声重构的特殊情况,从而得以充分利用单通道音频,利用声源分离的训练丰富网络对更丰富数据的处理能力,提升立体声重构的效果。

如果做计算机视觉的同学对音频-视觉联合学习(Audio-Visual Learning)和这两个“主流任务”都不熟悉,可以移步我对这个方向的安利和Review:

探索计算机视觉与音频的交叉:基于视觉的音乐相关研究Review(声源分离 & Beyond)

社区友好不内卷,前景广阔有价值。

提供给会议的长视频介绍如下,文章的立体声重构和声源分离的效果在视频后半部分,记得带耳机哦。

背景介绍

得益于双耳效应,人类仅凭声音就可对声源位置有准确的感知。所以当用户观看视频,尤其是音乐演奏时,视听信息的和谐对于提升用户体验非常重要。视觉信息对应的立体声效果。

由此出发,之前的研究者们提出了用数据驱动的方式,通过视觉信息恢复立体声的方法[1][2]。他们的核心思想,都是先将录制好的立体声(多通道音频)数据,还原成单通道音频,再使用神经网络学习单通道到多通道的映射。

然而这些基于深度学习的方法依赖专业设备(见下图a,b)采集的视频与立体声数据,所以数据的缺乏限制了目前学术界的发展。

与此同时,有单通道音频的视频却很好收集,在视觉引导的声源分离领域(请见近期发展review),这种数据已经被大规模得用于神经网络的训练。

而基于观察,声源分离和立体声重构问题都需要找到声源形象在视觉信息中的位置,并将其与音频中对应的乐器音色对应起来。甚至立体声重构可以看做将声源进行分离后的重组,这启发作者将这两个任务进行统一。

核心思想

本文的核心在于把双声源的分离问题,看作左右声道立体声重构的一个特殊问题,从而把声源分离和立体声重构统一进一个框架。

具体来说,我们可以将同时演奏的两个声源,人为的放在人类视野的最左端和最右端,并认为两个声源中间的空间一无所有。在此情况下,我们认为人的左耳只能听到左边声源的声音,右耳只能听到右边声源的声音,从而将声源分离问题转化为立体声重构问题。

将两个任务统一的学习过程类似 Multi-task Learning。而我们的动机更多是在于通过声源分离,使得更多类型的音频经过主干网络,从而使用大量的单通道音频,提高主干网络在进行立体声重构任务时对不同输入的泛化能力和建模能力(capacity)。

方法框架

本文方法的整体框架如上图所示,在训练中可以被分为立体声学习和分离学习两部分。

立体声学习在上图下半部分,在网络中的输入是单通道的音频的短时傅里叶变换(STFT)频谱和一张参考图像,网络预测的目标是立体声左右两通道分别的STFT频谱。主干网络我们follow Mono2Binaural[1],使用了和他们一样的UNet,并保留了和他们一样的损失函数,作为立体声学习的基础。相似地,直接预测频谱是比较困难的事,所以我们预测的是目标频谱相对于输入频谱的Mask。

分离学习在上图上半部分,网络的视觉信息输入是两段独立的单人演奏视频,音频信息则是将两段音频混合得到的单通道结果。网络预测的目标是这两段独立音频分别的频谱。在这种场景下,分离学习和立体声学习的音频输入输出维度得到了统一,都是单通道—>双通道音频,所以分离中的独立音频a和b可以和立体声中的左耳(l)和右耳(r)频谱放在同等位置。

联合金字塔网络(Associative Pyramid Network,APNet)

对于立体声学习,我们需要音频信息与视觉网络抽取的视觉特征中不同位置的信息相互作用。于是我们设计了联合金字塔网络(APNet),一个依赖主干UNet的侧枝网络,通过coarse-to-fine的方式把视觉和音频信息联系起来。网络设计的理念是假设立体声来源于各个视觉特征位置所对应的音频信息的组合,所以网络的作用在于引导不同位置的视觉特征与频谱的特征分别进行融合,生成与位置信息强相关的新层,从而希望网络自然地从不同位置的视觉特征中学出显著特征(乐器)所在的位置和类别。

具体的操作如下图(a)所示,对于视觉网络直接encode的(b)每个位置的视觉特征,我们将其变为一个1x1卷积核的每个channel,用其对音频网络的各层进行加权组合成新的APNet网络中的层。从不同尺度UNet获得的APNet的特征再通过upsample操作进行积累。最后一层APNet特征代表了不同位置视觉特征对应的音频频谱响应,所以我们最终使用两个卷积将其统一为要预测的左右通道频谱的Mask。

视觉信息的重排列立体声学习和分离学习的最重要的区别在于视觉信息的应用。对于立体声学习,网络需要预测每个显著特征(乐器)在空间中的相对位置和类别;而对分离学习,只有类别信息是最重要的,位置信息不起作用。

我们的做法是手动对视觉特征进行操作,将两个视频的视觉特征进行Max Pooling操作,并希望以此找到视觉特征中最重要的部分(乐器),然后人为的将其放在一个空白的视觉特征的最两侧,如上图(c)所示。如此一来,我们假设人的视野中只有最左和最右两侧可以看到物体,而中间部分是完全没有意义的空间。

这一假设与我们APNet的motivation也可以完美结合,此时对左右通道有贡献的只有视觉信息的最左和最右部分,从而可以假设左耳只能听到左边的乐器而右耳只能听到右边乐器的声音。

训练流程

通过APNet和视觉信息的重排列,我们可以将分离学习和立体声学习完全统一到同一个网络的训练中。不过在我们自己对结果进行复现的过程中发现如果完全使用共享的网络参数,网络会很难收敛,所以最终版本的分离学习和立体声学习共享整个音频主干UNet网络和视觉信息的encoder,而两支分别用两个独立的APNet作为Head。

实验结果

在立体声重构的数值结果上,我们超过了之前的方法Mono2Binaural[1],同时验证了我们方法各个模块的有效性。在声源分离实验上,我们也取得了和专攻分离的论文相似的结果。不过自然,生成相关的paper只看数值结果没有说服力,我们推荐大家戴上耳机去听我们提供的视频。

我们还根据视觉特征的激活程度,展示了网络在视觉信息中所关注的位置。更多详细得分析和方法的细节还请参见论文和补充材料。

总结

本文把视觉引导的声源分离任务和立体声重构任务结合,统一到我们的Sep-Stereo框架内,并因此利用了大量的单通道音频,提升了立体声重构的效果。这篇工作在两个任务上都展示了很强的结果,并提高了双通道立体声重构的SOTA。

不过这篇工作还有很多问题没有解决:

1)人工重排列的视觉特征和真实encode得的视觉特征之间存在明显的domain gap,使得网络在真实场景中的泛化能力依然有限。

2)应用场景受限于音乐数据,距离实际应用距离甚远。希望这篇文章能引起大家对这个领域的科研兴趣,可以有更多人向更深的层次探索。

论文[3]链接:

https://arxiv.org/pdf/2007.09902.pdf

代码已经开源:

https://hangz-nju-cuhk.github.io/projects/Sep-Stereo

主页:

https://github.com/SheldonTsui/SepStereo_ECCV2020

参考文献:

[1] Gao, R., Grauman, K.: 2.5 d visual sound. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2019).

[2] Morgado, P., Nvasconcelos, N., Langlois, T., Wang, O.: Self-supervised generation ofspatial audio for 360 video. In: Advances in Neural Information Processing Systems. (NeurIPS 2018).

[3] Zhou, H., Xu, X., Lin, D., Wang, X., Liu, Z.: Sep-stereo: Visually guided stereophonic audio generation by associating source separation. In: Proceedings of the European Conference on Computer Vision (ECCV 2020).

END

备注:CV

计算机视觉综合交流群

图像分割、智能驾驶、超分辨率、OCR、SLAM、2D、3D目标检测等最新资讯,若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看,让更多人看到  

ECCV 2020 | 视觉引导的声源分离辅助立体声重构方法 Sep-Stereo相关推荐

  1. 计算机视觉与音乐,Talk预告 | 香港中文大学MMLab在读博士生周航: 视觉引导的音乐声源分离与立体声生成...

    本周为将门-TechBeat技术社区第245期线上Talk!也是ECCV 2020系列 Talk第③弹! 北京时间9月29日(周二)晚8点,香港中文大学多媒体实验室博士生-周航的Talk将准时在将门T ...

  2. 刚刚 ECCV 2020放榜!新鲜论文出炉啦!(附部分论文和代码汇总)

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要8分钟 Follow小博主,每天更新前沿干货 ECCV的全称是European Conference on Computer Vision(欧 ...

  3. ECCV 2020 论文大盘点-手势估计篇

    本文盘点ECCV 2020 中所有与3D手部姿态估计(3D Hand Pose Estimation)相关的论文,总计 8 篇. 下载包含这些论文的 ECCV 2020 所有论文: ECCV 2020 ...

  4. ECCV 2020 | 自监督任务辅助的知识蒸馏

    本文介绍了一种利用自监督任务辅助知识蒸馏的方法:Knowledge Distillation Meets Self-Supervision [1]. 这篇文章(以下简称SSKD)来自香港中文大学和南洋 ...

  5. 【论文汇总】 ECCV 2020 语义分割paper汇总

    语义分割 segmentation paper@ECCV 2020 ECCV 2020语义分割文章总结,文章下载链接. 文章目录 语义分割 segmentation paper@ECCV 2020 前 ...

  6. 30 篇亮点论文、5 大主题带你一览 ECCV 2020研究趋势

    编译 | 陈彩娴.Barack 编辑 | 陈彩娴 转自 | AI科技评论 ECCV 2020已圆满落幕.会议收到了1360篇论文投稿,其中包含104篇Oral论文.160篇Spotlight论文和10 ...

  7. 腾讯优图8篇论文入选ECCV 2020,涵盖目标检测/跟踪/Re-ID/人脸等领域

    点击上方"视学算法",选择加"星标"置顶 重磅干货,第一时间送达 本文转载自:腾讯优图 近日,计算机视觉方向的三大国际顶级会议之一的ECCV 2020公布论文获 ...

  8. ECCV 2020 | 腾讯优图8篇论文入选,涵盖目标跟踪、行人重识别、人脸识别等领域...

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要10分钟 Follow小博主,每天更新前沿干货 来源:腾讯优图 近日,计算机视觉方向的三大国际顶级会议之一的ECCV 2020公布论文获奖结果 ...

  9. 再破纪录!ECCV 2020 旷视研究院15篇成果总览

    图:ECCV 2020 词云分析结果 8月23-28日,全球计算机视觉三大顶会之一,两年一度的 ECCV 2020(欧洲计算机视觉国际会议)即将召开.受到疫情影响,今年的 ECCV 将以线上形式举办. ...

最新文章

  1. Request.ServerVariables获取环境变量
  2. python 判断字母大小写
  3. Demon_接金币(三个掉落物品预设体,一接物体的工具)
  4. 从方法到实践!深度解读:企业数据治理到底治什么?怎么治?
  5. java json注解_返回json用什么注解
  6. 0020-使用JDBC向Kudu表插入中文字符-双引号的秘密
  7. 如何设计可自学习的五子棋 AI?
  8. 组合选择符 深入了解
  9. Java 实现 HTML 转 PDF 文件
  10. 在Eclipse中安装Subclipse
  11. PCIe总线的参考时钟与同步时钟的差异
  12. 用二次函数研究三次多项式函数的零点问题【中阶和高阶辅导】
  13. ionic4自定义插件
  14. 小黑leetcode清爽雨天之旅,刚吃完宇飞牛肉面、麻辣烫和啤酒:112. 路径总和
  15. uefi装完系统后无法引导_uefi gpt安装win7启动不了如何解决_uefi gpt装win7后无法启动怎么办...
  16. 使用css制作永动的动画
  17. 周计划周记录:2022年6月6日-2022年6月12日
  18. BP神经网络(地震数据反推测井曲线)
  19. 这可是全网eNSP安装最完整,最详细的图解,没有之一(安装步骤)
  20. matlab 输出 syms,科学网-Matlab中的syms与conj-孔令才的博文

热门文章

  1. html 右边是iframe 左右结构_站点的内链优化和一些常用的结构优化方法
  2. 棋盘覆盖-分治法(代码实现)
  3. Spring框架 AOP
  4. 一个简单的PHP Web论坛
  5. [gtest][001] A quick introduction to the Google C++ Testing Framework
  6. linux pae内核安装,Linux 安装PAE内核
  7. python实训的意义_[Python] 一个让我更加清楚地理解了字典的实验……
  8. 免驱 usb有线网卡_Type-C转千兆有线网卡,MacBook也能接网线
  9. linux 6.3 ftp安装,CentOS6.3下安装VSFTP服务
  10. 虚拟机状态错误_学会这3招,分分钟迁移业务繁忙虚拟机!