ECCV 2022 | 视觉新任务！AVS：视听分割

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—> CV 微信技术交流群

衡宇发自凹非寺
转载自：量子位（QbitAI）

听到“唔哩——唔哩——”的警笛声，你可以迅速判断出声音来自路过的一辆急救车。

能不能让AI根据音频信号得到发声物完整的、精细化的掩码图呢？

来自合肥工业大学、商汤、澳国立、北航、英伟达、港大和上海人工智能实验室的研究者提出了一项新的视听分割任务（Audio-Visual Segmentation, AVS)。

视听分割，就是要分割出发声物，而后生成发声物的精细化分割图。

相应的，研究人员提出了第一个具有像素级标注的视听数据集AVSBench。

Audio-Visual Segmentation

论文地址：

https://arxiv.org/abs/2207.05042

GitHub地址：

https://github.com/OpenNLPLab/AVSBench

项目主页：

https://opennlplab.github.io/AVSBench/

新任务、新的数据集，搞算法的又有新坑可以卷了。

据最新放榜结果，该论文已被ECCV 2022接受。

精准锁定发声物

听觉和视觉是人类感知世界中最重要的两个传感器。生活里，声音信号和视觉信号往往是互补的。

视听表征学习（audio-visual learning）已经催生了很多有趣的任务，比如视听通信（AVC）、视听事件定位（AVEL）、视频解析（AVVP）、声源定位（SSL）等。

这里面既有判定音像是否描述同一事件/物体的分类任务，也有以热力图可视化大致定位发声物的任务。

但无论哪一种，离精细化的视听场景理解都差点意思。

△ AVS 任务与 SSL 任务的比较

视听分割“迎难而上”，提出要准确分割出视频帧中正在发声的物体全貌——

即以音频为指导信号，确定分割哪个物体，并得到其完整的像素级掩码图。

AVSBench 数据集

要怎么研究这个新任务呢？

鉴于当前还没有视听分割的开源数据集，研究人员提出AVSBench 数据集，借助它研究了新任务的两种设置：

1、单声源（Single-source）下的视听分割
2、多声源（Multi-sources）下的视听分割

数据集中的每个视频时长5秒。

单声源子集包含23类，共4932个视频，包含婴儿、猫狗、吉他、赛车、除草机等与日常生活息息相关的发声物。

△AVSBench单源子集的数据分布

多声源子集则包含了424个视频。

结合难易情况，单声源子集在半监督条件下进行，多声源子集则以全监督条件进行。

研究人员对AVSBench里的每个视频等间隔采样5帧，然后人工对发声体进行像素级标注。

对于单声源子集，仅标注采样的第一张视频帧；对于多声源子集，5帧图像都被标注——这就是所谓的半监督和全监督。

△对单声源子集和多声源子集进行不同人工标注

这种像素级的标注，避免了将很多非发声物或背景给包含进来，从而增加了模型验证的准确性。

一个简单的baseline方法

有了数据集，研究人员还抛砖引玉，在文中给了个简单的baseline。

吸收传统语义分割模型的成功经验，研究人员提出了一个端到端的视听分割模型。

△视听分割框架图

这个模型遵循编码器-解码器的网络架构，输入视频帧，最终直接输出分割掩码。

另外，还有两个网络优化目标。

一是计算预测图和真实标签的损失。

而针对多声源情况，研究人员提出了掩码视听匹配损失函数，用来约束发声物和音频特征在特征空间中保持相似分布。

部分实验结果

光说不练假把式，研究人员进行了广泛实验。

首先，将视听分割与相关任务的6种方法进行了比较，研究人员选取了声源定位（SSL）、视频物体分割（VOS）、显著性物体检测（SOD）任务上的各两个SOTA方法。

实验结果表明，视听分割在多个指标下取得了最佳结果。

△和来自相关任务方法进行视听分割的对比结果

其次，研究人员进行了一系列消融实验，验证出，利用TPAVI模块，单声源和多声源设置下采用两种backbone的视听分割模型都能得到更大的提升。

△引入音频的TPAVI模块，可以更好地处理物体的形状细节（左图），并且有助于分割出正确的发声物（右图）

对于新任务的视听匹配损失函数，实验还验证了其有效性。

△视听匹配损失函数的有效性

One More Thing

文中还提到，AVSBench数据集不仅可以用于所提出的视听分割模型的训练、测试，其也可以用于验证声源定位模型。

研究人员在项目主页上表示，正在准备比AVSBench大10倍的AVSBench-v2。

一些视频的分割demo也上传在主页上。感兴趣的话可以前往查看~

点击进入—> CV 微信技术交流群

CVPR 2022论文和代码下载

后台回复：CVPR2022，即可下载CVPR 2022论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

图像分割 交流群成立
扫描下方二维码，或者添加微信：CVer6666，即可添加CVer小助手微信，便可申请加入CVer-OCR 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注：研究方向+地点+学校/公司+昵称（如图像分割+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群▲扫码或加微信: CVer6666，进交流群
CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！▲扫码进群
▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看