点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—> CV 微信技术交流群

衡宇 发自 凹非寺
转载自:量子位(QbitAI)

听到“唔哩——唔哩——”的警笛声,你可以迅速判断出声音来自路过的一辆急救车。

能不能让AI根据音频信号得到发声物完整的、精细化的掩码图呢?

来自合肥工业大学、商汤、澳国立、北航、英伟达、港大和上海人工智能实验室的研究者提出了一项新的视听分割任务(Audio-Visual Segmentation, AVS)

视听分割,就是要分割出发声物,而后生成发声物的精细化分割图。

相应的,研究人员提出了第一个具有像素级标注的视听数据集AVSBench

Audio-Visual Segmentation

论文地址:

https://arxiv.org/abs/2207.05042

GitHub地址:

https://github.com/OpenNLPLab/AVSBench

项目主页:

https://opennlplab.github.io/AVSBench/

新任务、新的数据集,搞算法的又有新坑可以卷了。

据最新放榜结果,该论文已被ECCV 2022接受。

精准锁定发声物

听觉和视觉是人类感知世界中最重要的两个传感器。生活里,声音信号和视觉信号往往是互补的。

视听表征学习(audio-visual learning)已经催生了很多有趣的任务,比如视听通信(AVC)、视听事件定位(AVEL)、视频解析(AVVP)、声源定位(SSL)等。

这里面既有判定音像是否描述同一事件/物体的分类任务,也有以热力图可视化大致定位发声物的任务。

但无论哪一种,离精细化的视听场景理解都差点意思。

 AVS 任务与 SSL 任务的比较

视听分割“迎难而上”,提出要准确分割出视频帧中正在发声的物体全貌——

即以音频为指导信号,确定分割哪个物体,并得到其完整的像素级掩码图。

AVSBench 数据集

要怎么研究这个新任务呢?

鉴于当前还没有视听分割的开源数据集,研究人员提出AVSBench 数据集,借助它研究了新任务的两种设置:

1、单声源(Single-source)下的视听分割
2、多声源(Multi-sources)下的视听分割

数据集中的每个视频时长5秒。

单声源子集包含23类,共4932个视频,包含婴儿、猫狗、吉他、赛车、除草机等与日常生活息息相关的发声物。

AVSBench单源子集的数据分布

多声源子集则包含了424个视频。

结合难易情况,单声源子集在半监督条件下进行,多声源子集则以全监督条件进行。

研究人员对AVSBench里的每个视频等间隔采样5帧,然后人工对发声体进行像素级标注。

对于单声源子集,仅标注采样的第一张视频帧;对于多声源子集,5帧图像都被标注——这就是所谓的半监督和全监督。

对单声源子集和多声源子集进行不同人工标注

这种像素级的标注,避免了将很多非发声物或背景给包含进来,从而增加了模型验证的准确性。

一个简单的baseline方法

有了数据集,研究人员还抛砖引玉,在文中给了个简单的baseline。

吸收传统语义分割模型的成功经验,研究人员提出了一个端到端的视听分割模型。

视听分割框架图

这个模型遵循编码器-解码器的网络架构,输入视频帧,最终直接输出分割掩码。

另外,还有两个网络优化目标。

一是计算预测图和真实标签的损失。

而针对多声源情况,研究人员提出了掩码视听匹配损失函数,用来约束发声物和音频特征在特征空间中保持相似分布。

部分实验结果

光说不练假把式,研究人员进行了广泛实验。

首先,将视听分割与相关任务的6种方法进行了比较,研究人员选取了声源定位(SSL)、视频物体分割(VOS)、显著性物体检测(SOD)任务上的各两个SOTA方法。

实验结果表明,视听分割在多个指标下取得了最佳结果。

和来自相关任务方法进行视听分割的对比结果

其次,研究人员进行了一系列消融实验,验证出,利用TPAVI模块,单声源和多声源设置下采用两种backbone的视听分割模型都能得到更大的提升。

引入音频的TPAVI模块,可以更好地处理物体的形状细节(左图),并且有助于分割出正确的发声物(右图)

对于新任务的视听匹配损失函数,实验还验证了其有效性。

视听匹配损失函数的有效性

One More Thing

文中还提到,AVSBench数据集不仅可以用于所提出的视听分割模型的训练、测试,其也可以用于验证声源定位模型

研究人员在项目主页上表示,正在准备比AVSBench大10倍的AVSBench-v2

一些视频的分割demo也上传在主页上。感兴趣的话可以前往查看~

点击进入—> CV 微信技术交流群

CVPR 2022论文和代码下载

后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

图像分割 交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-OCR 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如图像分割+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

ECCV 2022 | 视觉新任务!AVS:视听分割相关推荐

  1. ECCV 2022 | 适用于分类,检测,分割的生成式知识蒸馏开源

    作者丨美索不达米亚平原@知乎 (已授权) 来源丨https://zhuanlan.zhihu.com/p/539496128 编辑丨极市平台 导读 本文主要介绍ECCV 2022关于知识蒸馏的工作: ...

  2. 听声辨物,这是AI视觉该干的???|ECCV 2022

    转自:量子位 听到"唔哩--唔哩--"的警笛声,你可以迅速判断出声音来自路过的一辆急救车. 能不能让AI根据音频信号得到发声物完整的.精细化的掩码图呢? 来自合肥工业大学.商汤.澳 ...

  3. ECCV 2022 | 新方案: 先剪枝再蒸馏

    前言 论文提出了一个新的框架,"prune, then distill",该框架首先剪枝模型,使其更具可移植性,然后提取给student.并进一步从理论上证明了剪枝后的teache ...

  4. ECCV 2022 | MGD:适用于分类、检测和分割的生成式知识蒸馏

    ©作者 | 美索不达米亚平原 单位 | 清华大学.字节跳动 本文介绍我们ECCV 2022关于知识蒸馏的工作: Masked Generative Distillation,方法适用于分类,检测与分割 ...

  5. ECCV 2022 | 清华字节提出MGD:适用于分类/检测/分割的生成式知识蒸馏

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:美索不达米亚平原 |  已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhi ...

  6. #今日论文推荐#ECCV 2022 | 清华字节提出MGD:适用于分类/检测/分割的生成式知识蒸馏

    #今日论文推荐#ECCV 2022 | 清华&字节提出MGD:适用于分类/检测/分割的生成式知识蒸馏 知识蒸馏主要可以分为logit蒸馏和feature蒸馏.其中feature蒸馏具有更好的拓 ...

  7. ECCV 2022 | XMem:给1万帧视频做目标分割,显存还不到1.4GB!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 明敏 发自 凹非寺 转载自:量子位(QbitAI) 咦,怎么好好的 ...

  8. 给1万帧视频做目标分割,显存占用还不到1.4GB,代码已开源 | ECCV 2022

    明敏 发自 凹非寺 量子位 | 公众号 QbitAI 咦,怎么好好的藤原千花,突然变成了"高温红色版"? 这大紫手,难道是灭霸在世?? 如果你以为上面的这些效果只是对物体后期上色了 ...

  9. 【反内卷】开创全新AI多模态任务一视听分割:附原理、代码实践、优化教程(一)

    前言 文章原创,出自 cv君,公众号:DeepAI 视界 gif 不能发出声音,大家脑补一下场景.算法找到视频中的打击乐器和钢琴正在发声 gif 不能发出声音,大家脑补一下场景.算法找到视频中的救护车 ...

最新文章

  1. CSS属性disabled和readonly的区别是什么
  2. 高通5G版图现身!你的网络生活将迎来巨变?
  3. Centos 中 service iptables stop 失败
  4. python与正则表达式(part6)--re模块使用
  5. 一台计算机连入计算机网络后通过该计算机,一台计算机连入计算机网络后,该计算机( )。...
  6. 实例17:python
  7. 调节e18-d80nk的测量距离_地坪研磨机磨盘平整度的调节方法及好处
  8. Python bin 函数 - Python零基础入门教程
  9. 多城市教育培训机构行业企业站群系统源码-强大的SEO功能-内置三千多个城市
  10. CentOS上快速安装Oracle服务器脚本
  11. 饿了么前端DEMO 网址 VUE.js
  12. php中文字怎么上下居中,CSS怎么设置垂直居中?
  13. python zip函数_python内置函数-zip
  14. 如何将c语言转成汇编语言,如何把汇编语言转换成C语言
  15. php 不返回 数据,php – file_get_contents没有返回任何数据
  16. 网络机顶盒刷机linux,手机、网络机顶盒刷机recovery教程[整理].doc
  17. 面向对象的分析(Object Oriented Analysis,OOA)模型有三种:功能模型 (用例图)对象模型(类图) 动态模型(状态图)
  18. 浏览器相关(持续更新)
  19. pytorch 计算 kl散度 F.kl_div()
  20. linux报错Loading mirror speeds from cached hostfile解决方法

热门文章

  1. Java高级编程3-姜国海
  2. Visual Studio 2013如何显示代码行数
  3. Java开源项目管理工具大全
  4. 【Linux】Rsync基于SSH认证的使用(rsync 命令属于1 v 4 的命令、rsync常用参数基本用法)
  5. 微机原理和计算机组成原理一样吗_计算机组成原理(指令)
  6. Swift学习笔记(4)使用UIImagePickerController实现从设备图片库和照相机获取图片
  7. C++实现TTS文字语音朗读Microsoft Speech SDK
  8. C++数组求和:关于accumulate函数的使用,简化编写代码量的方法
  9. 【与GPT对话】杂记
  10. Tomcat 支持的Java版本对照