MOSE：大型视频目标分割数据集！为复杂场景而生，NTU、字节等开源

本文来源机器之心编辑部

视频目标分割 (Video Object Segmentation, VOS) 的现有 SOTA 方法在已有数据集上已经取得 90+% J&F 的优异性能，似乎已经很好地解决了这一研究问题。那么现有方法在更复杂场景中的处理能力如何呢？

为了探究这个问题，来自南洋理工大学、浙江大学、牛津大学、和字节跳动的研究者们构建了一个专门针对复杂场景的大规模视频目标分割数据集 coMplex video Object SEgmentation (MOSE)。

论文地址：https://arxiv.org/abs/2302.01872
项目主页：https://henghuiding.github.io/MOSE

视频目标分割 (Video Object Segmentation, VOS) 是计算机视觉中的一个热点问题。在一段视频中，给定目标物体在视频第一帧中某些线索 (如 mask, bounding box, 或者 scribble 等形式)，VOS 旨在准确地分割和追踪该目标物体，获取该物体在整个视频序列中每一帧的高质量 mask。与现有的 VOS 数据集相比，MOSE 最主要的特点是在大量复杂场景中包含了拥挤的目标群、各式各样的遮挡、消失并重现的物体、以及不明显的小物体等富有挑战的情景。因此，MOSE 可以很好地衡量 VOS 算法在复杂场景下的视频目标分割性能，并推动 VOS 在更真实场景下的应用研究。

在 MOSE 数据集上，研究者们在 4 种不同设置下对 18 种视频目标分割方法进行了广泛实验，包括 6 种使用 mask 的半监督 (semi-supervised) 方法、2 种使用 bounding box 的半监督方法、3 种多目标无监督 (unsupervised) 方法、和 7 种交互式视频分割方法。实验表明，现有方法尚不能在复杂场景下取得令人满意的结果。如在最热点的 semi-supervised VOS 任务中，现有方法的 VOS 性能从 DAVIS 和 YouTube-VOS 上的 80%～90% J&F 下降到仅 40%～50% J&F。这些实验表明，尽管当前方法在现有数据集上取得了优异的性能，但在复杂场景下的视频目标分割仍存在很多未解决的挑战，未来需要更多工作来研究和探索这些挑战。

MOSE 数据集简介

MOSE 包含共 2149 个，总时长达 443 分钟的视频，包含有 36 个类别的 5200 个物体。标注的 mask 数总计达 431,725 个。从下表中可以看出，MOSE 在标注规模和总时长上明显相较于其他数据集更大。

不仅在规模上，MOSE 在难度上也尤为突出。从表中的消失率 (Disapp. Rate) 一列来看，MOSE 中有 28.8% 的物体在至少一帧中完全消失，非常考验模型对物体的再跟踪能力。同时，从反映物体遮挡强度的 mBOR 指标来看，MOSE 视频的遮挡现象相较于其他 VOS 数据集也更加显著。

此外，在保证目标物体的多样性和复杂性的同时，MOSE 也丰富了视频长度的多样性。数据集中包含了短至 5 秒的短视频和长至 1 分钟的长视频。在保证标注帧率最低为 5fps 的基础上，数据集中还包含了很多高达 30fps 的完全标注视频，这考验模型在追踪速度方面的稳定性，也进一步提高了 MOSE 数据集的难度。

可视化

MOSE 数据集中包括大量的拥挤、消失、遮挡和非显著 / 小物体等复杂场景。下面介绍一些数据集中的典型视频。

如下视频展示了一个非常拥挤复杂但贴近现实的球赛场景。红色球员首先以背对镜头的状态被其他球员所遮挡，之后在转身后以面向镜头的状态重新出现，与蓝色球员相互遮挡，这种被遮挡前和重新出现后的巨大差别极大地增加了视频的难度。

下面的视频片段中同时包含了面积较大的物体（汽车）和面积较小的物体（行人）。对于行人来说，汽车在行驶过程中几乎将两个行人完全遮挡。而大型物体（汽车）首先被环境（树木）所遮挡，而后遮挡位于画面后方的较小物体（行人）。

如下视频展示了七只山羊大步往前跑，相互之间外观高度相似且彼此遮挡，极大增加了视频目标分割的难度。且 mask 标注质量很高，对动物的尾巴和羊角等细节都进行了精细的标注。

更多可视化片段参见项目主页。

实验

以给定第一帧 mask 的半监督 (semi-supervised) 任务为例，研究者在 MOSE 上尝试了 6 种现有的开源的 VOS 算法，结果如下表所示。可以看到 MOSE 非常具有挑战性。在之前的数据集 DAVIS 和 Youtube-VOS 上，各方法均取得了 80% J&F 以上的好成绩，近乎饱和。然而，在新的 MOSE 数据集上，各方法的性能却并不尽人意。如目前最优的方法 DeAOT 在 DAVIS 2017 上的成绩为 85.2% J&F，但在 MOSE 上却只有 59.4% J&F。实验结果表明，尽管很多方法已经在之前的基准测试中取得了出色的 VOS 性能，但在复杂场景下仍存在未解决的挑战，未来需要更多努力来探索这些挑战。

研究者基于 VOS 其他子任务：无监督视频目标分割 (Unsupervised Video Object Segmentation) 以及交互式视频目标分割 (Interactive Video Object Segmentation) 也进行了实验，更多实验结果请见论文。

总结

研究者构建了一个名为 MOSE 的大规模复杂场景视频目标分割数据集，以推动 VOS 在更真实复杂场景下的应用研究。基于提出的 MOSE 数据集，作者对现有 VOS 方法进行了基准测试并进行了全面比较。发现在拥挤、消失、遮挡、以及非显著 / 小物体等复杂场景频繁出现时，会给现有算法带来了巨大挑战，期待 MOSE 能够启发更多研究人员进行复杂场景下的视频目标理解的研究。

更多细节请参考论文原文。

猜您喜欢：

深入浅出stable diffusion：AI作画技术背后的潜在扩散模型论文解读

戳我，查看GAN的系列专辑~！

一顿午饭外卖，成为CV视觉的前沿弄潮儿！

最新最全100篇汇总！生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

ICCV 2021 | 35个主题GAN论文汇总

超110篇！CVPR 2021最全GAN论文梳理

超100篇！CVPR 2020最全GAN论文梳理

拆解组新的GAN：解耦表征MixNMatch

StarGAN第2版：多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云：独学而无友，则孤陋而寡闻

欢迎加入 GAN/扩散模型 —交流微信群！

扫描下面二维码，添加运营小妹好友，拉你进群。发送申请时，请备注，格式为：研究方向+地区+学校/公司+姓名。如 扩散模型+北京+北航+吴彦祖

请备注格式：研究方向+地区+学校/公司+姓名

点击 一顿午饭外卖，成为CV视觉的前沿弄潮儿！，领取优惠券，加入 AI生成创作与计算机视觉 知识星球！

MOSE：大型视频目标分割数据集！为复杂场景而生，NTU、字节等开源相关推荐

南洋理工等开源MOSE：复杂场景下的大型视频目标分割数据集
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达点击进入->图像分割微信技术交流群视频目标分割 (VOS)的现有SOTA方法在已有数据集上已经取得9 ...
NTU等开源复杂场景下的大型视频目标分割VOS数据集MOSE
关注公众号,发现CV技术之美视频目标分割 (VOS)的现有SOTA方法在已有数据集上已经取得90+% J&F的优异性能,似乎这一问题已经被解决得很好了.那么现有方法在更复杂的场景中的处理能力 ...
ECCV 2020 Spotlight | CFBI：前背景整合的协作式视频目标分割
©PaperWeekly · 作者|杨宗鑫学校|悉尼科技大学博士生研究方向|视频分割.网络结构设计半监督视频目标分割视频目标分割(VOS)是计算机视觉领域的一个基础任务,具有非常多潜在的应用场 ...
CVPR 2020 论文大盘点-全景分割与视频目标分割篇
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达今天的内容关注于全景分割(Panoptic Segmentation)和视频目标分割(Video Ob ...
显著改善分割预测，ETH开源基于情景图储存网络的视频目标分割｜ECCV2020
原文链接:https://bbs.cvmart.net/articles/3119 专注计算机视觉前沿资讯和技术干货微信公众号:极市平台官网:https://www.cvmart.net/ 本文主 ...
ECCV 2020 论文大盘点-视频目标分割篇
本文盘点 ECCV 2020 中所有视频目标分割(Video Object Segmentation,VOS)相关论文,总计 11 篇,其中 oral 1 篇,spotlight 2篇, 5 篇论文开 ...
本周新出开源计算机视觉代码汇总（含图像超分辨、视频目标分割、行人重识别、点云识别等）...
点击我爱计算机视觉标星,更快获取CVML新技术今天汇总了本周新出的计算机视觉开源代码.(有部分已经有git地址但还没上传代码) 共有12份来自前沿计算机视觉研究的代码,CV君数了数,竟然发现其中10 ...
终于！商汤科技开源DAVIS2017视频目标分割冠军代码
(关注52CV--有价值有深度的公众号~) 用目标重识别改进视频目标分割. 传统视频分割经常依赖于时序连续来生成mask(目标的掩膜),而真实的视频中的目标位置往往存在着一些跳变,比如在目标快速漂移和 ...
点云编码是计算机视觉吗,本周新出开源计算机视觉代码汇总（含图像超分辨、视频目标分割、行人重识别、点云识别等）...
今天汇总了本周新出的计算机视觉开源代码.(有部分已经有git地址但还没上传代码) 共有12份来自前沿计算机视觉研究的代码,CV君数了数,竟然发现其中10份代码所属论文的第一作者是华人! 可见,华人学者 ...

MOSE：大型视频目标分割数据集！为复杂场景而生，NTU、字节等开源

MOSE：大型视频目标分割数据集！为复杂场景而生，NTU、字节等开源相关推荐

最新文章

热门文章