华科团队发布 OVIS 遮挡视频实例分割基准数据集

By 超神经

内容提要：实例分割可广泛应用于各种应用场景中，作为计算机视觉领域的一个重要研究方向，也具有较大难度与挑战性。而很多场景中由于遮挡情况，使得实例分割成为难题中的难题。近日，来自华中大、阿里等机构的研究人员，为了解决这一问题，提出了一个大规模遮挡视频实例分割数据集 OVIS。

关键词：遮挡视频实例分割计算机视觉

在计算机视觉中，目标检测是最核心的问题，在目标检测中，实例分割又被看做是一项最具挑战的任务。实例分割，就是在目标检测的基础上，分割出物体的像素。

物体间常常存在相互遮挡，这也成为了工程师们头疼的问题。我们人类看到被遮挡的物体，能够凭借经验或联想识别出来。

那么，在计算机视觉中，能否像人类一样，准确识别出被遮挡物体呢？在实例分割这一研究命题里，解决遮挡带来的干扰，一直是重要的研究方向。

理想中的实例分割

实际中的实例分割

为了解决这一难点，来自华中科技大学、阿里巴巴、康奈尔大学、约翰霍普金斯大学以及牛津大学的团队，收集了一个用于遮挡视频实例分割的大规模数据集 OVIS（Occluded Video Instance Segmentation ），可用于同时检测、分割和跟踪遮挡场景中的实例。

数据集中的目标对象主要包括动物、人、交通工具等常见类别

这是继谷歌 YouTube-VIS 数据集之后，第二个大规模遮挡视频实例分割数据集。

OVIS：诞生于 901 段严重遮挡视频

对于我们平时目之所及的一切，几乎很少有物体孤立地出现，都或多或少存在遮挡情况。不过，研究表明，对于人类视觉系统来说，在遮挡情况下依然能区别目标对象的实际边界，而对于计算机视觉系统来说，就成为了一个大难题，也就是遮挡视频实例分割问题。

为了进一步探索并解决这一问题，来自华科、阿里等机构的团队，试图在原有开源的实例分割算法上，开发出更优的模型。

为了完成这项工作，团队首先收集了 OVIS 数据集，专门用于遮挡场景中的视频实例分割。在最近发表的论文《Occluded Video Instance Segmentation》中，详细介绍了这一数据集。

遮挡视频实例分割

论文地址：https://arxiv.org/pdf/2102.01558.pdf

为了收集该数据集，团队一共采集了近万段视频，并最终从中挑选出了 901 段遮挡严重、运动较多、场景复杂的片段，每段视频都至少有两个相互遮挡的目标对象。

其中大部分视频分辨率为 1920x1080，时长在 5s 到 60s 之间。他们按每 5 帧标注一帧的密度，进行了高质量标注，最终得到了 OVIS 数据集。

OVIS 共包含 5223 个目标对象的 296k 个高质量 mask 标注。相比之前谷歌 Youtube-VIS 数据集的 4883 个目标对象以及 131k masks 标注，OVIS 显然拥有更多的目标对象和 masks 标注。

不过，OVIS 使用的视频实际上少于 YouTube-VIS，因为团队的理念倾向于时长更长的视频，以实现长期跟踪功能。OVIS 的平均视频时长和平均实例时长分别为 12.77s 和 10.55s，对应的，YouTube-VIS 这两个参数分别是 4.63s 和 4.47s。

OVIS 数据集与 YouTube-VIS 数据集相关参数对比

团队为了使遮挡视频实例分割的任务更具挑战性，牺牲了一定的视频段数，标注了更长、更复杂的视频。

OVIS 数据集共包含 25 种生活中常见的类别，如下图所示，具体种类包括：人，鱼，车辆，马，羊，斑马，兔子，鸟，家禽，大象，摩托车，狗，猴子，船，乌龟，猫，牛，鹦鹉，自行车，长颈鹿，老虎，大熊猫，飞机，熊和蜥蜴。

这 25 个类别均为常见的语义类别

之所以选择这些类别，主要是考虑到以下三点：

这些目标往往处于运动状态，也更容易发生严重的遮挡；
它们在生活中很常见；
这些类别与目前流行的大型图像实例分割数据集（如 MS COCO，LVIS，Pascal VOC 等）有很高的重叠，因此方便研究人员进行模型的迁移和数据的复用。

与先前的其他 VIS 数据集相比，OVIS 数据集最显著的特点在于，很大一部分物体，都因不同因素被严重遮挡。因此，OVIS 是评估视频实例分割模型处理严重遮挡的有效测试平台。

为了量化遮挡的严重程度，团队提出了一个指标 mean Bounding-box Overlap Rate (mBOR)来粗略的反映遮挡程度。mBOR 指图像中边界框重叠部分的面积占所有边界框面积的比例。从参数对比列表中可以看出，相比于 YouTube-VIS，OVIS 有着更严重的遮挡。

OVIS 数据集详细信息如下：

Occluded Video Instance Segmentation

遮挡视频实例分割数据集

数据来源：《Occluded Video Instance Segmentation》

包含数量：5223 个目标对象，296k 个 masks

种类数量：25 种

数据格式：框架：jpg；注释：Json

视频分辨率：1920×1080

数据大小：12.7 GB

下载地址：https://hyper.ai/datasets/14585

OVIS 对视频实例分割提出更高基准

OVIS 数据集被随机分为 607 个训练视频、140 个验证视频和 154 个测试视频。团队在 OVIS 上对 5 种现有的开源视频实例分割算法，进行了综合评估，同时这也是对 OVIS 数据集的基线性能进行基准测试。

评估结果如下表所示：

在 OVIS 验证和测试集上，各个方法的定量比较

在 YouTube-VIS 验证集上各方法表现

与 YouTube0-VIS 相比，FEELVOS、IoUTracker+、MaskTrack R-CNN、SipMask 以及 STEm-Seg 五种算法，在 OVIS 上的性能都至少下降了 50%。比如，SipMask 的 AP 从 32.5 降到 12.1，而 STEm-Seg 从 30.6 降到 14.4。这些结果都在提醒研究者们，应进一步关注视频实例分割问题。

此外，团队通过使用校准模块，在原有算法基础上，显著提高了其性能。其开发的 CMaskTrack R-CNN 比原算法 MaskTrack R-CNN 的 AP 改善了 2.6，从 12.6 提升至 15.2，CSipMask 比 SipMask 改善了 2.9，从 12.1 提升至 15.0。

CMaskTrack R-CNN 在 OVIS 上的定性评价

每行显示视频序列中 5 帧的结果

在上图的图（c）中，鸭群比较拥挤的场景下，团队的方法几乎正确检测和跟踪了所有的鸭子，不过第二帧最左边的一个鸭子检测失败。不过，在之后的帧中，这只鸭子又被重新跟踪，证明团队的模型很好地捕获了时间线索。

团队又在 YouTube-VIS 数据集上进一步评估了他们提出的 CMaskTrack R-CNN 和 CSipMask 算法，结果与原方法相比，在 AP 上都超越了原方法。

未来应用：视频全景分割、合成遮挡数据

团队表示，常用的视频分割算法在 OVIS 的基线表现，远远低于在 YouTube-VIS 上的表现，这表明未来，研究者应该在遮挡视频对象处理上投入更多精力。

此外，团队利用时态上下文线索，探索了解决遮挡问题的方法，将来，团队将在无监督、半监督或交互式设置下，在视频对象分割场景中，将 OVIS 的实验轨迹形式化。另外，将 OVIS 扩展到视频全景分割也是至关重要的（注：视频全景分割即同时实现对背景的语义分割和前景的实例分割，这是实例分割领域近来的新趋势）。

背景对目标对象造成遮挡，这会影响算法对背景的预测

此外，合成遮挡数据也是团队需要进一步探索的方向。团队表示，相信 OVIS 数据集将引发更多在复杂和多样场景下理解视频的研究。

这一技术未来在影视剧特效、短视频、直播中，人物与背景的分离工作中都将起到重要作用。

参考资料：

论文地址：https://arxiv.org/pdf/2102.01558.pdf

项目官网：http://songbai.site/ovis/

谷歌 YouTube-VIS 数据集：

https://youtube-vos.org/dataset/vis/

—— 完 ——

扫码加好友，加入海归Python编程和人工智能群

华科团队发布 OVIS 遮挡视频实例分割基准数据集相关推荐

遮挡场景下视频实例分割怎么做？牛津阿里最新开源OVIS数据集！
点击上方"CVer",选择加"星标"置顶重磅干货,第一时间送达本文系CVer粉丝投稿,欢迎大家分享优质的工作本文介绍一下我们最近公开的视频实例分割数据集O ...
CVPR 2021 | 基于Transformer的端到端视频实例分割方法
实例分割是计算机视觉中的基础问题之一.目前,静态图像中的实例分割业界已经进行了很多的研究,但是对视频的实例分割(Video Instance Segmentation,简称VIS)的研究却相对较少.而 ...
视频实例分割paper（一）《Video Instance Segmentation》
[主要贡献] 1.视频实例分割第一次被正式定义和探索 2.创建了第一个大规模视频实例分割数据集 2.9k视频 40个目标类别 3.提出一种新的视频实例分割算法MaskTrack R-CNN,在Mask ...
CVPR2021 | 基于transformer的视频实例分割网络VisTR
原文:End-to-End Video Instance Segmentation with Transformers 翻译:夏初摘要: 视频实例分割(VIS)是一项需要同时对视频中感兴趣的对象实例 ...
Python+selenium 实现自动上传视频到自媒体平台并发布好看短视频实例演示
Python+selenium 实现自动上传并发布好看短视频实例演示第一章:效果展示 ① 效果展示 ② 素材展示一个为视频,另一个为像素大小不小于视频的封面. 第二章:实现过程 ① 调用已启用的浏 ...
华科提出首个用于伪装实例分割的一阶段框架OSFormer
本篇分享 ECCV 2022 论文『OSFormer: One-Stage Camouflaged Instance Segmentation with Transformers』,华科&ET ...
NTU等开源复杂场景下的大型视频目标分割VOS数据集MOSE
关注公众号,发现CV技术之美视频目标分割 (VOS)的现有SOTA方法在已有数据集上已经取得90+% J&F的优异性能,似乎这一问题已经被解决得很好了.那么现有方法在更复杂的场景中的处理能力 ...
mask rcnn 实例分割的数据集制作
这篇博客是基于 Google Colab 的 mask rcnn 训练自己的数据集(以实例分割为例)文章中数据集的制作这部分的一些补充温馨提示: 实例分割是针对同一个类别的不同个体或者不同部分 ...
汇总 | 深度学习中图像语义分割基准数据集详解
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达汇总图像语义分割那些质量最好的数据集与常用benchmark数据集 ...

华科团队发布 OVIS 遮挡视频实例分割基准数据集

华科团队发布 OVIS 遮挡视频实例分割基准数据集相关推荐

最新文章

热门文章