点击上方“CVer”,选择加"星标"置顶

重磅干货,第一时间送达

本文系CVer粉丝投稿,欢迎大家分享优质的工作

本文介绍一下我们最近公开的视频实例分割数据集OVIS

Occluded Video Instance Segmentation

论文:https://arxiv.org/abs/2102.01558

主页:http://songbai.site/ovis/

1. Motivation

对于被遮挡的物体,人类能够根据时序上下文来识别,定位和追踪被遮挡的物体,甚至能脑补出物体被遮住的部分,那么现有的深度学习方法对遮挡场景的处理能力如何呢?

为了探究这个问题,我们构建了一个针对强遮挡场景的大型视频实例分割数据集Occluded Video Instance Segmentation (OVIS)。视频实例分割(VIS)要求算法能检测、分割、跟踪视频里的所有物体。与现有的VIS数据集相比,OVIS最主要的特点就是视频里存在大量的多种多样的遮挡。因此,OVIS很适合用来衡量算法对于遮挡场景的处理能力。

实验表明,现有的方法并不能在强遮挡场景下取得令人满意的结果,相比于广泛使用的YouTube-VIS数据集,几乎所有算法在OVIS上的指标都下降了一半以上。

2. Dataset Statistics

我们一共采集了近万段视频,并最终从中挑选出了901段遮挡严重、运动较多、场景复杂的片段,每段视频都至少有两个相互遮挡的目标对象。其中大部分视频分辨率为1920x1080,时长在5s到60s之间。我们按每5帧标注一帧的密度进行了高质量标注,最终得到了OVIS数据集。

OVIS共包含25种生活中常见的类别,如下图所示,其中包括人,交通工具,以及动物。这些类别的目标往往处于运动状态,也更容易发生严重的遮挡。此外,OVIS的25个类别都可以在大型的图片级实例分割数据集(MS COCO,LVIS,Pascal VOC 等)中找到,方便研究人员进行模型的迁移和数据的复用。

OVIS包含5223个目标对象的296k个高质量mask标注。相比先前的Youtube-VIS数据集,OVIS拥有更多的mask和更多的目标对象。我们牺牲了一定的视频段数来标注更长更复杂的视频,以让它更具挑战性。

与先前的其他VIS数据集相比,OVIS最大的特点在于严重的遮挡。为了量化遮挡的严重程度,我们提出了一个指标mean Bounding-box Overlap Rate (mBOR)来粗略的反映遮挡程度。mBOR指图像中边界框重叠部分的面积占所有边界框面积的比例。从下表中可以看出,相比于YouTube-VIS,OVIS有着更严重的遮挡。

值得注意的是,除去上面提到的基础数据统计量,OVIS在视频时长、物体可见时长、每帧物体数、每段视频物体数等统计量上都显著高于YouTube-VIS,这与实际场景更为相近,同时也进一步提高了OVIS的难度。

3. Experiments

我们在OVIS上尝试了5种开源的现有算法,结果如下表。可以看到OVIS非常具有挑战性。使用同样的评价指标,MaskTrack R-CNN在Youtube-VIS验证集上mAP能达到30.3,在OVIS验证集上只有10.9;SipMask的mAP也从Youtube-VIS上的32.5下降到了OVIS上的10.3。5个现有算法中,STEm-Seg在OVIS上效果最好,但也只得到了13.8的mAP。

4. Visualization

OVIS中包含多种不同的遮挡类型,按遮挡程度可分为部分遮挡、完全遮挡,按被遮挡场景可分为被其他目标对象遮挡、被背景遮挡、被图片边界遮挡。不同类型的遮挡可能同时存在,物体之间的遮挡关系也比较复杂。

此外,从下面的可视化片段中也可以看出OVIS的标注质量很高,我们对笼子的网格、动物的毛发都做了精细的标注。

更多可视化样例请见该工作的主页:

http://songbai.site/ovis/

Visualization of the annotations.

5. Conclusion

我们针对遮挡场景下的视频实例分割任务构建了一个大型数据集OVIS。作为继YouTube-VIS之后的第二个视频实例分割benchmark,OVIS主要被设计用于衡量模型处理遮挡场景的能力。实验表明OVIS给现有算法带来了巨大的挑战。未来,我们还将把OVIS推广至视频物体分割(VOS),视频全景分割(VPS)等场景,期待OVIS能够启发更多的研究人员进行复杂场景下视频理解的研究。

更多细节请见论文

OVIS论文下载

后台回复:OVIS,即可下载上述论文PDF和数据集,肝起来!

重磅!CVer-图像分割交流群成立

扫码添加CVer助手,可申请加入CVer-图像分割方向 微信交流群,可申请加入CVer大群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、Transformer、PyTorch和TensorFlow等群。

一定要备注:研究方向+地点+学校/公司+昵称(如图像分割+上海+上交+卡卡),根据格式备注,才能通过且邀请进群

▲长按加微信群

▲长按关注CVer公众号

整理不易,请给CVer点赞和在看

遮挡场景下视频实例分割怎么做?牛津阿里最新开源OVIS数据集!相关推荐

  1. 华科团队发布 OVIS 遮挡视频实例分割基准数据集

    By 超神经 内容提要:实例分割可广泛应用于各种应用场景中,作为计算机视觉领域的一个重要研究方向,也具有较大难度与挑战性.而很多场景中由于遮挡情况,使得实例分割成为难题中的难题.近日,来自华中大.阿里 ...

  2. CVPR 2021 | 基于Transformer的端到端视频实例分割方法

    实例分割是计算机视觉中的基础问题之一.目前,静态图像中的实例分割业界已经进行了很多的研究,但是对视频的实例分割(Video Instance Segmentation,简称VIS)的研究却相对较少.而 ...

  3. 视频实例分割paper(一)《Video Instance Segmentation》

    [主要贡献] 1.视频实例分割第一次被正式定义和探索 2.创建了第一个大规模视频实例分割数据集 2.9k视频 40个目标类别 3.提出一种新的视频实例分割算法MaskTrack R-CNN,在Mask ...

  4. CVPR2021 | 基于transformer的视频实例分割网络VisTR

    原文:End-to-End Video Instance Segmentation with Transformers 翻译:夏初 摘要: 视频实例分割(VIS)是一项需要同时对视频中感兴趣的对象实例 ...

  5. 韩国ETRI提出实时Anchor-Free实例分割算法CenterMask,代码将开源

    点击我爱计算机视觉标星,更快获取CVML新技术 今天来自韩国ETRI的一篇论文CenterMask : Real-Time Anchor-Free Instance Segmentation 很抢眼, ...

  6. 金融科技火热无比时,支付场景下的风控可以怎么做?(下)

    金融中的人脸识别,主要用途分两种:一种是身份核验,即一对一.其实你已经知道了你当前操作的这个待核验人的身份,接下来只要对这个身份和这个人之间进行一个信息核验.:另外一种我们称之为叫1对N,应用在规模化 ...

  7. 不同场景下视频加密方案有哪些?

    因为这两年疫情的原因,线上网课学习潮来袭.不仅仅是学校会通过线上来完成教学,各种线上培训机构也随之兴起,抓住线上网课这一商机,来进行录制课程,进行知识变现.那么,这样就会面临一个问题:自己辛苦制作的视 ...

  8. 开启基于Query的实例分割新思路!腾讯华科提出QueryInst

    来源:机器之心 实例分割(Instance Segmentation)任务有着广阔的应用和发展前景.来自腾讯 PCG 应用研究中心 (ARC)和华中科技大学的研究者们通过充分挖掘并利用Query在端到 ...

  9. 腾讯ARC、华中科大联合提出QueryInst,开启基于Query的实例分割新思路

    视学算法专栏 机器之心编辑部 实例分割(Instance Segmentation)任务有着广阔的应用和发展前景.来自腾讯 PCG 应用研究中心 (ARC)和华中科技大学的研究者们通过充分挖掘并利用Q ...

最新文章

  1. 微信的行程卡服务器异常,行程卡打不开服务器崩了解决方法 行程卡短信查询步教程...
  2. java cpu监控,java系统监控CPU 磁盘
  3. 小心使用innerHTML
  4. 《剑指offer》——03. 数组中重复的数字——HashSet、哈希思想——java实现
  5. 电子工程师过去1年的点点滴滴
  6. 前端学习(2309):react之同级传值
  7. C++_IO与文件5-文件的输入与输出
  8. mysql怎么获得权限_mysql怎么给用户加权限
  9. MyBatis Generator(MBG)设计哲学与致歉
  10. Nginx笔记总结十一:Nginx重写规则指南
  11. Android游戏辅助开发流程,安卓辅助脚本开发游戏化编
  12. AIR是什么?.air文件如何打开?flex如何运行air文件
  13. html取消父元素样式,CSS以防止子元素继承父样式
  14. linux xv命令什么意思,Linux部分命令解释(命令缩写代表什么意思)
  15. 第19节 简单扫描技术—基于windows系统
  16. ARM架构(RISC)和x86架构(CISC)以及传统与移动CPU/GPU厂商
  17. 文本语义相似度检测 API 数据接口
  18. 如何独立开发 APP 赚钱?
  19. Launcher图标角标
  20. matlab图像处理--Otsu阈值分割

热门文章

  1. STM32 JTAG电路设计
  2. silvaco学习日记(八)--对界面电荷问题的解决
  3. 世界超级计算机比赛,世界大学生超级计算机竞赛 浙大打破世界纪录
  4. 新手学习opencv八---道路检测
  5. 你的软件真的卸载干净了吗?最全最高效的卸载工具推荐
  6. 《数据挖掘概念与技术》第二版 中文版 第一章答案
  7. python代码阅读器_还在用别的小说阅读器?今天教你用Python制作简易小说阅读器!...
  8. ESPCN论文阅读笔记
  9. Pyspider基本介绍
  10. C#毕业设计——基于C#+asp.net+SQL Server的动态口令认证网上选课系统设计与实现(毕业论文+程序源码)——网上选课系统