遮挡场景下视频实例分割怎么做?牛津阿里最新开源OVIS数据集!
点击上方“CVer”,选择加"星标"置顶
重磅干货,第一时间送达
本文系CVer粉丝投稿,欢迎大家分享优质的工作
本文介绍一下我们最近公开的视频实例分割数据集OVIS
Occluded Video Instance Segmentation
论文:https://arxiv.org/abs/2102.01558
主页:http://songbai.site/ovis/
1. Motivation
对于被遮挡的物体,人类能够根据时序上下文来识别,定位和追踪被遮挡的物体,甚至能脑补出物体被遮住的部分,那么现有的深度学习方法对遮挡场景的处理能力如何呢?
为了探究这个问题,我们构建了一个针对强遮挡场景的大型视频实例分割数据集Occluded Video Instance Segmentation (OVIS)。视频实例分割(VIS)要求算法能检测、分割、跟踪视频里的所有物体。与现有的VIS数据集相比,OVIS最主要的特点就是视频里存在大量的多种多样的遮挡。因此,OVIS很适合用来衡量算法对于遮挡场景的处理能力。
实验表明,现有的方法并不能在强遮挡场景下取得令人满意的结果,相比于广泛使用的YouTube-VIS数据集,几乎所有算法在OVIS上的指标都下降了一半以上。
2. Dataset Statistics
我们一共采集了近万段视频,并最终从中挑选出了901段遮挡严重、运动较多、场景复杂的片段,每段视频都至少有两个相互遮挡的目标对象。其中大部分视频分辨率为1920x1080,时长在5s到60s之间。我们按每5帧标注一帧的密度进行了高质量标注,最终得到了OVIS数据集。
OVIS共包含25种生活中常见的类别,如下图所示,其中包括人,交通工具,以及动物。这些类别的目标往往处于运动状态,也更容易发生严重的遮挡。此外,OVIS的25个类别都可以在大型的图片级实例分割数据集(MS COCO,LVIS,Pascal VOC 等)中找到,方便研究人员进行模型的迁移和数据的复用。
OVIS包含5223个目标对象的296k个高质量mask标注。相比先前的Youtube-VIS数据集,OVIS拥有更多的mask和更多的目标对象。我们牺牲了一定的视频段数来标注更长更复杂的视频,以让它更具挑战性。
与先前的其他VIS数据集相比,OVIS最大的特点在于严重的遮挡。为了量化遮挡的严重程度,我们提出了一个指标mean Bounding-box Overlap Rate (mBOR)来粗略的反映遮挡程度。mBOR指图像中边界框重叠部分的面积占所有边界框面积的比例。从下表中可以看出,相比于YouTube-VIS,OVIS有着更严重的遮挡。
值得注意的是,除去上面提到的基础数据统计量,OVIS在视频时长、物体可见时长、每帧物体数、每段视频物体数等统计量上都显著高于YouTube-VIS,这与实际场景更为相近,同时也进一步提高了OVIS的难度。
3. Experiments
我们在OVIS上尝试了5种开源的现有算法,结果如下表。可以看到OVIS非常具有挑战性。使用同样的评价指标,MaskTrack R-CNN在Youtube-VIS验证集上mAP能达到30.3,在OVIS验证集上只有10.9;SipMask的mAP也从Youtube-VIS上的32.5下降到了OVIS上的10.3。5个现有算法中,STEm-Seg在OVIS上效果最好,但也只得到了13.8的mAP。
4. Visualization
OVIS中包含多种不同的遮挡类型,按遮挡程度可分为部分遮挡、完全遮挡,按被遮挡场景可分为被其他目标对象遮挡、被背景遮挡、被图片边界遮挡。不同类型的遮挡可能同时存在,物体之间的遮挡关系也比较复杂。
此外,从下面的可视化片段中也可以看出OVIS的标注质量很高,我们对笼子的网格、动物的毛发都做了精细的标注。
更多可视化样例请见该工作的主页:
http://songbai.site/ovis/
Visualization of the annotations.
5. Conclusion
我们针对遮挡场景下的视频实例分割任务构建了一个大型数据集OVIS。作为继YouTube-VIS之后的第二个视频实例分割benchmark,OVIS主要被设计用于衡量模型处理遮挡场景的能力。实验表明OVIS给现有算法带来了巨大的挑战。未来,我们还将把OVIS推广至视频物体分割(VOS),视频全景分割(VPS)等场景,期待OVIS能够启发更多的研究人员进行复杂场景下视频理解的研究。
更多细节请见论文
OVIS论文下载
后台回复:OVIS,即可下载上述论文PDF和数据集,肝起来!
重磅!CVer-图像分割交流群成立
扫码添加CVer助手,可申请加入CVer-图像分割方向 微信交流群,也可申请加入CVer大群,细分方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、Transformer、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如图像分割+上海+上交+卡卡),根据格式备注,才能通过且邀请进群
▲长按加微信群
▲长按关注CVer公众号
整理不易,请给CVer点赞和在看!
遮挡场景下视频实例分割怎么做?牛津阿里最新开源OVIS数据集!相关推荐
- 华科团队发布 OVIS 遮挡视频实例分割基准数据集
By 超神经 内容提要:实例分割可广泛应用于各种应用场景中,作为计算机视觉领域的一个重要研究方向,也具有较大难度与挑战性.而很多场景中由于遮挡情况,使得实例分割成为难题中的难题.近日,来自华中大.阿里 ...
- CVPR 2021 | 基于Transformer的端到端视频实例分割方法
实例分割是计算机视觉中的基础问题之一.目前,静态图像中的实例分割业界已经进行了很多的研究,但是对视频的实例分割(Video Instance Segmentation,简称VIS)的研究却相对较少.而 ...
- 视频实例分割paper(一)《Video Instance Segmentation》
[主要贡献] 1.视频实例分割第一次被正式定义和探索 2.创建了第一个大规模视频实例分割数据集 2.9k视频 40个目标类别 3.提出一种新的视频实例分割算法MaskTrack R-CNN,在Mask ...
- CVPR2021 | 基于transformer的视频实例分割网络VisTR
原文:End-to-End Video Instance Segmentation with Transformers 翻译:夏初 摘要: 视频实例分割(VIS)是一项需要同时对视频中感兴趣的对象实例 ...
- 韩国ETRI提出实时Anchor-Free实例分割算法CenterMask,代码将开源
点击我爱计算机视觉标星,更快获取CVML新技术 今天来自韩国ETRI的一篇论文CenterMask : Real-Time Anchor-Free Instance Segmentation 很抢眼, ...
- 金融科技火热无比时,支付场景下的风控可以怎么做?(下)
金融中的人脸识别,主要用途分两种:一种是身份核验,即一对一.其实你已经知道了你当前操作的这个待核验人的身份,接下来只要对这个身份和这个人之间进行一个信息核验.:另外一种我们称之为叫1对N,应用在规模化 ...
- 不同场景下视频加密方案有哪些?
因为这两年疫情的原因,线上网课学习潮来袭.不仅仅是学校会通过线上来完成教学,各种线上培训机构也随之兴起,抓住线上网课这一商机,来进行录制课程,进行知识变现.那么,这样就会面临一个问题:自己辛苦制作的视 ...
- 开启基于Query的实例分割新思路!腾讯华科提出QueryInst
来源:机器之心 实例分割(Instance Segmentation)任务有着广阔的应用和发展前景.来自腾讯 PCG 应用研究中心 (ARC)和华中科技大学的研究者们通过充分挖掘并利用Query在端到 ...
- 腾讯ARC、华中科大联合提出QueryInst,开启基于Query的实例分割新思路
视学算法专栏 机器之心编辑部 实例分割(Instance Segmentation)任务有着广阔的应用和发展前景.来自腾讯 PCG 应用研究中心 (ARC)和华中科技大学的研究者们通过充分挖掘并利用Q ...
最新文章
- 微信的行程卡服务器异常,行程卡打不开服务器崩了解决方法 行程卡短信查询步教程...
- java cpu监控,java系统监控CPU 磁盘
- 小心使用innerHTML
- 《剑指offer》——03. 数组中重复的数字——HashSet、哈希思想——java实现
- 电子工程师过去1年的点点滴滴
- 前端学习(2309):react之同级传值
- C++_IO与文件5-文件的输入与输出
- mysql怎么获得权限_mysql怎么给用户加权限
- MyBatis Generator(MBG)设计哲学与致歉
- Nginx笔记总结十一:Nginx重写规则指南
- Android游戏辅助开发流程,安卓辅助脚本开发游戏化编
- AIR是什么?.air文件如何打开?flex如何运行air文件
- html取消父元素样式,CSS以防止子元素继承父样式
- linux xv命令什么意思,Linux部分命令解释(命令缩写代表什么意思)
- 第19节 简单扫描技术—基于windows系统
- ARM架构(RISC)和x86架构(CISC)以及传统与移动CPU/GPU厂商
- 文本语义相似度检测 API 数据接口
- 如何独立开发 APP 赚钱?
- Launcher图标角标
- matlab图像处理--Otsu阈值分割
热门文章
- STM32 JTAG电路设计
- silvaco学习日记(八)--对界面电荷问题的解决
- 世界超级计算机比赛,世界大学生超级计算机竞赛 浙大打破世界纪录
- 新手学习opencv八---道路检测
- 你的软件真的卸载干净了吗?最全最高效的卸载工具推荐
- 《数据挖掘概念与技术》第二版 中文版 第一章答案
- python代码阅读器_还在用别的小说阅读器?今天教你用Python制作简易小说阅读器!...
- ESPCN论文阅读笔记
- Pyspider基本介绍
- C#毕业设计——基于C#+asp.net+SQL Server的动态口令认证网上选课系统设计与实现(毕业论文+程序源码)——网上选课系统