论文地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Yang_Video_Instance_Segmentation_ICCV_2019_paper.pdf

代码地址:https://github.com/ youtubevos/MaskTrackRCNN
新数据集:YouTube-VIS,地址:https:// youtube-vos.org/dataset/vis

字节跳动的大佬又开辟了新的task:Video Instance Segmentation,但今天看到已经算晚的了,2019年都已经办过比赛了。今天读一读这篇论文。

按照作者的定义,VIS是一个 aims at simultaneous detection, segmentation and tracking of object instances in videos.可算是把所有能用的方法都融合的很难的task了。

Problem Definition

这个任务的目标就是,把视频帧的每一个实例分割出来。与VOS不同的是,VOS不需要知道分割前景的label,VIS不仅要连续追踪,分割,而且要做到实例分割,那么就有一个难点:有的实例不是第一帧会出现的,这是与VOS不同的。

Evaluation Metrics

作者借用了实例分割使用的AP和AR两个指标,迁移到本任务里。

AP is defined as the area under the precision-recall curve. The confidence score is used to plot the curve. AP is averaged over multiple intersection-over-union (IoU) thresholds.

AR is defined as the maximum recall given some fixed number of segmented instances per video.

但是本任务IOU计算和image instance segmentation不同,计算如下,T为某一个视频的总帧数,m是binary segmentation mask.

也就是说,第一帧的时候,后面的都为0,只算第一帧的IOU,第二帧的时候,算第一帧和第二帧,其他为0,以此类推。

作者任务可以达到If the algorithm detects object masks successfully, but fails to track the objects across frames, it will get a low IoU这样的效果。

MaskTrack R-CNN

介绍一下论文作者用的网络,简单来说就是Mask-RCNN再加一个分支叫“Track Head”。

整个网络也是two-stage的,first stage就是对每一帧都产生各自的一系列object Bbox。

在Bbox Head 和 Mask Head 计算的同时,加一个 Track Head(2个全连接层),用于对每一个候选框分配一个instance label。

假设已经计算出了前一帧有N个instance,那么当前帧的候选框所属的label要么属于这N个,要么属于一个新的label。所以把这个当作N+1的分类问题,可以计算一个label n被分配给候选框i的概率:

这是一个多项式逻辑回归。可以看出,在算fi和fn的内积,那么问题来了,fn,fj,j∈[1,N]是哪来的?

其中fi是输入Track Head的当前帧的RoI Align的feature,而其他是前一帧存下来的feature(Memory)。

这里用一个CE Loss来约束Track Head,,y_i是对应实例label。

如果当前帧的候选框i对应的label属于前一帧的N个实例中的一个,那么Memory里的feature会更新;如果是一个新的label,那么Memory里也会添加一个新的feature。

训练的时候,随机挑选一对frames,一个做reference,一个做query。对reference只提取GT里instance region里的feature存到memory里,query frame会先在first stage里选出positive candidate bbox,在对它分配label。作者选择IOU 和GT bbox overlap超过0.7的做为positive。

整个网络的LOSS是: 

但最后,所有cues整合,才能确认最终的对应的instance的分割,也即分配给每个bbox的label的score如下,本文是做一个后处理:

p_i是刚才的概率,s_i是置信度,b_i是bbox,c_i是class。这个方程只在测试时应用,不对训练做贡献。

作者发现,IOU和class consistency比较重要。而置信度只是轻微提升效果。

值得一提的是,Track Head只训了20个epoch,整个网络的处理速度是20fps。

指标的话好像没有那么强,现在看VIS数据集的比赛最高已经mAP0.446 了,哎,大神们动手都太快了。

2020年01月09日

【VIS】Video Instance Segmentation相关推荐

  1. 视频实例分割paper(一)《Video Instance Segmentation》

    [主要贡献] 1.视频实例分割第一次被正式定义和探索 2.创建了第一个大规模视频实例分割数据集 2.9k视频 40个目标类别 3.提出一种新的视频实例分割算法MaskTrack R-CNN,在Mask ...

  2. 【HTML】video标签处理 隐藏下载按钮等

    [HTML]video标签处理 隐藏下载按钮等 隐藏下载按钮 增加 controlsList="nodownload" 属性 <video controlsList=&quo ...

  3. 【BraTS】Brain Tumor Segmentation 脑部肿瘤分割3--构建数据流

    往期回顾: [BraTS]Brain Tumor Segmentation 脑部肿瘤分割1–数据篇 [BraTS]Brain Tumor Segmentation 脑部肿瘤分割2–UNet的复现 在上 ...

  4. 【VIS】Classifying,Segmenting,and Tracking Object Instances in Video with Mask Propagation

    Abstract 在Mask-RCNN的基础上加一个在一段video clip中可以propagate instance masks的模块.这样可以参照clip最中间那个instances segme ...

  5. 【时序分割】【未完成】Greedy Gaussian Segmentation of Multivariate Time Series(贪心高斯时序分割---GGS)

    文章题目:Greedy Gaussian Segmentation of Multivariate Time Series(2018年4月) 作者:David Hallac: Peter Nystru ...

  6. h5禁用浏览器下载视频_【HTML5】video 标签禁用自带的下载按钮

    h5自带的 video标签 ,会有个下载按钮,有时候想避免,就可以利用样式的方法 video::-internal-media-controls-download-button { display:n ...

  7. 【deeplab】Semantic Image Segmentation with Deep Convolutional Nets and Fully

    deeplab有两篇论文,由于第二篇是在第一篇上增加了一部分内容,就放在一起进行学习了. 第一篇 Semantic Image Segmentation with Deep Convolutional ...

  8. html video在手机上按钮位置问题,【前端】video在手机端封面有一个很大的播放按钮怎么去掉...

    这个播放按钮怎么去掉好别扭啊 回答 `video::-webkit-media-controls-start-playback-button { display: none; }` 不用video控件 ...

  9. 【IOG】Interactive Object Segmentation With Inside-Outside Guidance全文翻译

    Interactive Object Segmentation With Inside-Outside Guidance翻译 Abstract ​ 本文探讨了如何在最小化人类交互成本的同时获取精确的对 ...

最新文章

  1. 产品经理如何做好数据埋点
  2. 安卓开发 底部导航图标切换时动画效果_安卓10系统终于来了,流畅度堪比苹果?...
  3. OpenCV2.4.9 For Android + Android Studio (with gradle)配置教程
  4. python 装饰器分类_Python 装饰器(Decorators) 超详细分类实例
  5. 关于json 转换BigDecimal精度丢失问题
  6. 每日一题:leetcode1579.保证图可完全遍历
  7. snmp协议_软件评测师写作专栏之OSI七层模型及其常见的协议11
  8. 大厂必问的分布式究竟是什么鬼?
  9. mngoDB 常用语法
  10. 安装mysql5.7,如何将之前mysql的数据库导入
  11. 在已有OpenStack集群中部署Manila(五):部署Manila Share节点之模式二(driver_handles_share_servers=True)
  12. 校园食堂订餐管理系统企业点餐软件
  13. 区块链+电子档案解决方案
  14. 文件格式介绍:文本,图片,音频,视频
  15. 计算机发展的新技术,计算机新技术发展的有关论文
  16. android toast 自定义view,分享Android中Toast的自定义使用
  17. 【寄语2016】—不乱脚步,不慌流年
  18. 计算机系统死机,为何电脑一进入系统就死机?
  19. 【WPS自动签到】利用云函数实现WPS自动签到获得WPS免费会员
  20. ionic5中轮播图ion-slides、ion-slide的使用

热门文章

  1. 设计新奇的充电器,能搭积木还支持多口快充,IDMIX积木桌面充电器上手
  2. jQuery 查找方法
  3. 官网消息!预聘制教师,年薪不低于40万!这所高校强势引才!
  4. 互联网黄金十年已过 白银时代到来
  5. 几场考试,垫格了一生
  6. 安卓13又来了?快!扶起我来!
  7. 多尺度融合的MRI脑肿瘤图像分割方法
  8. oracle表空间离线 恢复,system表空间离线损坏修复
  9. 神了,这5大预言 都将在2020年显现
  10. 极路由的败局与创始人的刑拘