Abstract

在Mask-RCNN的基础上加一个在一段video clip中可以propagate instance masks的模块。这样可以参照clip最中间那个instances segmentation 来predict clip-level的instance tracks

Method

MaskProp以一个video的随机长度L作为输入然后输出一个video-level的instance seg tracks M^i,以及类别c^i和置信度s^i。

首先我们的方法要先建立一个clip-level的object instance tracks,clip长度为2T+1。T值既要满足GPU显存大小,也要能handle一定遮挡和模糊的能力。

然后把L个clip的track整合。

4.1. Video Mask R-CNN

loss:

t 代表一个clip里的centre frame,其中prop的loss如下

其中是instance i  由clip的center frame 预测得到的seg

是t'的GT mask

in frame t

p是每个pixel location;总体上这个loss是一个soft IOU loss,会比普通的CEloss要好。

4.2. Mask Propagation Branch

Overview

mask propagation branch是用来track instances的。给出一个视频clip,centered at frame t。对于frame t 中的每个object instance会给出clip-level instance masks。具体三个步骤:

1)instance-specific feature computation,提特征

2)temporal propagation of instance features,传特征

3)propagated instance segmentation,分割

Computing Instance Specific Features

mask branch会先predict frame-level的instance masks 

然后用这些frame-level的instance masks来计算instance-specific feature for frame t:对于每个object i,我们计算element-wise product between 和feature from backbone。产生一些新的tensors,总之就是把backbone feature里不属于这个objects的pixels排除。

Temporally Propagating Instance Features

给出frame-level,我们的方法会产生一个propagated instance feature tensor ,它代表由产生的帧里的object i 的feature。具体:用得到的alignment来warping。用一个deformable conv实现。具体的:计算element-wise difference of ,然后输入到一个residual block,会产生motion offsets,这些偏移量包含k×k可变形卷积核每个项的(x,y)采样位置。

propagation step 的输入由1)2)。然后用deformable conv产生

Segmenting Propagated Instances

预测一个在帧里相关的object mask。先建立一个新feature:

然后输入到一个1x1卷积里产生帧里相关的object mask,然后会做一个softmax nonlinearity across all Nt instances。

然后对于不属于任何object instance的pixels,我们会用一个3x3卷积来计算的instance-agnostic attention map。然后把乘上每一个预测的instance masks。

4.3. Video-Level Segmentation Instances

得到每个clip里的每帧的分割后,还需要把他们连接起来。我们会分配给每个clip-level instance tracks一个video-level的instance ID,通过匹配ID来连接。

Matching Clip-Level Instance Tracks

考虑一对tacks,一个是以t为中心,一个为t'。可能二者会由重合部分。记重合的时间区间为,我们会通过比较重叠帧中预测的instance masks来比较他们是否match。用下面的式子计算出的一个matching score来确认是否是同一个objcet instance。

Video-Level Instance ID Assignment

我们记为video level IDs集合。通过从t=1到t=L匹配clip-level instance tracks来建立

首先我们初始化t=1时

代表分配给的video-level 的ID。

然后t>1时,需要通过匹配和在t时刻之前所有有重叠部分的来分配一个ID

对于已经在中的ID  y,我们会计算一个score来衡量how well和ID set中已有的tracks的match程度。

是指示函数。

是最大值。如果q*大于一个阈值,就会被分配给一个ID。否则,就代表这个clip track不匹配现存的所有ID,所以分配一个新的ID同时扩充ID set

最后,每个clip都会有一个ID:

【VIS】Classifying,Segmenting,and Tracking Object Instances in Video with Mask Propagation相关推荐

  1. Classifying, Segmenting, and Tracking Object Instances in Video with Mask Propagation

    利用掩码传播对视频中的对象实例进行分类.分割和跟踪 MASK 一项与 MaskTrack R-CNN[42] 类似的工作 Abstrac1t 我们介绍了一种同时对视频序列中的对象实例进行分类cls.分 ...

  2. 【翻译】Focal Loss for Dense Object Detection(RetinaNet)

    [翻译]Focal Loss for Dense Object Detection(RetinaNet) 目录 摘要 1.介绍 2.相关工作 3.Focal Loss 3.1 平衡的交叉熵损失 3.2 ...

  3. 【PIL】图像分割竞赛中8位深调色板模式的mask读取与保存(PASCAL VOC)

    [PIL]图像分割竞赛中8位深调色板模式的mask读取与保存(PASCAL VOC) 目录: [PIL]图像分割竞赛中8位深调色板模式的mask读取与保存(PASCAL VOC) 1.调色板图像原理 ...

  4. 【VIS】Video Instance Segmentation

    论文地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Yang_Video_Instance_Segmentation_ICCV_201 ...

  5. avs3 ts格式封装 标准_第480期【软件】吊打格式工厂—高清视频转换器WonderFox HD Video便携版...

    用心分享 一黑一白 蝶科技 一个分享软件/素材/后期/网站/教程的资源公众号 资源概览深度体验 侵权请联系删除 软件 WonderFox HD Video Converter Factory Pro, ...

  6. 【显著性物体检测】【ECCV2018】Reverse Attention for Salient Object Detection【论文笔记】

    简介:在不怎么增加计算量的前提下,采用从粗到精的思想,由高级特征到低级特征,补全显著性检测的轮廓[最近很多都是基于这个思想].模型的速度与效果都占优.具体关注,是怎么实现特征的多级利用的. ECSSD ...

  7. 【Flutter】Dart 数据类型 ( var 数据类型 | Object 数据类型 )

    文章目录 一. var 数据类型 二. var 数据类型不能被改变 三. Object 类型 四. 完整代码示例 五. 相关资源 Dart 语言中有 dynamic , var , Object , ...

  8. 【OrientedRepPoints】Oriented RepPoints for Aerial Object Detection核心点概括

    论文地址:https://arxiv.org/abs/2105.11111 翻译:https://blog.csdn.net/songyuc/article/details/128227048 一.概 ...

  9. 【Flink】 is not serializable. The object probably contains or references non serializable fields

    在idea本地执行Flink例子的时候出现如下图标红问题 Exception in thread "main" org.apache.flink.api.common.Invali ...

最新文章

  1. oracle卸载注意啥,关于oracle的安装,卸载以及其他注意事项
  2. BSEG和BSIS、BSAS、BSID、BSAD、BSIK、BSAK六个表的关系(转)
  3. 手动配置WCF宿主的.config文件遇到的几种错误
  4. git pull命令执行时,命令框不可操作的问题
  5. exports,和module.exports 的区别
  6. 【出版直播】博客园征途系列,《设计模式——基于C#的工程化实现及扩展》定价修改...
  7. 电气自动化和计算机专业比较,高考专业自动化专业和电气工程及其自动化的区别 哪个好...
  8. 小程序与云开发实战 36 讲
  9. ajax回调函数中刷新页面方法
  10. IKEv2的密钥计算方式
  11. Java入门(四)JAVA SE 02
  12. 【报告分享】2020年天猫零食市场分析报告-魔镜(附下载)
  13. Express 报错:Failed to lookup view error in views directory 处理
  14. IAR代码溢出问题处理section placement failed
  15. 借华为鸿蒙系统发布,谈谈操作系统的爱恨情仇发展史
  16. 重装 Windows 系统后键乱码解决方案
  17. uniapp APP 端 WebSocket 使用,实现一个简单 WebSocket 工具类
  18. 老男孩mysql高级专业dba实战课程_老男孩MySQL高级专业DBA实战课程/高级运维DBA课程/MySQL视频教程下载...
  19. Python爬取王者荣耀全英雄全皮肤图片
  20. SQL server.数据库增删改查

热门文章

  1. python制作ico图标_用Python提取exe图标icon | 学步园
  2. 用js制作简单的打地鼠游戏
  3. 河北外国语学院单招计算机类专业,【单招专业代码】报考河北外国语学院,2019年单招专业代码全集...
  4. Tiktok shop如何将天猫淘宝速卖通等平台产品一键采集自动刊登上货铺货到店铺上
  5. 软件测试的流程是什么?软件测试的基本流程
  6. 港科喜讯 | 香港科大教授获研资局拨款逾千万港元支持研究工作!
  7. 提取音乐用什么软件哪个好 1
  8. Docker使用中的一些错误总结
  9. python合并视频和音频_Python做图像处理及视频音频文件分离和合成功能
  10. 常用的分布式事务解决方案