Abstract

在Mask-RCNN的基础上加一个在一段video clip中可以propagate instance masks的模块。这样可以参照clip最中间那个instances segmentation 来predict clip-level的instance tracks

Method

MaskProp以一个video的随机长度L作为输入然后输出一个video-level的instance seg tracks M^i，以及类别c^i和置信度s^i。

首先我们的方法要先建立一个clip-level的object instance tracks,clip长度为2T+1。T值既要满足GPU显存大小，也要能handle一定遮挡和模糊的能力。

然后把L个clip的track整合。

4.1. Video Mask R-CNN

loss：

t 代表一个clip里的centre frame，其中prop的loss如下

其中是instance i 由clip的center frame 预测得到的seg

是t'的GT mask

in frame t

p是每个pixel location；总体上这个loss是一个soft IOU loss，会比普通的CEloss要好。

4.2. Mask Propagation Branch

Overview

mask propagation branch是用来track instances的。给出一个视频clip，centered at frame t。对于frame t 中的每个object instance会给出clip-level instance masks。具体三个步骤：

1）instance-specific feature computation，提特征

2）temporal propagation of instance features，传特征

3）propagated instance segmentation，分割

Computing Instance Specific Features

mask branch会先predict frame-level的instance masks

然后用这些frame-level的instance masks来计算instance-specific feature for frame t：对于每个object i，我们计算element-wise product between 和feature from backbone。产生一些新的tensors，总之就是把backbone feature里不属于这个objects的pixels排除。

Temporally Propagating Instance Features

给出frame-level和，我们的方法会产生一个propagated instance feature tensor ，它代表由产生的帧里的object i 的feature。具体：用得到的alignment来warping。用一个deformable conv实现。具体的：计算element-wise difference of ，然后输入到一个residual block，会产生motion offsets，这些偏移量包含k×k可变形卷积核每个项的（x，y）采样位置。

propagation step 的输入由1）2）。然后用deformable conv产生

Segmenting Propagated Instances

用预测一个在帧里相关的object mask。先建立一个新feature：

然后输入到一个1x1卷积里产生帧里相关的object mask，然后会做一个softmax nonlinearity across all Nt instances。

然后对于不属于任何object instance的pixels，我们会用一个3x3卷积来计算的instance-agnostic attention map。然后把乘上每一个预测的instance masks。

4.3. Video-Level Segmentation Instances

得到每个clip里的每帧的分割后，还需要把他们连接起来。我们会分配给每个clip-level instance tracks一个video-level的instance ID，通过匹配ID来连接。

Matching Clip-Level Instance Tracks

考虑一对tacks，一个是以t为中心，一个为t'。可能二者会由重合部分。记重合的时间区间为，我们会通过比较重叠帧中预测的instance masks来比较他们是否match。用下面的式子计算出的一个matching score来确认是否是同一个objcet instance。

Video-Level Instance ID Assignment

我们记为video level IDs集合。通过从t=1到t=L匹配clip-level instance tracks来建立。

首先我们初始化t=1时。

让代表分配给的video-level 的ID。

然后t>1时，需要通过匹配和在t时刻之前所有有重叠部分的来分配一个ID。

对于已经在中的ID y，我们会计算一个score来衡量how well和ID set中已有的tracks的match程度。

是指示函数。

是最大值。如果q*大于一个阈值，就会被分配给一个ID。否则，就代表这个clip track不匹配现存的所有ID，所以分配一个新的ID同时扩充ID set

最后，每个clip都会有一个ID：

【VIS】Classifying,Segmenting,and Tracking Object Instances in Video with Mask Propagation相关推荐

Classifying, Segmenting, and Tracking Object Instances in Video with Mask Propagation
利用掩码传播对视频中的对象实例进行分类.分割和跟踪 MASK 一项与 MaskTrack R-CNN[42] 类似的工作 Abstrac1t 我们介绍了一种同时对视频序列中的对象实例进行分类cls.分 ...
【翻译】Focal Loss for Dense Object Detection(RetinaNet)
[翻译]Focal Loss for Dense Object Detection(RetinaNet) 目录摘要 1.介绍 2.相关工作 3.Focal Loss 3.1 平衡的交叉熵损失 3.2 ...
【PIL】图像分割竞赛中8位深调色板模式的mask读取与保存(PASCAL VOC)
[PIL]图像分割竞赛中8位深调色板模式的mask读取与保存(PASCAL VOC) 目录: [PIL]图像分割竞赛中8位深调色板模式的mask读取与保存(PASCAL VOC) 1.调色板图像原理 ...
【VIS】Video Instance Segmentation
论文地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Yang_Video_Instance_Segmentation_ICCV_201 ...
avs3 ts格式封装标准_第480期【软件】吊打格式工厂—高清视频转换器WonderFox HD Video便携版...
用心分享一黑一白蝶科技一个分享软件/素材/后期/网站/教程的资源公众号资源概览深度体验侵权请联系删除软件 WonderFox HD Video Converter Factory Pro, ...
【显著性物体检测】【ECCV2018】Reverse Attention for Salient Object Detection【论文笔记】
简介:在不怎么增加计算量的前提下,采用从粗到精的思想,由高级特征到低级特征,补全显著性检测的轮廓[最近很多都是基于这个思想].模型的速度与效果都占优.具体关注,是怎么实现特征的多级利用的. ECSSD ...
【Flutter】Dart 数据类型 ( var 数据类型 | Object 数据类型 )
文章目录一. var 数据类型二. var 数据类型不能被改变三. Object 类型四. 完整代码示例五. 相关资源 Dart 语言中有 dynamic , var , Object , ...
【OrientedRepPoints】Oriented RepPoints for Aerial Object Detection核心点概括
论文地址:https://arxiv.org/abs/2105.11111 翻译:https://blog.csdn.net/songyuc/article/details/128227048 一.概 ...
【Flink】 is not serializable. The object probably contains or references non serializable fields
在idea本地执行Flink例子的时候出现如下图标红问题 Exception in thread "main" org.apache.flink.api.common.Invali ...

【VIS】Classifying,Segmenting,and Tracking Object Instances in Video with Mask Propagation