论文阅读KMN：Kernelized Memory Network for Video Object Segmentation

这篇论文发表在ECCV2020上面，是对于STM的改进。STM存在一个缺点，就是在做query和memory的key之间的matching时，将所有的情况都建立了联系，这种处理是一种non-local的方式，而VOS问题大多数情况下是一种local的情况。所以作者提出了一种Kernelized Memory Network（KMN）来解决这一问题；此外作者还采用了一种Hide-and-Seek策略（17年ICCV一篇若监督的论文），在预训练时人为地对图像的某些区域进行遮挡，以提升物体遮挡识别的鲁棒性。

上图中上半部分是传统的STM，他只是用query去匹配memory，这种non-local的匹配方式很可能造成query中多个目标匹配memory中同一个目标的问题。由于帧之间的幅度很小，所以显然我们要追踪的目标在上一帧mask附近，而不会离他太远。因此VOS是一个local的问题。在作者加入了一个Gaussian Kernal的约束后，就变成了一种适用于VOS的local的solution。

如上图，整个流程结构与STM是完全一样的，只有紫色的Kernalized Memory Read部分有所改动。

首先是STM中的流程，先计算query与memory的correspandance map：

对于STM中的memory read操作，是利用上述的matching map和memory的value做内积，公式如下：

可见STM只采用了query-to-memory的方式，即利用query中的每个点的特征去试图匹配memory中的目标对象。这样的缺点图一可见，新出现的物体也会去匹配原先的object；并且STM这种non-local的解决方案也存在弊端。

所以KMN增加了一种memory-to-query的方式：

对于memory中的每个grid，去寻找与他最匹配的query中的位置。并且进一步利用它生成卷积核kernal：

该kernal的维度为THWHWTHWHWTHWHW，相当于有TWHTWHTWH个p点，每个p点对应一个2d的kernal，大小为WHWHWH。所以在kernal的约束下，最终memory read的计算结果如下：

整个memory read的过程如下图：

为了解决occlusion的问题，以及实际标注也可能存在不精确的情况，在预训练阶段采用了一种Hide-and-Seek的策略（只是采用了矩形的遮挡物）：

下面是采用了Hide-and-Seek的结果图：

一些实验结果：

论文阅读KMN：Kernelized Memory Network for Video Object Segmentation相关推荐

论文阅读：TensorMask: A Foundation for Dense Object Segmentation
Tensor Mask 文章何恺明还有RBG大神的新作(一作陈鑫磊这个名字也很熟悉啊).之前在instance segmentation方面只看过mask R-CNN的论文,看到这篇文章是de ...
论文阅读--Adapted Dynamic Memory Network for Emotion Recognition in Conversation
Adapted Dynamic Memory Network for Emotion Recognition in Conversation Xing S , Mai S , Hu H . Adapt ...
[论文阅读] Cross-layer feature pyramid network for salient object detection
论文地址:https://dx.doi.org/10.1109/TIP.2021.3072811 发表于:TIP 2021 Abstract 基于特征金字塔(FPN)的模型,以渐进的方式融合语义与显著 ...
论文阅读：Spatial context-aware network for salient object detection
论文地址:https://doi.org/10.1016/j.patcog.2021.107867 发表于:PR 2021 Abstract 显著目标检测(SOD)是计算机视觉领域的一个基本问题.本文 ...
论文解读：Foreground-Aware Relation Network for Geospatial Object Segmentation in High Spatial Resolution
发表时间:2020 项目地址:https://github.com/Z-Zheng/FarSeg pytorch实现,依赖simplecv库(resnet.fpn支持) 论文地址:https://op ...
【论文阅读】Rethinking S-T Networks with Improved Memory Coverage for Efficient Video Object Segmentation
一篇NeurIPS 2021的关于VOS (video object segmentation) 的文章,文章的思想很有借鉴价值. 论文链接 Rethinking Space-Time Network ...
论文阅读 [TPAMI-2022] Locally Connected Network for Monocular 3D Human Pose Estimation
论文阅读 [TPAMI-2022] Locally Connected Network for Monocular 3D Human Pose Estimation 论文搜索(studyai.com) ...
论文阅读—Relation-Aware Graph Attention Network for Visual Question Answering
论文阅读-Relation-Aware Graph Attention Network for Visual Question Answering 一.标题用于视觉问答的关系感知图注意力网络二.引 ...
Motion-Attentive Transition for Zero-Shot Video Object Segmentation论文浅读
cccMotion-Attentive Transition for Zero-Shot Video Object Segmentation(2020 AAAI)_行走江湖要用艺名的博客-CSDN博客 ...

论文阅读KMN：Kernelized Memory Network for Video Object Segmentation

论文阅读KMN：Kernelized Memory Network for Video Object Segmentation相关推荐

最新文章

热门文章