这篇论文发表在ECCV2020上面,是对于STM的改进。STM存在一个缺点,就是在做query和memory的key之间的matching时,将所有的情况都建立了联系,这种处理是一种non-local的方式,而VOS问题大多数情况下是一种local的情况。所以作者提出了一种Kernelized Memory Network(KMN)来解决这一问题;此外作者还采用了一种Hide-and-Seek策略(17年ICCV一篇若监督的论文),在预训练时人为地对图像的某些区域进行遮挡,以提升物体遮挡识别的鲁棒性。


上图中上半部分是传统的STM,他只是用query去匹配memory,这种non-local的匹配方式很可能造成query中多个目标匹配memory中同一个目标的问题。由于帧之间的幅度很小,所以显然我们要追踪的目标在上一帧mask附近,而不会离他太远。因此VOS是一个local的问题。在作者加入了一个Gaussian Kernal的约束后,就变成了一种适用于VOS的local的solution。


如上图,整个流程结构与STM是完全一样的,只有紫色的Kernalized Memory Read部分有所改动。

首先是STM中的流程,先计算query与memory的correspandance map:

对于STM中的memory read操作,是利用上述的matching map和memory的value做内积,公式如下:

可见STM只采用了query-to-memory的方式,即利用query中的每个点的特征去试图匹配memory中的目标对象。这样的缺点图一可见,新出现的物体也会去匹配原先的object;并且STM这种non-local的解决方案也存在弊端。

所以KMN增加了一种memory-to-query的方式:


对于memory中的每个grid,去寻找与他最匹配的query中的位置。并且进一步利用它生成卷积核kernal:

该kernal的维度为THWHWTHWHWTHWHW,相当于有TWHTWHTWH个p点,每个p点对应一个2d的kernal,大小为WHWHWH。所以在kernal的约束下,最终memory read的计算结果如下:

整个memory read的过程如下图:


为了解决occlusion的问题,以及实际标注也可能存在不精确的情况,在预训练阶段采用了一种Hide-and-Seek的策略(只是采用了矩形的遮挡物):

下面是采用了Hide-and-Seek的结果图:


一些实验结果:




论文阅读KMN:Kernelized Memory Network for Video Object Segmentation相关推荐

  1. 论文阅读:TensorMask: A Foundation for Dense Object Segmentation

    Tensor Mask 文章    何恺明还有RBG大神的新作(一作陈鑫磊这个名字也很熟悉啊).之前在instance segmentation方面只看过mask R-CNN的论文,看到这篇文章是de ...

  2. 论文阅读--Adapted Dynamic Memory Network for Emotion Recognition in Conversation

    Adapted Dynamic Memory Network for Emotion Recognition in Conversation Xing S , Mai S , Hu H . Adapt ...

  3. [论文阅读] Cross-layer feature pyramid network for salient object detection

    论文地址:https://dx.doi.org/10.1109/TIP.2021.3072811 发表于:TIP 2021 Abstract 基于特征金字塔(FPN)的模型,以渐进的方式融合语义与显著 ...

  4. 论文阅读:Spatial context-aware network for salient object detection

    论文地址:https://doi.org/10.1016/j.patcog.2021.107867 发表于:PR 2021 Abstract 显著目标检测(SOD)是计算机视觉领域的一个基本问题.本文 ...

  5. 论文解读:Foreground-Aware Relation Network for Geospatial Object Segmentation in High Spatial Resolution

    发表时间:2020 项目地址:https://github.com/Z-Zheng/FarSeg pytorch实现,依赖simplecv库(resnet.fpn支持) 论文地址:https://op ...

  6. 【论文阅读】Rethinking S-T Networks with Improved Memory Coverage for Efficient Video Object Segmentation

    一篇NeurIPS 2021的关于VOS (video object segmentation) 的文章,文章的思想很有借鉴价值. 论文链接 Rethinking Space-Time Network ...

  7. 论文阅读 [TPAMI-2022] Locally Connected Network for Monocular 3D Human Pose Estimation

    论文阅读 [TPAMI-2022] Locally Connected Network for Monocular 3D Human Pose Estimation 论文搜索(studyai.com) ...

  8. 论文阅读—Relation-Aware Graph Attention Network for Visual Question Answering

    论文阅读-Relation-Aware Graph Attention Network for Visual Question Answering 一.标题 用于视觉问答的关系感知图注意力网络 二.引 ...

  9. Motion-Attentive Transition for Zero-Shot Video Object Segmentation论文浅读

    cccMotion-Attentive Transition for Zero-Shot Video Object Segmentation(2020 AAAI)_行走江湖要用艺名的博客-CSDN博客 ...

最新文章

  1. JVM---程序计数器
  2. pythonATM自动存取款机7天密码保护
  3. 实现一个简单的基于码云(Gitee) 的 Storage
  4. php将数组值用 分开,PHP将数组中的多个值替换为另一个数组
  5. Python 列表笔记
  6. 中心极限与大数定理律的关系_多元函数的极限、连续性分析
  7. 墨条不如墨汁黑是怎么回事?
  8. Github部署+Hexo搭建免费博客 next主题美化
  9. Mysql基本语句(个人笔记)
  10. 【汇总目录】嵌入式系统技术
  11. paip.java 多线程参数以及返回值Future FutureTask 的使用.
  12. 【MQTT】MQTT测试工具mqttfx和国内MQTT X工具下载
  13. Spring实战(第4版)pdf
  14. 微信小程序转发功能的实现
  15. csm和uefi_【一点资讯】关于CSM和UEFI你要知道的一些事 www.yidianzixun.com
  16. 使用c++语言做概率论 涉及求方差
  17. KNN——简单手写体识别
  18. 大数据Flink面试考题___Flink高频考点,万字超全整理(建议)
  19. 苹果V10附件参数配置
  20. html凹凸感设置,想让VRAY渲染的图有点凹凸效果怎么做?

热门文章

  1. 程序员soul 012期|妹子|重庆
  2. Oracle数据库查询十个小技巧
  3. pycharm python 依赖管理_怎么解决pycharm license Acti的方法_python
  4. [网鼎杯 2020 白虎组]PicDown(精讲)
  5. 最佳阵容 | Flutter Firebase 插件更新
  6. 性能测试中的服务器数据监控
  7. QT 基础知识一(QT安装、创建项目、常用窗口控件使用、信号与槽机制讲解)
  8. R语言使用cph函数和rcs函数构建限制性立方样条cox回归模型、使用rms包的Predict函数计算指定连续变量在不同分组变量下和风险比HR值的关系、使用ggplot2可视化变量与风险值HR的关系
  9. 设计师 VS 装修工
  10. 收发EtherCAT帧——ecx_srconfirm函数