论文阅读KMN:Kernelized Memory Network for Video Object Segmentation
这篇论文发表在ECCV2020上面,是对于STM的改进。STM存在一个缺点,就是在做query和memory的key之间的matching时,将所有的情况都建立了联系,这种处理是一种non-local的方式,而VOS问题大多数情况下是一种local的情况。所以作者提出了一种Kernelized Memory Network(KMN)来解决这一问题;此外作者还采用了一种Hide-and-Seek策略(17年ICCV一篇若监督的论文),在预训练时人为地对图像的某些区域进行遮挡,以提升物体遮挡识别的鲁棒性。
上图中上半部分是传统的STM,他只是用query去匹配memory,这种non-local的匹配方式很可能造成query中多个目标匹配memory中同一个目标的问题。由于帧之间的幅度很小,所以显然我们要追踪的目标在上一帧mask附近,而不会离他太远。因此VOS是一个local的问题。在作者加入了一个Gaussian Kernal的约束后,就变成了一种适用于VOS的local的solution。
如上图,整个流程结构与STM是完全一样的,只有紫色的Kernalized Memory Read部分有所改动。
首先是STM中的流程,先计算query与memory的correspandance map:
对于STM中的memory read操作,是利用上述的matching map和memory的value做内积,公式如下:
可见STM只采用了query-to-memory的方式,即利用query中的每个点的特征去试图匹配memory中的目标对象。这样的缺点图一可见,新出现的物体也会去匹配原先的object;并且STM这种non-local的解决方案也存在弊端。
所以KMN增加了一种memory-to-query的方式:
对于memory中的每个grid,去寻找与他最匹配的query中的位置。并且进一步利用它生成卷积核kernal:
该kernal的维度为THWHWTHWHWTHWHW,相当于有TWHTWHTWH个p点,每个p点对应一个2d的kernal,大小为WHWHWH。所以在kernal的约束下,最终memory read的计算结果如下:
整个memory read的过程如下图:
为了解决occlusion的问题,以及实际标注也可能存在不精确的情况,在预训练阶段采用了一种Hide-and-Seek的策略(只是采用了矩形的遮挡物):
下面是采用了Hide-and-Seek的结果图:
一些实验结果:
论文阅读KMN:Kernelized Memory Network for Video Object Segmentation相关推荐
- 论文阅读:TensorMask: A Foundation for Dense Object Segmentation
Tensor Mask 文章 何恺明还有RBG大神的新作(一作陈鑫磊这个名字也很熟悉啊).之前在instance segmentation方面只看过mask R-CNN的论文,看到这篇文章是de ...
- 论文阅读--Adapted Dynamic Memory Network for Emotion Recognition in Conversation
Adapted Dynamic Memory Network for Emotion Recognition in Conversation Xing S , Mai S , Hu H . Adapt ...
- [论文阅读] Cross-layer feature pyramid network for salient object detection
论文地址:https://dx.doi.org/10.1109/TIP.2021.3072811 发表于:TIP 2021 Abstract 基于特征金字塔(FPN)的模型,以渐进的方式融合语义与显著 ...
- 论文阅读:Spatial context-aware network for salient object detection
论文地址:https://doi.org/10.1016/j.patcog.2021.107867 发表于:PR 2021 Abstract 显著目标检测(SOD)是计算机视觉领域的一个基本问题.本文 ...
- 论文解读:Foreground-Aware Relation Network for Geospatial Object Segmentation in High Spatial Resolution
发表时间:2020 项目地址:https://github.com/Z-Zheng/FarSeg pytorch实现,依赖simplecv库(resnet.fpn支持) 论文地址:https://op ...
- 【论文阅读】Rethinking S-T Networks with Improved Memory Coverage for Efficient Video Object Segmentation
一篇NeurIPS 2021的关于VOS (video object segmentation) 的文章,文章的思想很有借鉴价值. 论文链接 Rethinking Space-Time Network ...
- 论文阅读 [TPAMI-2022] Locally Connected Network for Monocular 3D Human Pose Estimation
论文阅读 [TPAMI-2022] Locally Connected Network for Monocular 3D Human Pose Estimation 论文搜索(studyai.com) ...
- 论文阅读—Relation-Aware Graph Attention Network for Visual Question Answering
论文阅读-Relation-Aware Graph Attention Network for Visual Question Answering 一.标题 用于视觉问答的关系感知图注意力网络 二.引 ...
- Motion-Attentive Transition for Zero-Shot Video Object Segmentation论文浅读
cccMotion-Attentive Transition for Zero-Shot Video Object Segmentation(2020 AAAI)_行走江湖要用艺名的博客-CSDN博客 ...
最新文章
- JVM---程序计数器
- pythonATM自动存取款机7天密码保护
- 实现一个简单的基于码云(Gitee) 的 Storage
- php将数组值用 分开,PHP将数组中的多个值替换为另一个数组
- Python 列表笔记
- 中心极限与大数定理律的关系_多元函数的极限、连续性分析
- 墨条不如墨汁黑是怎么回事?
- Github部署+Hexo搭建免费博客 next主题美化
- Mysql基本语句(个人笔记)
- 【汇总目录】嵌入式系统技术
- paip.java 多线程参数以及返回值Future FutureTask 的使用.
- 【MQTT】MQTT测试工具mqttfx和国内MQTT X工具下载
- Spring实战(第4版)pdf
- 微信小程序转发功能的实现
- csm和uefi_【一点资讯】关于CSM和UEFI你要知道的一些事 www.yidianzixun.com
- 使用c++语言做概率论 涉及求方差
- KNN——简单手写体识别
- 大数据Flink面试考题___Flink高频考点,万字超全整理(建议)
- 苹果V10附件参数配置
- html凹凸感设置,想让VRAY渲染的图有点凹凸效果怎么做?
热门文章
- 程序员soul 012期|妹子|重庆
- Oracle数据库查询十个小技巧
- pycharm python 依赖管理_怎么解决pycharm license Acti的方法_python
- [网鼎杯 2020 白虎组]PicDown(精讲)
- 最佳阵容 | Flutter Firebase 插件更新
- 性能测试中的服务器数据监控
- QT 基础知识一(QT安装、创建项目、常用窗口控件使用、信号与槽机制讲解)
- R语言使用cph函数和rcs函数构建限制性立方样条cox回归模型、使用rms包的Predict函数计算指定连续变量在不同分组变量下和风险比HR值的关系、使用ggplot2可视化变量与风险值HR的关系
- 设计师 VS 装修工
- 收发EtherCAT帧——ecx_srconfirm函数