Motion-Attentive Transition for Zero-Shot Video Object Segmentation论文浅读
cccMotion-Attentive Transition for Zero-Shot Video Object Segmentation(2020 AAAI)_行走江湖要用艺名的博客-CSDN博客
【视频目标跟踪】Motion-Attentive Transition for Zero-Shot Video Object Segmentation 一览_给时光以生命-CSDN博客
以上为阅读论文的一些参考。
1.简介
(1)MATNet:Motion-Attentive Transition Network-----在双流 encoder中设计了一个非对称注意力模块,在每一个res stage处,借助于该模块,将外观特征转化为专注于运动的表示形式,可以在encoder编码期间就实现了对象运动和外观之间紧密的分层交互。
(2)增加一个bridge network,可以获得一个紧凑、具有识别力、尺寸敏感的multi-level 编码器特征,并将特征送入解码器,得到最终的分割结果
(3)深度交互的双流编码器:更有效的表示运动模块
Boundary-Aware Refinement (BAR):借助物体边界推理、预测分割结果
Scale-Sensitive Attention (SSA):自适应选取和转换编码器特征
multiple Motion-Attentive Transition (MAT):输入图像和光流图在卷积阶段的中间特征作为输入 ——在每一个块内部加入不对称的注意机制(根据光流图推断感兴趣的区域---将推断结果传给外观特征以优化选择)——每个MAT块为卷积阶段(ResNet block)提供 attentive appearance and motion features
2.方法
A.综述
(1)Interleaved Encoder Network
Step1:选取 ResNet-101(?????)的前五个卷积块作为backbone
Step2:编码器提取2、3、4、5阶段的中间特征(i=2/3/4/5)
Step3:MAT模块增强特征
(2)Bridge Network
由SSA模块(有选择得将编码器特征转移到解码器)组成,每一个SSA在第i个阶段提取特征Ui并预测一个attention-aware特征Zi。
该过程通过two-level attention schemel:ocal-level attention采用channel-wise和spatial-wise注意力机制来使输入特征聚焦到正确的对象区域并且抑制冗余特征中可能存在的噪声。global-level attention旨在重新校准特征,以考虑不同尺寸的物体。
(3)Decoder Network
四个BAR模块(2/3/4/5),每个BAR模块对应第i个残差块,从BAR5到BAR2通过用更多的低层细节来补偿高层粗糙特征,特征映射的分辨率逐渐提高。
BAR2产生最好的特征图,分辨率为输入图像的1/4,通过两个额外层(conv(3*3,1)---sigmoid)获得最终的mask输出。
B.MAT模块
MAT由两个单元组成:a soft attention(SA) unit---集中注意力到重要的输入区域、an attention transition (AT) unit---迁移运动注意力特征以促进外观特征的学习
(1) Soft Attention
Step1:在空间对每一个位置softly加权输入特征图(Vm,Va)
Step2:若Vm为输入,获取一个motion-attention权重,加权输入得到一个motion-attention feature。
*为卷积操作,wm为1×1conv,softmax为归一化操作---将Vm映射到一个重要度矩阵
⨀是逐元素的乘法,
Motion-Attentive Transition for Zero-Shot Video Object Segmentation论文浅读相关推荐
- MaskRNN Instance Level Video Object Segmentation 论文翻译
摘要 实例级视频对象分割是视频编辑和压缩的一项重要技术.为了捕获时间的一致性,本文中,我们开发了MaskRNN,一个递归的神经网络方法,它在每个框架中融合了两个深网的输出,每个对象实例--一个提供一个 ...
- 视频物体分割--One-Shot Video Object Segmentation
One-Shot Video Object Segmentation CVPR2017 http://www.vision.ee.ethz.ch/~cvlsegmentation/osvos/ One ...
- VideoMatch: Matching based Video Object Segmentation
Abstract: 1.视频目标分割是一个很重要的挑战,对于各种各样的视频分析任务.最近视频目标分割任务基于深度网络取得了state-of-the-art的结果. 2.由于作为预测任务的表述,这些方法 ...
- Learning What to Learn for Video Object Segmentation
Learning What to Learn for Video Object Segmentation 摘要 引言 现有方法 特征匹配技术 我们的方法 网络结构 网络创新点 相关工作 VOS中的目标 ...
- Video Object Segmentation with Adaptive Feature Bank and Uncertain-Region Refinement
论文信息 Paper: [NeurIPS 2020] Video Object Segmentation with Adaptive Feature Bank and Uncertain-Region ...
- Recurrent Dynamic Embedding for Video Object Segmentation
周末大概看了一下最近的vos领域的发展,简单地介绍一下发表于cvpr2022 的这篇工作. BackGround VOT和VOS其实是非常相像的,只是target一个是bbox,一个是mask:这篇文 ...
- 【论文阅读】Rethinking S-T Networks with Improved Memory Coverage for Efficient Video Object Segmentation
一篇NeurIPS 2021的关于VOS (video object segmentation) 的文章,文章的思想很有借鉴价值. 论文链接 Rethinking Space-Time Network ...
- 《SAT:State-Aware Tracker for Real-Time Video Object Segmentation》论文笔记
参考代码:video_analyst 1. 概述 导读:文章针对半监督(给定首帧标注数据)的VOS(video objet segmentation)任务提出了一种新的处理pipline(segmen ...
- Motion Guided Attention for Video Salient Object Detection论文详读
abstract 视频显著目标检测的主要目的是检测出视频中视觉上最突出.最独特的目标,现有的方法没有获取和使用视频中的运动线索,或忽略了光流图像中的空间上下文. 本文的方法使用两个子网络分别实现两个子 ...
最新文章
- 腾讯发布AR导航,“生态+技术”驱动下一代智能座舱体验跃迁
- s:property 获取 ValueStack中的值
- 问题集锦(43-45)
- ip6tables 无法基于端口过滤IPv6 分片报文问题解决
- VTK:Texture之ProjectedTexture
- socket closed是什么意思_socket请求
- 前端学习(1287):node.js的组成
- 导入表格只有一行 帆软_万万没想到!把x个表格合合合合成一份,10分钟就搞定...
- amend用法 git 信息_Git 高级用法,你用过哪些了
- 委托函数《重构》----处理概括关系
- 和pbs的区别_少女针Ellanse易丽适和童颜针的区别,最全面解析
- mysql中毫秒的保存类型
- Detours信息泄漏漏洞
- 手机知识:手机OTG知识介绍,看完你就懂了
- MySQL 日期字段时间加 1 毫秒
- Oracle中索引的创建和使用
- Java编程工具哪种好?
- 南京邮电大学计算机专业录取分数线2019,南京邮电大学录取分数线
- 实验五 构造函数和析构函数
- 机架惠普服务器型号,惠普HP DL160G6机架式服务器