ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记

理解出错之处望不吝指正。

本文模型叫做DSiam。作者提出一个Dynamic Siamese Network，可以使用一个transformation learning model来在线学习目标的外观变化并且压制背景信息。本文的另一个创新点在于作者提出了一个自适应聚合各个层的特征的方法（elementwise multi-layer fusion）。并且，本模型不用像以往的基于Siamese的模型使用pairs训练，而是使用整个video sequence一起训练。

模型的整体结构如下（虚线代表的是Siamese Network的步骤）：

传统的Siamese Network最终的结果通过下式计算（ $t$ 代表时间， $l$ 代表第 $l$ 层）：

在本文提出的模型中，公式如下：

这里 $V$ 代表target appearance variation transformation，目的是使当前帧得到的特征图相对于前些帧的特征图的变化变得平滑。 $W$ 代表background suppression transformation，目的是在特征图中“高亮”目标，减轻不相干的背景信息。“ $*$ ”代表循环卷积操作。

对于 $V$ 和 $W$ ，作者都是用的是如下的正则线性回归进行训练。

由于循环卷积操作，该式可以在频域快速计算（那个“五角星”代表共轭）：

$V$ 和 $W$ 的损失函数如下所示（具体每个符号代表什么可以在图中看出）：

作者提到的elementwise multi-layer fusion其实就是训练一个矩阵 $\gamma$ ，矩阵中的数值代表不同特征图的不同位置的权重，最终得到的respone map计算如下：

使用single layer的网络结构如下图所示：

作者详细推导了RLR和CirConv的梯度，使得模型可以端到端的训练：

训练的过程就是，首先经过前向传播，对于给定的N帧视频序列 $\left \{ \right.I_{t}|t=1,...,N\left. \right \}$ ，我们进行tracking后得到N个响应图，用 $\left \{ \right.S_{t}|t=1,...,N\left. \right \}$ 表示。同时，N个gound truth用 $\left \{ \right.J_{t}|t=1,...,N\left. \right \}$ 表示。则损失函数即为：

使用BPTT（backpropagation through time）和SGD进行梯度传播和参数更新。

ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记相关推荐

Learning Dynamic Siamese Network for Visual Object Tracking全文翻译
摘要如何有效地学习目标外观的时间变化,排除杂乱背景的干扰,同时保持实时响应,是视觉目标跟踪的一个重要问题.最近,Siamese 网络显示出基于匹配的跟踪器在实现平衡精度和超越实时速度方面的巨大潜 ...
Distractor-aware Siamese Networks for Visual Object Tracking 论文学习
Distractor aware of Siamese Networks for visual object tracking 论文学习论文阅读总结 Translation Abstract 1 I ...
SA-Siam：用于实时目标跟踪的双重连体网络A Twofold Siamese Network for Real-Time Object Tracking
原文链接摘要: 1.本文核心一:将图像分类任务中的语义特征(Semantic features)与相似度匹配任务中的外观特征(Appearance features)互补结合,非常适合与目标跟踪任务 ...
CVPR 2018 SA-Siam:《A Twofold Siamese Network for Real-Time Object Tracking》论文笔记
理解出错之处望不吝指正. 本文模型叫做SA-Siam.本文提出了一个结合Semantic features(语义特征)和Appearance features(表征特征)的模型,其实类似于一个双路模型 ...
Distractor-aware Siamese Networks for Visual Object Tracking全文翻译
摘要最近,Siamese 网络因其平衡的准确性和速度而在视觉跟踪界引起了极大的关注.然而,大多数连体跟踪方法中使用的特征只能区分前景和非语义背景.语义背景总是被认为是干扰因素,这阻碍了连体跟踪器 ...
ECCV 2018 DaSiamRPN:《Distractor-aware Siamese Networks for Visual Object Tracking》论文笔记
理解出错之处望不吝指正. 本文模型叫做DaSiamRPN.本文首先分析了已有的孪生网络方法中的特征和缺点,如下图所示: 如上图所示,是几种孪生模型对ROI提取出的特征图.论文中提到,造成这种现象的原因 ...
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪 ...
Hierarchical Graph Network for Multi-hop Question Answering 论文笔记
Hierarchical Graph Network for Multi-hop Question Answering 论文笔记 2020 EMNLP,Microsoft 365, 这篇文章所提出的层 ...
PULT：Progressive Unsupervised Learning for Visual Object Tracking（用于视觉目标跟踪的渐进式无监督学习）
Progressive Unsupervised Learning for Visual Object Tracking(用于视觉目标跟踪的渐进式无监督学习 ) 因为是无监督学习,所以需要对样本数据充 ...

ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记

ICCV 2017 DSiam:《Learning Dynamic Siamese Network for Visual Object Tracking》论文笔记相关推荐

最新文章

热门文章