EDCF阅读笔记：Reinforced Representation Learning for High Performance Visual Tracking

前言：看完这篇文章，我感慨还是挺多的。。

先附上作者在知乎上对这篇文章的介绍吧：https://zhuanlan.zhihu.com/p/34222060 论文的介绍在文章后半部分。

这篇文章考虑的是怎么不丢失跟踪目标的细节，其实就是提高目标的判别性，Siam类方法的跟踪缺点就是判别性不强，尤其是在图像中有与目标相似的物体时，往往导致跟踪失败。
因此作者加入了Encoder-Decoder结构，通过解码出来的图像与原图像之间的误差不断缩小，达到编码器中间的输出包含目标更多的细节信息。

解释下这个结构：
用的依旧是Siamese结构的思想，上面是样例图像分支，下面是搜索图像分支。
不考虑解码器的部分，两幅图像经过网络的，先利用浅层特征经过CACF后得到125125的响应图，这个CACF在后面会将到。然后利用深层特征进行互相关运算，得到1717的响应图，这个响应图经过双二次差值上采样到125*125，最后两幅响应图融合成最终响应，以上其实也是跟踪的过程。
作者加上了解码器(decoder)，利用自编码器的思想，通过reconstruction loss不断优化，增加的这个重构约束增强了跟踪的判别性，后面的对比试验可以看出，性能提高了很多。
再来说这个CACF，参考CVPR2017年的这篇论文《Context-Aware Correlation Filter Tracking》，上下文感知的相关滤波器。
CACF的思想是在目标图像块z0z_0z0的周围采样k个上下文图像块ziz_{i}zi，这些图像块可以看做困难负样本，目的就是目标图像块有高的响应，周围图像块响应接近0：
min⁡w∥Z0w−y∥22+λ1∥w∥22+λ2∑i=1k∥Ziw∥22\min_{w}\left \| Z_0w-y \right \|_{2}^{2}+\lambda _1\left \| w \right \|_{2}^{2}+\lambda _2\sum_{i=1}^{k}\left \| Z_iw \right \|_{2}^{2}wmin∥Z0w−y∥22+λ1∥w∥22+λ2i=1∑k∥Ziw∥22

在傅里叶域有闭式解：
w^=z^0∗⊙y^z^0∗⊙z^0+λ1+λ2∑i=1kz^i∗⊙z^i\hat{w}= \frac{\hat{z}_0^*\odot \hat{y}}{\hat{z}_0^*\odot \hat{z}_0+\lambda _1+\lambda _2\sum _{i=1}^k\hat{z}_i^*\odot \hat{z}_i}w^=z^0∗⊙z^0+λ1+λ2∑i=1kz^i∗⊙z^iz^0∗⊙y^

作者推导使之可微，可以进行反向传播，然后就可以端到端的进行训练了。公式就不贴了。
训练就是训练这三个损失函数。

跟踪时，就可以去掉后面的解码器，高层特征的样例模板就用第一帧的信息，固定不变。浅层特征出来的滤波器w进行更新：
wt=αtw+(1−αt)wt−1w_t=\alpha _tw+(1-\alpha _t)w_{t-1}wt=αtw+(1−αt)wt−1

αt=α⋅f∗(xt′)/f∗(x1′)\alpha _t=\alpha \cdot f^*(x_t^{'})/f^*(x_1^{'})αt=α⋅f∗(xt′)/f∗(x1′)

α\alphaα开始取0.017

实验结果：

这是作者提出的EDCF和SiamFC、CFNet、CACF还有自身变种的比较，EDSiam是没有加CACF，CACFNet+是没有加高层特征的互相关，CACFNet是只端到端训练了两层的网络，没有利用Encoder-Decoder结构。EDCF无疑取得了最好的成绩。
接下来是跟其他跟踪器的比较，就不贴图了。

总体来看，结构还是很新颖的，不过性能似乎跟最近的一些新出来的Siam类跟踪器有点差距。

EDCF阅读笔记：Reinforced Representation Learning for High Performance Visual Tracking相关推荐

论文阅读笔记：SCAN: Learning to Classify Images without Labels
论文阅读笔记:SCAN: Learning to Classify Images without Labels 摘要简介和相关工作方法表征学习语义聚类损失 2.3 通过自标记进行微调 3 实验 ...
阅读笔记（Communication-Efficient Learning of Deep Networks from Decentralized Data）
阅读笔记(Communication-Efficient Learning of Deep Networks from Decentralized Data) 动机联邦平均实验结果 MINIST优 ...
Learning Spatio-Temporal Transformer for Visual Tracking——精读笔记
本篇精读笔记,对原文重要部分做了严格翻译,如摘要和总结.对正文部分做了提炼,对重点部分突出标注.对参考文献做了分类.本文内容较长,如果时间有限可以直接跳到感兴趣的小节阅读. 论文地址:https:// ...
CFNet：End-to-end representation learning for Correlation Filter based tracking
论文题目:End-to-end representation learning for Correlation Filter based tracking, CVPR2017 论文主页:http:// ...
阅读Hierarchical Graph Representation Learning with Differentiable Pooling(NeurIPS 2018)
最近关注graph pooling,Hierarchical Graph Representation Learning with Differentiable Pooling(NeurIPS 2 ...
文章阅读：UNSUPERVISED REPRESENTATION LEARNING BY PREDICTING RANDOM DISTANCES
UNSUPERVISED REPRESENTATION LEARNING BY PREDICTING RANDOM DISTANCES 文章:https://arxiv.org/pdf/1912.12 ...
Deep Meta Learning for Real-Time Target-Aware Visual Tracking 论文阅读
这篇文章是韩国的一个组做的,一直没中, 直到19年中了ICCV,据说是第一篇将元学习引入目标跟踪的文章,用的架构是siamese网络的架构,但是在模型在线更新的时候使用了meta-learning的思 ...
论文阅读笔记：ProjectionNet: Learning Efficient On-Device Deep Networks Using Neural Projections
提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录前言介绍相关工作神经投影网络(Neural Projection Networks) Pro ...
ZH奶酪：【阅读笔记】Deep Learning, NLP, and Representations
中文译文:深度学习.自然语言处理和表征方法 http://blog.jobbole.com/77709/ 英文原文:Deep Learning, NLP, and Representations ht ...
【阅读笔记】Federated Learning for Privacy-Preserving AI
Federated Learning for Privacy-Preserving AI 前言一.论文解析 Definition Categorization Architecture Applic ...

EDCF阅读笔记：Reinforced Representation Learning for High Performance Visual Tracking

EDCF阅读笔记：Reinforced Representation Learning for High Performance Visual Tracking相关推荐

最新文章

热门文章