今天为大家介绍一篇ICCV2019的paper,用于目标跟踪。也是更新模板,和之前介绍的GradNet更新模板的策略不同,是通过一个小网络学习新的模板。

论文以及官方代码 点击这里

研究背景

在目标跟踪领域,目标在一个序列中会有非常大的变化,这个变化来自于自身形状,遮挡,其他类似目标出现吗,运动模糊,光照等因素。
先有的孪生网络,一部分把第一帧的目标crop出来,用作模板,用模板和后续帧进行相似度的学习。这样的方法没有考虑目标在后续帧可能出现很大的变动,甚至和第一帧的形象相差极大,导致仍然用第一帧的目标作为模板已经不足以得到很好的相似图。
另一方面,一些工作开始探索模板更新,但很多方法都是用线性更新策略,用一个常数按照比例融合模板得到新的模板。这种方式会导致来自第一帧的模板信息在最终得到的模板中呈现指数级下降。一旦发生了误差偏移,就无法在恢复过来。并且线性更新方式限制了获得可能还有的增益。线性更新还有一个问题,就是不能仅更新某一个位置,因为线性更新的范围是整个空间上和通道上都加值。

因此,该论文提出UpdateNet,使用三个模板输入一个小网络中,希望网络能学到最优的模板用于下一帧的预测。作者在SiamFC和DSiamRPN上加入了UpdateNet,得到了更好的性能。

方法

作者先介绍了线性更新策略,以及四点缺点。然后引出Learning to update

UpdateNet就是两个卷积层,在implement detail有将,整个方法很简单。


Ti~\widetilde{T_i}Ti​​就是适合第i+1帧预测的模板,为了预测这个模板,输入有来自第0帧(给定帧的模板)的模板,由GT指定了。来自第i-1的最佳模板T~i−1\widetilde{T}_{i-1}Ti−1​,以及用第i帧的预测结果得到的模板TiT_iTi​。

左边是模板更新的示意图,我们可以看出输入有三个模板,同时还用了残差链接。来自第0帧的模板加上新的模板得到最优的模板用于下一帧的预测。同时下一帧的预测,用到了上一帧的预测结果,把预测结果crop出来,送入提出特征的网络ϕ\phiϕ,得到的TiT_iTi​。

方法虽然简单,在如何训练上要煞费苦心好好设计一下 。

网络如何训练

首先loss选择l2 loss ,和SiamFC一样的。直接在两个相似图上进行回归即可。

为了训练,我们需要四个东西,前三个分别是UpdateNet的输入,另一个是Ti+1GTT^{GT}_{i+1}Ti+1GT​。其中T0GT,T_0^{GT},T0GT​,Ti+1GTT^{GT}_{i+1}Ti+1GT​很好获得,都是标签给出的。如何能获得符合测试时数据分布一致的另外两个模板就值得好好想想了。
对于TiT_iTi​,当然可以直接用标签获取,但是标签是准确的模板位置,在测试时,我们未必能获得准确的目标位置。如果训练过程中,TiT_iTi​采用通过标签获取,一定导致在测试的时候,性能下降,毕竟训练和测试存在数据分布上的差异。
我们虽然不能通过标签获得TiT_iTi​,但是可以通过T~i−1\widetilde{T}_{i-1}Ti−1​得到第i帧目标的粗略位置,这个粗略位置和GT存在位置误差,恰恰就是满足测试过程数据分布的。所以关键点就来到了如何获得合理的T~i−1\widetilde{T}_{i-1}Ti−1​

作者提出多阶段训练。
设有k个阶段,
第一阶段,k=0, 使用线性更新策略,获得每个帧的T~i\widetilde{T}_{i}Ti​,同时得到每一帧的预测结果。保存在硬盘上。
之后的每个阶段,都用UpdateNet训练,因为该有的材料都有了。论文测试了K最大为3的情况,是k=3是最优的。

Learning the Model Update for Siamese Trackers论文解读相关推荐

  1. 单目标跟踪算法:Siamese RPN论文解读和代码解析

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者:周威 | 来源:知乎 https://zhuanlan.zhihu.com/p/16198364 ...

  2. 《First Order Motion Model for Image Animation》论文解读

    论文解读 1.前言 2.解读 3.整体概述 4.细节讲解 1.前言 早期的Facerig软件可以即时抓取摄像头视频中的人脸关键点,将表情.头部姿态等信息转化到三维虚拟化身上,比如一只猫.一个虚拟卡通人 ...

  3. 基于深度强化学习的车道线检测和定位(Deep reinforcement learning based lane detection and localization) 论文解读+代码复现

    之前读过这篇论文,导师说要复现,这里记录一下.废话不多说,再重读一下论文. 注:非一字一句翻译.个人理解,一定偏颇. 基于深度强化学习的车道检测和定位 官方源码下载:https://github.co ...

  4. Learning Attentive Pairwise Interaction for Fine-Grained Classification论文解读

    论文链接:https://arxiv.org/abs/2002.10191 分享的这篇文章来自于AAAI2020,文章的整个思路并不难理解.文章的idea来自于我们人类对相似图像的识别.一般来说,我们 ...

  5. Learning Generalized Spoof Cues for Face Anti-spoofing论文解读及复现笔记

    Paper link: https://arxiv.org/abs/2005.03922 Code link: https://github.com/VIS-VAR/LGSC-for-FAS 简介: ...

  6. Meta Talk: Learning To Data-Efficiently Generate Audio-Driven Lip-Synchronized Talking 论文解读

    1. 相关链接 中文介绍链接: 语音语义创新Lab_News_聚焦虚拟说话人生成技术,华为云论文被人工智能语音领域顶级会议ICASSP2022接收 论文链接: Meta Talk: Learning ...

  7. PROTOTEX: Explaining Model Decisions with Prototype Tensors论文解读

    提示:这里只放了汇报的Slides,详情可见知乎Durling 文章目录 前言 一.论文动机与贡献 二.模型 1.原型张量 2.模型结构 3.损失函数 3.训练过程 4.Negative protot ...

  8. (I3D)Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset 论文解读

    Abstract 本论文提出了一种新的数据集Kinetics.他是ucf101,HMDB-51数据集的的两倍. 论文分别将当前现有的模型在Kinetics数据集上跑一遍,看这些模型在此数据集上表现的如 ...

  9. 《SMPLicit: Topology-aware Generative Model for Clothed People》论文解读

    作者和机构 解决的问题 使用线性模型对衣服进行编码 左边四幅图展示的是3D身体和服装重建的应用.右边三幅图展示的是服装编辑和姿势重建. 难点 需要找到一种参数量较少的服装模型表示 在人体上生成宽松衣服 ...

  10. 【DiMP】Learning Discriminative Model Prediction for Tracking论文阅读

    Learning Discriminative Model Prediction for Tracking 论文地址 写在前面 又是MD大神的一个作品,发现MD大神也把Siamese的框架用起来了,而 ...

最新文章

  1. 一作解读Gut:人体最初的微生物起源与生殖健康
  2. Netty笔记(一)第一个程序
  3. 相对布局(RelativeLayout)的控件运用
  4. conda环境下如何升级python?
  5. mysql的常用的备份工具_39、mysql常用备份工具
  6. 数码管和573锁存器的细节问题
  7. 计算机网络学习笔记-1.2.2OSI参考模型(1)
  8. beanshell字符串替换_必知必会的操作Jmeter(十六)_beanshell实现字符串加密
  9. 加工生产调度(信息学奥赛一本通-T1425)
  10. 【华为云技术分享】[HDC.Cloud]基于鲲鹏平台的Ceph深度性能调优
  11. [转贴]如何成为一个优秀的jsp程序员
  12. 使用C#调用Java带MIME附件WebService方法的初步设想
  13. SAP物料批次管理配置及操作手册(轉載)
  14. linux 存储映射lun 给_Linux挂载iscsi存储
  15. 服务器端口连通性测试
  16. python实现千牛客服自动回复语_千牛自动回复话术
  17. 微信小程序(一)天气预报
  18. 餐馆点餐系统(Java GUI + mysql)
  19. hp服务器显示器不亮,惠普电脑显示器不亮怎么办
  20. 买笔记本要注意什么呢?

热门文章

  1. 阿里云、腾讯云、UCloud、华为云云主机对比测试报告
  2. 全球数字电视标准制式
  3. 【MySQL】Online DDL详解
  4. ARTPI(STM32H750XBH) + ALIENTEK 7‘ RGB TFTLCD + LVGL8.2.0成功
  5. Silverlight MMORPG WebGame游戏设计(二)--通讯协议之惑
  6. 自建pop邮件服务器,POP是什么?怎样开通?
  7. nginx对后台服务健康检查、隐藏版本号及缓存
  8. easyui基本布局
  9. C语言中的除法运算符( /)
  10. Windows API实现弹出U盘