CVPR 2017 ADNet:《 Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning》论文笔记

2024-05-24 21:39:27

理解出错之处望不吝指正。

本文模型叫做ADNet。该模型通过强化学习产生动作序列（对bbox进行移动or尺度变换）来进行tracking。原理如下图（第一列代表初始帧，第二列和第三列代表通过RL产生的动作序列对object进行tracking）：

模型的整体结构如下：

强化学习部分：

（1）状态：

状态 $s_t$ 分为 $p_t$ 和 $d_t$ 两部分。其中 $p_t$ 代表正在tracking的bbox（当前图片信息，可在上图中看到）， $d_t$ 则是一个 $11\times 10=110$ 维的向量，存储的是pervious 10个action，其中11代表的是11种不同的action，使用独热码表示。

（2）动作：

动作分为3类共11种。第一类是move，包括上下左右和快速上下左右；第二类是scale，包括放大和缩小；第三类是stop，即终止操作。

（3）状态转移：

我们定义一个差值（ $\alpha =0.03$ ）：

对于上下左右action（以此类推）：

$\left [ x^{(t)}-\bigtriangleup x^{(t)},y^{(t)},w^{(t)},h^{(t)} \right ]$

对于快速上下左右action（以此类推）：

$\left [ x^{(t)}-2\bigtriangleup x^{(t)},y^{(t)},w^{(t)},h^{(t)} \right ]$

对于尺度变换action：

$\left [ x^{(t)},y^{(t)},w^{(t)}+\bigtriangleup x^{(t)},h^{(t)}+\bigtriangleup x^{(t)} \right ]$

（4）奖励函数：

假设action sequence的长度为T，则reward定义如下（即：中间的那些action都不产生reward，只有动作终止了才有reward）：

动作的终止有两种触发情况：①.选择了stop action；②.action sequence产生了波动（eg: {left, right, left}）。

训练部分：

训练部分包括三部分：

（1）训练监督学习部分

这部分训练 $\left \{ \left. w_1,w_2,...,w_7 \right \} \right.$ ，训练部分的action lable通过以下方法获得：

class lable的判断如下：

损失函数如下：

（2）训练强化学习部分（这部分有点没懂）

这部分训练 $\left \{ \left. w_1,w_2,...,w_6 \right \} \right.$ ，我们通过上一步骤的训练得到了当前训练的初始参数 $W_{RL}$ ，这部分就是使用SGD最大化：

其中当在labeled frame中success时， $z_{t,l}=1$ ，否则 $z_{t,l}=-1$ 。

作者提到这部分训练可以采用半监督训练，如下图所示：

（3）在线自适应

在线更新的时候，只对 $\left \{ \left. w_4,w_5,...,w_7 \right \} \right.$ 进行更新。每过 $I$ 帧使用前面 $J$ 帧中置信分数大于0.5的样本进行微调。

如果当前的置信分数小于-0.5，说明“跟丢了”，需要进行re-detection。

CVPR 2017 ADNet:《 Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning》论文笔记相关推荐

论文笔记之：Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning
论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning 2017-06-06 21: ...
目标跟踪算法五：MDNet: Learning Multi-Domain Convolutional Neural Networks for Visual Tracking
目标跟踪算法五:MDNet: Learning Multi-Domain Convolutional Neural Networks for Visual Tracking 原文:https://zh ...
earning Multi-Domain Convolutional Neural Networks for Visual Tracking
论文笔记<Learning Multi-Domain Convolutional Neural Networks for Visual Tracking> 0. 摘要基于CNN的一个跟踪 ...
论文记载： Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks
强化学习论文记载论文名: Deep Reinforcement Learning for Traffic LightControl in Vehicular Networks ( 车辆网络交通信号灯 ...
强化学习论文分析1---多小区功率控制问题----《Power Allocation in Multi-cell Networks Using Deep Reinforcement Learning》
目录一.研究内容概述二.系统目标与约束 1.系统目标 2.约束条件三.映射到Q-learning 1.Q表的确定 2.环境的确定四.设计DQN网络 1.输入层 2.输出层 3.损失值五.方法 ...
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪 ...
ActionSpotter Deep Reinforcement Learning Framework for Temporal Action Spotting in Videos
ActionSpotter: Deep Reinforcement Learning Framework for Temporal Action Spotting in Videos 论文阅读笔记 1 ...
STCT: Sequentially Training Convolutional Networks for visual tracking
1.怎么将CNN用在特定的任务中图1. 将CNN用在特定的任务中众所周知CNN的使用往往需要大量的训练样本,但是我们在很多特定任务中是没法获得像imageNet那样庞大的样本库,因此如何在小样本中 ...
FeUdal Networks for Hierarchical Reinforcement Learning 阅读笔记
FeUdal Networks for Hierarchical Reinforcement Learning 标签(空格分隔): 论文笔记增强学习算法 FeUdal Networks for Hi ...

最新文章

热门文章