Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记
arXiv
摘要:本文提出了一种 DRL 算法进行单目标跟踪,算是单目标跟踪中比较早的应用强化学习算法的一个工作。
在基于深度学习的方法中,想学习一个较好的 robust spatial and temporal representation for continuous video data 是非常困难的。
尽管最近的 CNN based tracker 也取得了不错的效果,但是,其性能局限于:
1. Learning robust tracking features ;
2. maximizing long-term tracking performance ---->>> without taking coherency and correlation into account.
本文的创新点在于:
1. 提出一种 convolutional recurrent neural network model, 可以学习到单帧图像的空间表示 以及 多帧图像之间的时序上的表示;
得到的特征可以更好的捕获 temporal information,并且可以直接应用到跟踪问题上;
2. 我们的框架是端到端的进行训练的 deep RL algorithm,模型的目标是最大化跟踪性能;
3. 模型完全是 off-line的;
Tracking Framework :
本文提出的 Deep RL 算法框架,由三个部分构成:
1 CNN 特征提取部分;
2 RNN 历史信息构建部分;
3 DEEP RL 模块
前两个部分没什么要说的,就是简单的 CNN, LSTM 结构。
第三个 RL 部分:
说到底,这个文章是在之前 attention model based Tracker ICLR 2016 年的一个文章基础上做的。
RL 部分就是没有变换,直接挪过来的。
状态,是跟踪视频的 frame ;
动作,是 多变量高斯分布得到的 predicted location;
奖励,是 scalar reward signal, 定义为:$r_t = -avg(l_t - g_t) - max(l_t - g_t)$ ,lt 是RL单元的输出,gt 是时刻 t 的 gt ;
avg() 是给定矩阵的 mean value; max() 是计算给定元素的最大值。
训练的目标是最大化奖励信号 R。
学习的目标函数为:
其中,p(z1:T; W) 是可能交互的分布,参数化为 W (the distribution over possible interactions parameterized by W).
上述函数涉及到 an expectation over high-dimensional interactions,以传统的监督方法来解决是非常困难的。
利用 RL 领域中的 REINFORCE algorithm 进行近似求解。
转载于:https://www.cnblogs.com/wangxiaocvpr/p/6391221.html
Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记相关推荐
- PULT:Progressive Unsupervised Learning for Visual Object Tracking(用于视觉目标跟踪的渐进式无监督学习)
Progressive Unsupervised Learning for Visual Object Tracking(用于视觉目标跟踪的渐进式无监督学习 ) 因为是无监督学习,所以需要对样本数据充 ...
- 基于深度强化学习的车道线检测和定位(Deep reinforcement learning based lane detection and localization) 论文解读+代码复现
之前读过这篇论文,导师说要复现,这里记录一下.废话不多说,再重读一下论文. 注:非一字一句翻译.个人理解,一定偏颇. 基于深度强化学习的车道检测和定位 官方源码下载:https://github.co ...
- SeqTrack: Sequence to Sequence Learning for Visual Object Tracking
摘要 在本文中,我们提出了一种新的序列到序列学习框架的视觉跟踪,称为SeqTrack.它将视觉跟踪转换为一个序列生成问题,它以自回归的方式预测对象边界盒.这与之前的Siamese跟踪器和transfo ...
- Deep learning in video multi-object tracking A survey 论文笔记
- 深度强化学习:入门(Deep Reinforcement Learning: Scratching the surface)
原文链接:https://blog.csdn.net/qq_32690999/article/details/78594220 本博客是对学习李宏毅教授在youtube上传的课程视频<Deep ...
- 论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning
论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning 2017-06-06 21: ...
- Path Planning for UAV Ground Target Tracking via Deep Reinforcement Learning(IEEE Access-2020)
论文阅读 看文章我觉得,先看摘要,摘要基本能够让你了解这篇文章做了什么,但做论文笔记我先会从介绍写起,最终回到摘要 Path Planning for UAV Ground Target Tracki ...
- 论文笔记(十六):Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning
Learning to Walk in Minutes Using Massively Parallel Deep Reinforcement Learning 文章概括 摘要 1 介绍 2 大规模并 ...
- 深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning
A Brief Survey of Deep Reinforcement Learning 深度强化学习的简要概述 作者: Kai Arulkumaran, Marc Peter Deisenroth ...
最新文章
- android7.0图标反馈,android7.0 webview中 图标错位
- 多线程(6)线程同步
- Redis配置文件常用配置消息解说--版本5.0.9
- Niginx笔记-Linux上源码安装Niginx
- 将iso镜像包设置成yum源_Centos7 Nginx搭建局域网yum仓库详细步骤,转发
- bzoj 2850 巧克力王国 —— K-D树
- 各类数据库问题描述模板
- 管理感悟:独当一面,很难
- “互联网+”时代 软件去哪儿啦?
- 贴片led极性_贴片发光二极管正负极判断方法详解
- c语言课程设计作业心得体会,c语言课程设计总结心得
- 2016年最经典的高仿系列源码打包下载4.84G
- 寒假回归篇——C语言学习感悟2022.1.16
- poi在word输出复选框windows远程突然不能复制的解决方法
- 如何使用电脑上的谷歌浏览器来调试安卓手机上的移动端页面
- 33学习笔记——描述统计分析3--数据的描述统计量
- 离校毕业生刚去新的陌生城市,需要提高警惕的几点
- 洛谷 P1024 一元三次方程求解 (暴力 or 二分 or 盛金公式)
- 广播(Broadcast)的发送与接收
- 京东搜索引擎技术-Elasticsearch快速入门
热门文章
- linux设备树 驱动,(9条消息)zynq linux驱动之使用设备树开发
- 高德地图发布“极客地图” 女神林志玲推荐最美街拍地
- 终于回应!林志玲春晚水上芭蕾表演替身曝光是怎么回事?
- 宝塔 开启xdebug_XDebug的配置和使用
- 共轭梯度法matlab代码博客园,共轭梯度法源代码.doc
- ArcGIS二次开发软件安装
- 如何在Apache官网下载Apache服务器
- 第26章、OnKeyListener键盘事件(从零开始学Android)
- Android Q : 安卓源码、水滴屏适配状态栏图标(图标过多时显示一个点)
- IDEA上使用SSH框架时persistence界面没有sessionFactory解决方法