CVPR2018已公布关于视频目标跟踪的论文简要分析与总结
CVPR2018已公布关于视频目标跟踪的论文简要分析与总结
一,A Twofold Siamese Network for Real-Time Object Tracking
论文名称 |
A Twofold Siamese Network for Real-Time Object Tracking |
简介 |
此算法在SiamFC的基础上增加了语义分支,进一步提升SiamFC的判别力,从而提升了跟踪效果,即使损失了一些速度,但是仍然达到了实时的跟踪速度。总的来说,本文思路简单明了,逻辑清晰,道理透彻,是一个不错的单目标跟踪工作,唯一欠缺的是其仍然沿用SiamFC在跟踪过程中所有帧都和第一帧对比,是该类方法的主要缺陷。 |
创新点 |
1:将图像分类任务中的语义特征与相似度匹配任务中的外观特征互补结合,非常适合目标跟踪任务,因此此算法可以简单概括为:SA-Siam=语义分支+外观分支; 2:对于新引入的语义分支,此算法进一步提出了通道注意力机制。在使用网络提取目标物体的特征时,不同的目标激活不同的特征通道,作者对被激活的通道赋予高的权值,此算法通过目标物体在网络特定层中的响应计算这些不同层的权值。 3:Motivation:目标跟踪的特点是,作者从众多背景中区分出变化的目标物体,其中难点为:背景和变化。此算法的思想是用一个语义分支过滤掉背景,同时用一个外观特征分支来泛化目标的变化,如果一个物体被语义分支判定为不是背景,并且被外观特征分支判断为该物体由目标物体变化而来,那就认为这个物体即需要被跟踪的物体; |
主要框架 |
基于SiamFC修改,Siamese 网络 |
效果 |
速度:50fps, 语义分支权重:外观分支权重 = 7:3 OTB实验:OTB-2013(0.896,0.677),OTB-2015(0.865,0.657) |
代码 |
没公布 |
二,Context-aware Deep Feature Compression for High-speed Visual Tracking
论文名称 |
Context-aware Deep Feature Compression for High-speed Visual Tracking |
简介 |
作者提出了一种在实时跟踪领域高速且state-of-the-art表现的基于context-aware correlation filter的跟踪框架。这个方法的高速性依赖于会根据内容选择对应的专家自编码器来对图片进行压缩;context在此算法中表示根据要跟踪目标的外观大致分的类。在预训练阶段,每个类训练一个自编码器。在跟踪阶段,根据给定目标选择最佳的自编码器——专家自编码器,并且在下面阶段中仅使用这个网络。为了在压缩后的特征图上达到好的跟踪效果,作者分别在与训练阶段和微调专家自编码器阶段提出了一种去噪过程和新的正交损失函数。 |
创新点 |
对于视频这种高维度数据,作者训练了多个自编码器AE来进行数据压缩,至于怎么选择具体的网络, 本文创新的地方在于: |
主要框架 |
correlation filter+ VGG-Net |
效果 |
速度:超过100fps。 精度: |
代码 |
没公布 |
三,Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking
论文名称 |
Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking(STRCF) |
简介 |
此算法研究了在不损失效率的情况下,利用空间正则化和大型训练集形式的优点的方法。一方面,SRDCF 的高复杂度主要来源于对多幅图像的训练形式。通过去除约束条件,单图像样本上的 SRDCF 可以通过 ADMM 有效地解决。由于 SRDCF 的凸性,ADMM 也能保证收敛到全局最优。另一方面,在 SRDCF 算法中,将空间正则化集成到多幅图像的训练形式中,实现了 DCF 学习与模型更新的耦合,提高了追踪准确率。在在线被动攻击 ( PA ) 学习 [ 6] 的启发下,作者将时间正则化方法引入到单图像 SRDCF 中,得到了时空正则化相关滤波器 ( STRCF )。STRCF 是多训练图像上 SRDCF 形式的合理近似,也可用于同时进行 DCF 学习和模型更新。此外,ADMM 算法也可以直接用于求解 STRCF。因此,本文提出的 STRCF 将空间正则化和时间正则化结合到 DCF 中,可以用来加速 SRDCF。此外,作为在线 PA 算法的扩展,STRCF 还可以在外观大幅变化的情况下实现比 SRDCF 更鲁棒的外观建模。与 SRDCF 相比,引入时间正则化后的 STRCF 对遮挡具有更强的鲁棒性,同时能够很好地适应较大的外观变化。 |
创新点 |
|
主要框架 |
相关滤波,HOG,CN特征 |
效果 |
SRDCF 的变体和使用 HOG 特征的 STRCF 在 OTB-2015 和 Temple-Color 数据集上关于 OP(%)和速度(FPS)的比较。 |
代码 |
没公布 |
四,End-to-end Flow Correlation Tracking with Spatial-temporal Attention
论文名称 |
End-to-end Flow Correlation Tracking with Spatial-temporal Attention |
简介 |
首先是motivation,作者注意到几乎所有的跟踪器都只用到了RGB信息,很少有用到视频帧和帧之间丰富的运动信息;这就导致了跟踪器在目标遇到运动模糊或者部分遮挡的时候,性能只能依靠离线训练的特征的质量,鲁棒性很难保证。于是作者就想利用视频中的运动信息(Flow)来补偿这些情况下RGB信息的不足,来提升跟踪器的性能. 具体来说,作者首先利用历史帧和当前帧得到Flow,利用Flow信息把历史帧warp到当前帧,然后将warp过来的帧和本来的当前帧进行融合,这样就得到了当前帧不同view的特征表示,然后在Siamese和DCF框架下进行跟踪. |
创新点 |
1. 第一篇把Flow提取和tracking任务统一在一个网络里面的工作。 2.采用Siamese结构,分为historical branch和current branch. 在historical branch里面,进行Flow的提取和warp, 3.在融合阶段,我们设计了一种spatial-temporal attention的机制. 4.在current branch,只提取特征. Siamese结构两支出来的特征送进DCF layer, 得到response map. 总结来说,就是把Flow提取,warp操作,特征提取和融合,CF tracking都做成了网络的layer,端到端地训练它们。 |
主要框架 |
Siamese结构和DCF框架 |
效果 |
VOT2015结果 |
代码 |
没公布 |
五, Visual Tracking via Adversarial Learning
论文名称 |
Visual Tracking via Adversarial Learning(VITAL) |
简介 |
|
创新点 |
此算法主要分析了现有的检测式跟踪的框架在模型在线学习过程中的两个弊病,即: 2.正负样本之间存在严重的不均衡分布的问题; |
主要框架 |
在VGG-M模型基础上进行改进 |
效果 |
速度:1.5fps,(在Tesla K40c GPU下的速度) |
代码 |
没公布 |
六,Unveiling the Power of Deep Tracking
论文名称 |
Unveiling the Power of Deep Tracking(ECO+) |
简介 |
论文是对ECO的改进,deep tracker无法受益于更好更深CNN的深度特征,针对这一反常现象,实验和分析表明这主要是由于浅层特征和深度特征的特性差异,两种特征分而治之,深度特征部分加入了数据增强增加训练样本数量,用不同label function,浅层特征正样本更少,深度特征正样本更多。两部分响应图自适应融合,提出了可以同时反映准确性和鲁棒性的检测质量估计方法,基于这个质量评估,最优化方法自适应融合两部分的响应图,得到最优的目标定位结果。实验结果在各个测试集上都是目前最好。 |
创新点 |
ECO+对ECO的核心改进是: 两种特征区别对待,分而治之,深度特征负责鲁棒性,浅层特征负责准确性,两种检测响应图在最后阶段自适应融合,目标定位最优化,兼具两者的优势。 |
主要框架 |
对ECO的改进,相关滤波+深度特征 |
效果 |
精度: |
代码 |
没公布 |
七,Learning Spatial-Aware Regressions for Visual Tracking
论文名称 |
Learning Spatial-Aware Regressions for Visual Tracking |
简介 |
利用核岭回归分析(KRR)和卷积神经网络(CNN)互补的跟踪。前者侧重于整体的目标,后者关注当地的小区域。他们提出的追踪器以一种新的方式结合了CNN和相关滤波,通过设计算法让CNN专注于特定区域的回归,相关滤波专注于全局的回归,在最后对回归的结果进行组合,以互补的方式得到物体的精确定位。文章旨在将CNN和KRR结合起来,其中CNN用于用于关注目标的局部信息,KRR用于关注目标的整体信息; |
创新点 |
重新定义KRR中核的计算以及KRR的求解方法1,用将目标分割成部件的思想定义了新的求核相关值的方法,并将该方法融入到CNN中作为一个组件进行高效求解;2,在CNN用于跟踪的任务中提出了空间正则化方法(类似SRDCF思想),主要做法是通过学习强制让CNN的各个通道分别关注于目标特定的子区域; 3,提出了适用于跟踪的新的Pooling方法:distance transform pooling用于判断CNN输出层的有效性; 4,将1和2中的结果进行融合,共同确定目标位置; |
主要框架 |
深度学习框架 |
效果 |
|
代码 |
http://data.votchallenge.net/vot2017/trackers/24_LSART.zip |
八,Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Tracking
论文名称 |
Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Tracking |
简介 |
RASNet使用三个attention机制对SiamFC特征的空间和channel进行加权,分解特征提取和判别性分析的耦合,用来提升判别能力。 |
创新点 |
1.作者做的工作的本质就是让网络去预测对偶变量。 2.为了增加网络的判别能力,一个通用的attention似乎并不够。CF根据每个模板图像进行学习,得到很好的判别器。作者也模仿这个机制,根据第一帧图像的feature,使用网络学习一个动态的attention。 3.能让网络学习的就学习,尽量避免在线学习。 4.提出残差结构,希望残差学习的部分的均值近似为0。 |
主要框架 |
深度学习框架 |
效果 |
精度: |
代码 |
没公布 |
CVPR2018已公布关于视频目标跟踪的论文简要分析与总结相关推荐
- 漫谈视频目标跟踪与分割
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 本文整理记录了旷视研究院Detection组针对视频目标跟踪与分割问题的探讨和收获,并从喜闻乐见的图像 ...
- 收藏 一文熟悉视频目标跟踪技术
01 研究背景介绍 近年来,随着大数据.云计算.人工智能等领域日新月异的发展及交互融合,智慧电商.智慧交通.智慧城市等概念越发受到关注.随着人们对更智能.更便捷.更高质量生活的向往,同时伴随着重大的学 ...
- 视频目标跟踪从0到1,概念与方法
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 导读 从目标跟踪的应用场景,底层模型,组件,类型和具体算法几个方面 ...
- dlib库包的介绍与使用,opencv+dlib检测人脸框、opencv+dlib进行人脸68关键点检测,opencv+dlib实现人脸识别,dlib进行人脸特征聚类、dlib视频目标跟踪
文章目录: 1 dlib库介绍 2 dlib人脸检测:绘制出人脸检测框 2.1 dlib人脸检测源码 2.2 opencv + dlib 人脸检测 2.3 dlib人脸检测总结 3 dlib人脸关键点 ...
- RASNet视频目标跟踪论文笔记
1. 论文信息 论文题目:Learning Attentions: Residual Attentional Siamese Network for High Performance Online V ...
- TensorFlow知网文章1-TensorFlow平台下的视频目标跟踪深度学习模型设计
1.TensorFlow平台下的视频目标跟踪深度学习模型设计 刘帆刘鹏远李兵徐彬彬 中国人民解放军军械工程学院四系 视频目标识别与跟踪的本质是在连续视频帧中找到感兴趣的运动目标所处的位置. 现有很多成 ...
- 基于均值漂移的视频目标跟踪算法的研究
背景介绍 计算机视觉作为一门多技术融合的学科,涉及模式识别和视频图像处理等众多领域.基于视频的目标检测与跟踪技术是计算机视觉领域中最主要的研究方向之一,它是智能监控.移动机器人视觉导航以及人机交互等应 ...
- 一文看尽7篇目标跟踪最新论文(ABCTracker/MAST/L1DPF-M等)
前言 恰逢 2020年,本文再次更新近期值得关注的最新目标跟踪论文.这次分享的paper将同步推送到 github上,欢迎大家 star/fork(点击阅读原文,也可直接访问): https://gi ...
- OpenCV视频目标跟踪及背景分割器
目标跟踪 本文主要介绍cv2中的视频分析Camshift和Meanshift. 目标: 学习Meanshift算法和Camshift算法来寻找和追踪视频中的目标物体 Meanshift算法: mean ...
最新文章
- 网页图片缩放的深入剖析
- java合并两个doc文件,java实现合并2个文件中的内容到新文件中
- node.js项目应用
- 【网络爬虫】BeautfulSoup爬百度百科(真の能看懂~!)
- gimp修改图片部分区域的对比度
- C++语言中std::array的神奇用法总结,你需要知道!
- input 禁止输入特殊字符
- Atitit. Object-c语言 的新的特性 attilax总结
- 文件夹加密软件排行榜
- 通俗地理解贝叶斯公式(定理)
- 发票显示服务器不可用什么原因,增值税发票服务平台常见问题汇总:发票勾选需要注意哪些问题?...
- emu8086:如何把数组里的值全部变为FFFF
- 调用支付jsapi缺少参数appid
- 系统分析员要了解什么知识?
- CCS中如何使用profile
- 孩子兄弟存储结构的几个统计算法实现
- 游戏开发主要学哪些课程?
- 5-11 java scaner
- HTML5编写船上航行,描写帆船航行的诗句
- 中科院大牛博士是如何进行文献检索和阅读(好习惯受益终生)
热门文章
- HTML用disabled属性禁用元素
- 【暖春送礼】七牛客户关爱之百万红包4月来袭!
- 简单数论总结(整除)
- 让Windows 7自动显示详细登录时间
- Windows环境安装Gradle
- 日本摄影师梶原憲之宫崎骏动漫风女孩儿童摄影作品图片合集欣赏
- 让人茅塞顿开!一线互联网移动架构师Android框架体系架构!全网最新
- linux 处理机调度ppt,处理机调度6Linux系统中的进程调度-Read.ppt
- 【linux/makefile】-D_REENTRANT编译选项的作用
- android 获取设备指纹,Android唯一识别号(设备指纹)的生成