TCTrack: Temporal Contexts for Aerial Tracking
TcTrack
论文标题:TCTrack: Temporal Contexts for Aerial Tracking
论文地址:https://arxiv.org/pdf/2203.01885.pdf
论文源码:未开源
单位:同济大学,NUS,南洋理工,阿里达摩院
Introduction
现有的视觉跟踪器远未充分利用现有的时间上下文信息。在本文中提出了TCTrack,一个综合型的框架,以充分利用时间上下文的无人机跟踪算法。时间上下文包含在两个层面上:特征的提取和相似性映射的细化。
在特征提取方面,本文提出了一种在线时间自适应卷积的方法,利用时间信息,通过根据前一帧动态校准卷积权值来增强空间特征。对于相似图的细化,我们提出了一种自适应时间转换器,它首先有效地编码时间知识,然后解码时间信息以精确调整相似图。TCTrack是有效和高效的:对四个无人机跟踪基准的评估显示其令人惊讶的性能;真实世界的无人机测试显示,它在NVIDIA Jetson AGX Xavier上的高速超过27FPS。
TCTrack在两个层次上引入了时间上下文信息到跟踪pipeline中,即特征和相似性映射。在特征层面,本文提出了一种在线时间自适应卷积(TAdaConv),在此基础上,将标准卷积网络转换为时间自适应网络(TAdaCNN)。由于在线TAdaConv中的校准是基于前一帧中特征的全局特征图信息,因此TAdaCNN只导致了可以忽略不计的帧率下降,但显著提高了跟踪性能。
在相似度图层面上,提出了一种自适应时间变换器(ATTrans),根据时间信息对相似度图进行细化。具体来说,AT-Trans采用编码-解码器结构,其中(i)编码器通过将之前的先验与当前相似图集成,产生当前时间步长的时间先验知识,(ii)解码器基于产生的时间先验知识以自适应的方式改进相似图。
对TCTrack的评估显示了该框架的有效性和效率。与51个最先进的跟踪器相比,在4个标准无人机跟踪基准上展现了优秀的性能,其中TCTrack在PC上也有高帧率125.6FPS。在NVIDIA Jetson AGX Xavier上的真实部署显示,TCTrack在无人机跟踪方面保持了非常高的稳定性和鲁棒性,在超过27FPS的帧率下运行。
Temporal Contexts for Aerial Tracking
此图为整体结构图
Feature extraction with online TAdaConv
TAdaConv作为整体框架的重要组成部分,是用于特征提取过程来考虑时间上下文。形式上,给定第ttht_{th}tth帧中某一阶段对在线TAdaConv的输入特征XtX_tXt,TAdaConvX^\hat XX^的输出如下:
其中,算子∗∗∗表示卷积运算,Wt,btW_{t},b_{t}Wt,bt是卷积的时间权重和偏差。一个标准的卷积层使用可学习的参数来表示权重和偏差,并在整个跟踪序列中共享它们。不同的是,在线卷积层中,参数是由可学习参数(WbW_bWb和bbb_bbb)和校准因子计算的,这些校准因子因每一帧而不同,即,Wt=Wb⋅αtwW_{t}=W_{b}\cdot \alpha_{t}^{w}Wt=Wb⋅αtw和bt=bb⋅αtbb_{t}=b_{b}\cdot \alpha_{t}^{b}bt=bb⋅αtb。与视频理解的原始结构不同,online TAdaConv一次处理一帧。
因此,它只考虑过去的时间背景,就像在现实世界中的跟踪一样。具体来说,在实验中保留了一个包含LLL帧的特征图descriptorsX^t∈RC\hat X_{t}\in \R^{C}X^t∈RC的时间上下文队列X^t∈RL×C\hat X_{t}\in \R^{L \times C}X^t∈RL×C,包括当前框架的队列:
其中,Cat表示连接,而帧descriptors是通过在每个未来帧的特征上的全局平均池(GAP)获得的,即X^t=GAP(Xt)\hat X_{t}=GAP(X_{t})X^t=GAP(Xt)。对于生成校准因子αtw\alpha_{t}^{w}αtw和αtb\alpha_{t}^{b}αtb,在卷积核大小为LLL的时间上下文队列X^\hat XX^上进行了两次卷积,即αtw=Fw(X^)+1\alpha_{t}^{w}=\mathcal {F}_{w}(\hat X)+1αtw=Fw(X^)+1,αbt=Fb(X^)+1\alpha_{b}^{t}=\mathcal {F}_{b}(\hat X)+1αbt=Fb(X^)+1,其中Fi\mathcal {F}_{i}Fi表示卷积操作。
此外,F\mathcal {F}F的权值被初始化为零,因此在初始化时,Wt=WbW_t=W_bWt=Wb和bt=bbb_t=b_bbt=bb。t≤L−1t≤L−1t≤L−1,如果之前没有足够的前帧,我们用第一帧X^\hat XX^的特征填充。由于我们的主干ϕtadaϕ_{tada}ϕtada是在特征提取过程中考虑时间上下文的,因此可以得到第ttt帧的相似度图RtR_tRt为:
其中,ZZZ表示template和⋆\star⋆表示深度相关性。然后,Ft\mathbf {F}_{t}Ft可以通过卷积层得到,即Ft=FRt\mathbf {F}_{t}=\mathcal F_{R_{t}}Ft=FRt。
Similarity Refifinement with AT-Trans
除了在特征提取过程中考虑时间上下文外,在本工作中,还提出了一个AT-Trans来根据时间上下文来细化相似度映射Ft\mathbf {F}_{t}Ft。
在描述AT-Trans的细节之前,首先回顾多头注意力。多头注意力多头注意作为Transformer的基本要素,表述如下:
与CNN相比,transformer能更有效地对全局上下文信息进行编码。因此,为了更有效地利用全局时间上下文,我们提出了一种基于transformer的时间集成策略来对全局上下文信息进行连续编码。此外,现有的基于时间的方法通常存储输入特征用于时间建模,不可避免地会引入敏感参数和不必要的计算。在本工作中,为了消除不必要的操作和敏感参数,我们采用了在线更新策略。
Transformer encoder.
该编码器通过将先前的知识与当前的特征相结合来生成时间先验知识。通常,在应用时间信息滤波器之前,我们会堆叠两个多层注意层。通过进一步将过滤后的信息附加多头注意层来获得当前步骤的最终时间先验知识。
根据之前的时间先验知识Ft−1m\mathbf {F}_{t-1}^{m}Ft−1m和当前的相似度图Ft\mathbf {F}_{t}Ft,有两种方式结合当前帧信息和之前的时间先验信息。一个使用Ft−1m\mathbf {F}_{t-1}^{m}Ft−1m作为query,而Ft\mathbf {F}_{t}Ft作为key和value,而另一个则反向使用它们。在我们的方法中,采用前者,因为这本质上更强调当前的相似性图。因为当前帧的时间信息比之前的信息更有价值,以更准确地表示当前对象的特征。因此,通过以下方法得到了第ttht_{th}tth帧Ft2\mathbf {F}_{t}^{2}Ft2中堆叠的多头注意层的输出:
由于无人机跟踪可能经常会遇到由运动模糊或遮挡引起的不太有用的上下文,因此,如果我们在不进行任何过滤的情况下传递完整的时间信息,则可能会包含一些不必要的上下文。
为了消除不需要的信息,通过将前馈网络FFN附加到全局平均池化GAP获得的的全局特征Ft1\mathbf {F}_{t}^{1}Ft1,即α=FFN(GAP(F(Ft1)))\alpha=FFN(GAP(\mathcal {F}(\mathbf {F}_{t}^{1})))α=FFN(GAP(F(Ft1))),生成一个整洁的时间信息滤波器。过滤后的信息Ftf\mathbf {F}_{t}^{f}Ftf由:
其中,F\mathcal {F}F为卷积层。由此,可以得到第ttht_{th}tth帧、Ftm\mathbf {F}_{t}^{m}Ftm的信息如下:
因此,对于每一帧,我们都会更新的时间知识,而不是保存所有的时间知识。总的来说,由于这种策略以及时间过滤器和多头注意,AT-Trans以一种记忆高效的方式自适应地编码时间先验。
对于跟踪序列中的第一帧,由于不同目标的特征是不同的,因此对初始时间先验F0m\mathbf {F}_{0}^{m}F0m使用统一的初始化是不合理的。观察到第一帧的相似映射本质上有效地代表了目标对象的语义特征,通过对初始相似映射F0\mathbf {F}_{0}F0的卷积来设置初始时间先验,即F0m=F(F0)\mathbf {F}_{0}^{m}=\mathcal {F}(\mathbf {F}_{0})F0m=F(F0)。
Transformer decoder.
根据时间先验知识Ftm\mathbf {F}_{t}^{m}Ftm,解码器旨在细化相似度图。为了更好地探索时间信息与当前空间特征FtF_{t}Ft之间的相互关系,我们采用了两个在输出前具有前馈的多层注意层。通过生成注意图,可以提取时间知识Ftm\mathbf {F}_{t}^{m}Ftm中的有效信息,细化相似度图Ft\mathbf {F}_{t}Ft,得到最终输出Ft∗\mathbf {F}_{t}^{*}Ft∗:
基于AT-Trans的编码器-解码器结构,可以有效地利用时间上下文来细化相似度图,以提高鲁棒性和准确性。
Experiments
我们的框架在四个公共权威基准上进行评估,并在真实世界的空中跟踪条件下进行测试。我们的方法在四个著名的无人机跟踪基准上进行了全面的评估,即UAV123、UAVTrack112L、UAV123@10fps和DTB70。其中包括了51个现有的顶级跟踪器,以进行彻底的比较,它们的结果是通过运行官方代码及其相应的超参数来获得的。为了更清晰的比较,我们将它们分为两组跟踪器进行对比:(i)轻量级跟踪器和(ii)深度跟踪器。
我们使用AlexNet作为我们的跟踪器的主干,因为信息效率是无人机跟踪的关键。对比NVIDIA Jetson AGX Xavier平台上不同流行骨干网络的推理时间,AlexNet的延迟最低。对于初始化,我们为AlaxNet使用ImageNet预训练模型,并使用中相同的在线TadaConv的初始化。我们的TCTrack中的AT-Trans是随机初始化的。
具体的分解实验和对比数据可以看论文。
TCTrack: Temporal Contexts for Aerial Tracking相关推荐
- [VOT10](2022CVPR)TCTrack: Temporal Contexts for Aerial Tracking
Abstract 现存问题:现有的跟踪框架还远远没有利用好连续帧间的时域上下文关系. 本文做法:提出TCTrack框架来充分探索空中跟踪的时域上下文.其中,时域上下文关系分为2个阶段融入跟踪器中:特征 ...
- 目标跟踪算法综述:Correlation Filter for UAV-Based Aerial Tracking: A Review and Experimental Evaluation
标题:相关过滤无人机空中跟踪技术综述与实验评估 作者:Changhong Fu, Geng Lu 链接:Correlation Filter for UAV-Based Aerial Tracking ...
- HiFT: Hierarchical Feature Transformer for Aerial Tracking分层特征Transformer的无人机跟踪
Abstract 大多数现有的基于孪生的跟踪方法基于相似度的方法,执行目标对象的分类和回归.然而,它们要么使用来自最后一个卷积层的单个特征图,这会降低复杂场景中的定位精度,要么单独使用多个特征图进行决 ...
- 多目标跟踪综述、论文、数据集大汇总 Awesome Multiple object Tracking
Awesome Multiple object Tracking(持续更新) 综述 论文 2022 2021 2020 2019 2018 2017 2016 数据集 综述 Multiple Obje ...
- CVPR 2022 论文列表(持续更新)
本文包括论文链接及代码 关注公众号:AI基地,及时获取最新资讯,学习资料 GitHub链接:GitHub - gbstack/cvpr-2022-papers: CVPR 2022 papers wi ...
- CVPR 2022 论文列表
CVPR2022 Papers (Papers/Codes/Demos) https://github.com/gbstack/cvpr-2022-papers 分类目录: 1. 检测 2. 分割(S ...
- CVPR 2018 STRCF:《Learning Spatial-Temporal Regularized Correlation Filters for Visual Tracking》论文笔记
理解出错之处望不吝指正. 本文提出的模型叫做STRCF. 在DCF中存在边界效应,SRDCF在DCF的基础上中通过加入spatial惩罚项解决了边界效应,但是SRDCF在tracking的过程中要使用 ...
- 超分论文笔记2020CVPR视频超分:Zooming Slow-Mo- VSR with Temporal Group Attention-TDAN
Space-Time Video Super-Resolution (STVSR) 问题定义: 从一个低像素低帧率恢复出高帧率高分辨率的视频. 1.Zooming Slow-Mo: Fast and ...
- ICCV 2021 最新200篇ICCV2021论文分方向汇总
ICCV 2021 结果出炉!最新200篇ICCV2021论文分方向汇总(更新中) - 知乎 不久前,计算机视觉三大顶会之一ICCV2021接收结果已经公布,本次ICCV共计 6236 篇有效提交论文 ...
- 计算机视觉论文-2021-08-02
本专栏是计算机视觉方向论文收集积累,时间:2021年8月2日,来源:paper digest 欢迎关注原创公众号 [计算机视觉联盟],回复 [西瓜书手推笔记] 可获取我的机器学习纯手推笔记! 直达笔记 ...
最新文章
- [C#]获得线程池中活动的线程数
- json java 数据类型_程序员都应该了解的一种数据格式之 JSON
- go json数据出现unicode_Golang处理JSON(一) 序列化
- Tuple Class
- JavaScript 编码指南
- 华为虚拟专网客户端SecoClient报错“接受返回码超时”故障
- 大地坐标系转换火星坐标系
- android 音量调节不起作用,Android音量控制
- Kali渗透测试:Metasploit 6.0 中的Evasion模块
- overlayfs源代码解析
- Windows下通过注册表修改某个类型文件的默认打开方式和文件图标
- 都2020年了,你还不知道什么是软文营销吗
- ES VS CK,成本太高,效率太低?不存在的
- 方舟服务器物理机配置,方舟云服务器要什么配置
- 如何用 Lightly 进行 Debug 断点调试?
- 国际标准码 计算机,蒙古文国际标准编码到形码转换方法、装置及计算机终端与流程...
- 使用tftp32软件对思科交换机导入导出配置【思科交换机技能进阶2】
- Android Textview缩进之悬挂缩进
- Unity3D UGUI学习笔记
- 用Java实现PPT转换成PDF的一种方式--openoffice的使用
热门文章
- 触摸屏驱动学习并移植
- 实验九 TCP 协议分析实验
- 自动化测试ROI计算器
- 12道 javaScript 经典逻辑题,是否承载着你的回忆
- 联想电脑linux显卡驱动,哪里下载独立显卡驱动 急急急!!联想y470如何在linux下安装显卡驱动啊?你好...
- 《App后台开发运维和架构实践》前言
- Python代码: 把几个PDF文件拼接为一个 Merge PDF files
- UML统一建模语言(UML类图)
- 【新模板推荐】目标军令状、假期通知书…签名确认仪式满满
- 希捷硬盘固件修复工具_希捷3.5寸500G台式机硬盘磁头损坏后的数据恢复