【目标跟踪】|综述 Deep Learning for Visual Tracking: A Comprehensive Survey

视觉追踪方法可以大致分为计算机视觉深度学习革命前和革命后两大类。第一类的视觉追踪调查论文主要回顾了基于经典物体和运动表征的传统方法，然后系统地、实验地或两者兼之地考察它们的优缺点。考虑到深度学习视觉追踪器的重大进展，关于这些方法的回顾显然已经过时。相反地，第二类的综述则为深度视觉追踪器。
与以往调查的差异:尽管目前已有综述论文，但本文仅着重于发表在主要图像处理和计算机视觉会议和期刊上的129种最先进的基于深度学习的视觉跟踪方法。这些方法包括：HCFT [59], DeepSRDCF [60], FCNT [61], CNNSVM [62], DPST [63], CCOT [64], GOTURN [65], SiamFC [66], SINT [67], MDNet [68], HDT [69], STCT [70], RPNT [71], DeepTrack [72], CNT [73], CF-CNN [74], TCNN [75], RDLT [76], PTAV [77], [78], CREST [79], UCT/UCTLite [80], DSiam/DSiamM [81], TSN [82], WECO [83], RFL [84], IBCCF [85], DTO [86]], SRT [87], R-FCSN [88], GNET [89], LST [90], VRCPF [91], DCPF [92], CFNet [93], ECO [94], DeepCSRDCF [95], MCPF [96], BranchOut [97], DeepLMCF [98], Obli-RaFT [99], ACFN [100], SANet [101], DCFNet/DCFNet2 [102], DET [103], DRN [104], DNT [105], STSGS [106], TripletLoss [107], DSLT [108], UPDT [109], ACT [110], DaSiamRPN [111], RT-MDNet [112], StructSiam [113], MMLT [114], CPT [115], STP [116], Siam-MCF [117], Siam-BM [118], WAEF [119], TRACA [120], VITAL [121], DeepSTRCF [122], SiamRPN [123], SA-Siam [124], FlowTrack [125], DRT [126], LSART [127], RASNet [128], MCCT [129], DCPF2 [130], VDSR-SRT [131], FCSFN [132], FRPN2TSiam [133], FMFT [134], IMLCF [135], TGGAN [136], DAT [137], DCTN [138], FPRNet [139], HCFTs [140], adaDDCF [141], YCNN [142], DeepHPFT [143], CFCF [144], CFSRL [145], P2T [146], DCDCF [147], FICFNet [148], LCTdeep [149], HSTC [150], DeepFWDCF [151], CF-FCSiam [152], MGNet [153], ORHF [154], ASRCF [155], ATOM [156], CRPN [157], GCT [158], RPCF [159], SPM [160], SiamDW [56], SiamMask [57], SiamRPN++ [55], TADT [161], UDT [162], DiMP [163], ADT [164], CODA [165], DRRL [166], SMART [167], MRCNN [168], MM [169], MTHCF [170], AEPCF [171], IMM-DFT [172], TAAT [173], DeepTACF [174], MAM [175], ADNet [176], [177], C2FT [178], DRL-IS [179], DRLT [180], EAST [181], HP [182], P-Track [183], RDT [184], and SINT++ [58]。

这些追踪器包括了73个 CNN-based, 35个 SNN-based, 15个 custom-based （包括基于基于AE的，强化学习，组合网络），三个RNN-based和三个GAN-based 方法。本文的一个主要贡献和新颖之处在于包含和比较了目前视觉跟踪学界非常感兴趣的基于snn的视觉跟踪方法。此外，本文还对近年来基于GAN和自定义网络(包括基于RL的方法)的可视化跟踪器进行了综述。虽然这篇综述的方法归类为利用现成的深度特征和深度特征进行视觉跟踪（类似于【53】中的FEN和EEN），但同时也介绍了这些方法的详细特性，如预训练或主干网络、利用的层、训练数据集、目标函数、跟踪速度、使用的特征、跟踪输出类型、CPU/GPU实现、编程语言、深度学习框架。从网络训练的角度，本文独立调查现成的深度特征和用于视觉目标追踪的深度特征。由于深度现成特征（即从FEN中提取）大多在ImageNet上为目标识别任务预先训练，因此将独立审查其训练细节。因此，用于视觉目标追踪目的的网络训练被归类为仅利用离线训练，仅利用在线训练或同时利用离线和在线训练过程的基于深度学习的方法。最后，本文在四个视觉跟踪数据集上对45种最先进的视觉跟踪方法进行了综合分析。

基于深度学习的最新视觉目标追踪方法根据其结构（例如，CNN,SNN,RNN,GAN或自定义网络），网络利用（即用于视觉跟踪的现成深度特征和深度特征）、用于视觉跟踪的网络训练(即仅离线训练、仅在线训练、离线和在线训练）、网络目标（即基于回归、基于分类、以及基于分类和回归两种方法），以及利用相关滤波器的优点（即DCF框架和利用相关滤波器/层/函数）。这种在视觉跟踪方法的详细分类中涵盖所有这些方面的研究以前没有提出。
总结了基于深度学习的方法在解决视觉跟踪问题方面的主要动机和贡献。就我们所知，这是第一篇研究视觉跟踪方法的主要问题和解决方案的论文。这种分类为设计精确和稳健的基于深度学习的视觉跟踪方法提供了适当的见解。
基于基本特征（包括视频数量、帧数、类/簇数、序列属性、无标签、与其他数据集重叠等），对近期的可视化跟踪基准数据集包括OTB2013 [185], VOT [40]–[46], ALOV[48], OTB2015 [186], TC128 [187], UAV123 [188], NUS-PRO[189], NfS [190], DTB [191], TrackingNet [192], OxUvA [193],BUAA-PRO [194], GOT10k [195], and LaSOT [196]进行比较。
最后，对知名的OTB2013、OTB2015、VOT2018和LaSOT视觉跟踪数据集进行了广泛的定量和定性实验评价，并从不同方面分析了最先进的视觉跟踪器。此外，本文不仅针对VOT2018数据集，而且首次针对OTB2015和LaSOT数据集规定了最具挑战性的视觉属性。最后，对VOT工具包【45】进行了修改，以根据TraX协议【197】对不同方法进行定性比较。

【目标跟踪】|综述 Deep Learning for Visual Tracking: A Comprehensive Survey相关推荐

Deep Learning for Visual Tracking: A Comprehensive Survey(单目标跟踪目前最好的综述类文章)
Deep Learning for Visual Tracking: A Comprehensive Survey https://arxiv.org/pdf/1912.00535.pdf 摘要视觉 ...
【论文翻译】点云深度学习综述 -- Deep Learning for 3D Point Clouds: A Survey
论文链接:Deep Learning for 3D Point Clouds: A Survey 文章目录摘要 1. 介绍 2. 三维形状分类 2.1 基于投影的网络 2.1.1 多视图表示 2.1 ...
目标跟踪笔记Understanding and Diagnosing Visual Tracking Systems
Understanding and Diagnosing Visual Tracking Systems 原文链接:https://blog.csdn.net/u010515206/article/d ...
Deep Learning for Generic Object Detection: A Survey -- 目标检测综述总结
最近,中国国防科技大学.芬兰奥卢大学.澳大利亚悉尼大学.中国香港中文大学和加拿大滑铁卢大学等人推出一篇最新目标检测综述,详细阐述了当前目标检测最新成就和关键技术.文章最后总结了未来8个比较有前景的 ...
【点云系列】综述： Deep Learning for 3D Point Clouds: A Survey
文章目录起因题目摘要 1 简介 2 背景 2.1 数据集 2.2 衡量指标 3 3D形状分类 3.1基于多视角的方法 3.2基于体素的方法 3.3 基于点的方法 3.3.1逐点MLP网络 3.3 ...
综述：基于深度学习的文本分类 --《Deep Learning Based Text Classification: A Comprehensive Review》总结(一)
文章目录综述:基于深度学习的文本分类 <Deep Learning Based Text Classification: A Comprehensive Review>论文总结(一) 总 ...
Deep Learning for 3D Point Clouds: A Survey - 3D点云的深度学习：一项调查 (IEEE TPAMI 2020)
Deep Learning for 3D Point Clouds: A Survey - 3D点云的深度学习:一项调查(IEEE TPAMI 2020) 摘要 1. 引言 2. 背景 2.1 数据集 ...
Deep Learning for 3D Point Clouds: A Survey 论文阅读
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 Abstract:在点云深度学习中,主要包含的任务有:3D形状分类.3D目标检测和跟踪.3D点云分割. ...
Data Mining 论文翻译：Deep Learning for Spatio-Temporal Data Mining: A Survey
原文链接:[1906.04928] Deep Learning for Spatio-Temporal Data Mining: A Survey (arxiv.org) IEEE Transacti ...

【目标跟踪】|综述 Deep Learning for Visual Tracking: A Comprehensive Survey

【目标跟踪】|综述 Deep Learning for Visual Tracking: A Comprehensive Survey相关推荐

最新文章

热门文章