视觉追踪方法可以大致分为计算机视觉深度学习革命前和革命后两大类。第一类的视觉追踪调查论文主要回顾了基于经典物体和运动表征的传统方法,然后系统地、实验地或两者兼之地考察它们的优缺点。考虑到深度学习视觉追踪器的重大进展,关于这些方法的回顾显然已经过时。相反地,第二类的综述则为深度视觉追踪器。
与以往调查的差异:尽管目前已有综述论文,但本文仅着重于发表在主要图像处理和计算机视觉会议和期刊上的129种最先进的基于深度学习的视觉跟踪方法。这些方法包括:HCFT [59], DeepSRDCF [60], FCNT [61], CNNSVM [62], DPST [63], CCOT [64], GOTURN [65], SiamFC [66], SINT [67], MDNet [68], HDT [69], STCT [70], RPNT [71], DeepTrack [72], CNT [73], CF-CNN [74], TCNN [75], RDLT [76], PTAV [77], [78], CREST [79], UCT/UCTLite [80], DSiam/DSiamM [81], TSN [82], WECO [83], RFL [84], IBCCF [85], DTO [86]], SRT [87], R-FCSN [88], GNET [89], LST [90], VRCPF [91], DCPF [92], CFNet [93], ECO [94], DeepCSRDCF [95], MCPF [96], BranchOut [97], DeepLMCF [98], Obli-RaFT [99], ACFN [100], SANet [101], DCFNet/DCFNet2 [102], DET [103], DRN [104], DNT [105], STSGS [106], TripletLoss [107], DSLT [108], UPDT [109], ACT [110], DaSiamRPN [111], RT-MDNet [112], StructSiam [113], MMLT [114], CPT [115], STP [116], Siam-MCF [117], Siam-BM [118], WAEF [119], TRACA [120], VITAL [121], DeepSTRCF [122], SiamRPN [123], SA-Siam [124], FlowTrack [125], DRT [126], LSART [127], RASNet [128], MCCT [129], DCPF2 [130], VDSR-SRT [131], FCSFN [132], FRPN2TSiam [133], FMFT [134], IMLCF [135], TGGAN [136], DAT [137], DCTN [138], FPRNet [139], HCFTs [140], adaDDCF [141], YCNN [142], DeepHPFT [143], CFCF [144], CFSRL [145], P2T [146], DCDCF [147], FICFNet [148], LCTdeep [149], HSTC [150], DeepFWDCF [151], CF-FCSiam [152], MGNet [153], ORHF [154], ASRCF [155], ATOM [156], CRPN [157], GCT [158], RPCF [159], SPM [160], SiamDW [56], SiamMask [57], SiamRPN++ [55], TADT [161], UDT [162], DiMP [163], ADT [164], CODA [165], DRRL [166], SMART [167], MRCNN [168], MM [169], MTHCF [170], AEPCF [171], IMM-DFT [172], TAAT [173], DeepTACF [174], MAM [175], ADNet [176], [177], C2FT [178], DRL-IS [179], DRLT [180], EAST [181], HP [182], P-Track [183], RDT [184], and SINT++ [58]。

这些追踪器包括了73个 CNN-based, 35个 SNN-based, 15个 custom-based (包括基于基于AE的,强化学习,组合网络),三个RNN-based和三个GAN-based 方法。本文的一个主要贡献和新颖之处在于包含和比较了目前视觉跟踪学界非常感兴趣的基于snn的视觉跟踪方法。此外,本文还对近年来基于GAN和自定义网络(包括基于RL的方法)的可视化跟踪器进行了综述。虽然这篇综述的方法归类为利用现成的深度特征和深度特征进行视觉跟踪(类似于【53】中的FEN和EEN),但同时也介绍了这些方法的详细特性,如预训练或主干网络、利用的层、训练数据集、目标函数、跟踪速度、使用的特征、跟踪输出类型、CPU/GPU实现、编程语言、深度学习框架。从网络训练的角度,本文独立调查现成的深度特征和用于视觉目标追踪的深度特征。由于深度现成特征(即从FEN中提取)大多在ImageNet上为目标识别任务预先训练,因此将独立审查其训练细节。因此,用于视觉目标追踪目的的网络训练被归类为仅利用离线训练,仅利用在线训练或同时利用离线和在线训练过程的基于深度学习的方法。最后,本文在四个视觉跟踪数据集上对45种最先进的视觉跟踪方法进行了综合分析。

基于深度学习的最新视觉目标追踪方法根据其结构(例如,CNN,SNN,RNN,GAN或自定义网络),网络利用(即用于视觉跟踪的现成深度特征和深度特征)、用于视觉跟踪的网络训练(即仅离线训练、仅在线训练、离线和在线训练)、网络目标(即基于回归、基于分类、以及基于分类和回归两种方法),以及利用相关滤波器的优点(即DCF框架和利用相关滤波器/层/函数)。这种在视觉跟踪方法的详细分类中涵盖所有这些方面的研究以前没有提出。
总结了基于深度学习的方法在解决视觉跟踪问题方面的主要动机和贡献。就我们所知,这是第一篇研究视觉跟踪方法的主要问题和解决方案的论文。这种分类为设计精确和稳健的基于深度学习的视觉跟踪方法提供了适当的见解。
基于基本特征(包括视频数量、帧数、类/簇数、序列属性、无标签、与其他数据集重叠等),对近期的可视化跟踪基准数据集包括OTB2013 [185], VOT [40]–[46], ALOV[48], OTB2015 [186], TC128 [187], UAV123 [188], NUS-PRO[189], NfS [190], DTB [191], TrackingNet [192], OxUvA [193],BUAA-PRO [194], GOT10k [195], and LaSOT [196]进行比较。
最后,对知名的OTB2013、OTB2015、VOT2018和LaSOT视觉跟踪数据集进行了广泛的定量和定性实验评价,并从不同方面分析了最先进的视觉跟踪器。此外,本文不仅针对VOT2018数据集,而且首次针对OTB2015和LaSOT数据集规定了最具挑战性的视觉属性。最后,对VOT工具包【45】进行了修改,以根据TraX协议【197】对不同方法进行定性比较。

【目标跟踪】|综述 Deep Learning for Visual Tracking: A Comprehensive Survey相关推荐

  1. Deep Learning for Visual Tracking: A Comprehensive Survey(单目标跟踪目前最好的综述类文章)

    Deep Learning for Visual Tracking: A Comprehensive Survey https://arxiv.org/pdf/1912.00535.pdf 摘要 视觉 ...

  2. 【论文翻译】点云深度学习综述 -- Deep Learning for 3D Point Clouds: A Survey

    论文链接:Deep Learning for 3D Point Clouds: A Survey 文章目录 摘要 1. 介绍 2. 三维形状分类 2.1 基于投影的网络 2.1.1 多视图表示 2.1 ...

  3. 目标跟踪笔记Understanding and Diagnosing Visual Tracking Systems

    Understanding and Diagnosing Visual Tracking Systems 原文链接:https://blog.csdn.net/u010515206/article/d ...

  4. Deep Learning for Generic Object Detection: A Survey -- 目标检测综述总结

      最近,中国国防科技大学.芬兰奥卢大学.澳大利亚悉尼大学.中国香港中文大学和加拿大滑铁卢大学等人推出一篇最新目标检测综述,详细阐述了当前目标检测最新成就和关键技术.文章最后总结了未来8个比较有前景的 ...

  5. 【点云系列】综述: Deep Learning for 3D Point Clouds: A Survey

    文章目录 起因 题目 摘要 1 简介 2 背景 2.1 数据集 2.2 衡量指标 3 3D形状分类 3.1基于多视角的方法 3.2基于体素的方法 3.3 基于点的方法 3.3.1逐点MLP网络 3.3 ...

  6. 综述:基于深度学习的文本分类 --《Deep Learning Based Text Classification: A Comprehensive Review》总结(一)

    文章目录 综述:基于深度学习的文本分类 <Deep Learning Based Text Classification: A Comprehensive Review>论文总结(一) 总 ...

  7. Deep Learning for 3D Point Clouds: A Survey - 3D点云的深度学习:一项调查 (IEEE TPAMI 2020)

    Deep Learning for 3D Point Clouds: A Survey - 3D点云的深度学习:一项调查(IEEE TPAMI 2020) 摘要 1. 引言 2. 背景 2.1 数据集 ...

  8. Deep Learning for 3D Point Clouds: A Survey 论文阅读

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 Abstract:在点云深度学习中,主要包含的任务有:3D形状分类.3D目标检测和跟踪.3D点云分割. ...

  9. Data Mining 论文翻译:Deep Learning for Spatio-Temporal Data Mining: A Survey

    原文链接:[1906.04928] Deep Learning for Spatio-Temporal Data Mining: A Survey (arxiv.org) IEEE Transacti ...

最新文章

  1. 这是我见过最卡通的 Python 算法了,通俗易懂
  2. 表达对别人的感激之情
  3. 1.API的调用过程(3环部分)
  4. 干货分享:六个知名的Go语言web框架
  5. python数据结构和算法3 栈、队列和排序
  6. java中的diss可以做标识符吗_因为命名被diss无数次。简单聊聊编程最头疼的事情之一:命名...
  7. AcWing 868. 筛质数(欧拉筛模板)
  8. java 二分查找_Java二分法查找
  9. Android 启动过程简析
  10. matlab数学实验课件5,matlab_intro_西安交通大学-数学实验教案_ppt_大学课件预览_高等教育资讯网...
  11. 电器上的这些符号有什么特别含义?
  12. what to benefit from the C++14 Standard
  13. 微博立场检测 60分Baseline
  14. [Python]使用QRCode生成彩色二维码
  15. 极兔崛起,顺丰受伤,低端快递市场不好玩
  16. Android内嵌H5,安卓手机返回键点击无反应、苹果手机返回键正常情况解决方案
  17. Java字母笔顺_j的笔顺 j书写顺序是什么
  18. Mac系统下连接阿里云并运行java程序
  19. C++中的volatile(Primer读书笔记)
  20. Linux安装围棋AI(q5go和katago)

热门文章

  1. Python基础之集合
  2. 总结:LSM-Tree
  3. iView框架Select组件
  4. FFmpeg4编程入门---视频篇
  5. MATLAB矩阵每行按降序排列,每列升序并记录行号
  6. MongoDB 运行 service mongod start 后服务没有启动成功
  7. 网易邮箱发送注册或登陆验证码
  8. 咏春拳谱之寻桥(套路详解)
  9. 配置Visual Studio Code的SciLab开发环境
  10. Activiti工作流教程