CVPR2021目标跟踪汇总(一)

【1】Learning to Filter: Siamese Relation Network for Robust Tracking

论文地址:https://arxiv.org/abs/2104.00829
代码: https://github.com/hqucv/siamrn

摘要

尽管基于暹罗的跟踪器取得了巨大的成功,但它们在复杂场景下的性能仍然不令人满意,尤其是在有干扰物的情况下。为此,我们提出了一种新的暹罗关系网络,它引入了两个有效的模块,即关系检测器和精化模块。研发以元学习的方式进行,以获得从背景中过滤干扰物的学习能力,而RM旨在将所提出的研发有效地集成到暹罗框架中,以生成准确的跟踪结果。此外,为了进一步提高跟踪器的可辨别性和鲁棒性,我们引入了对比训练策略,该策略不仅试图学习匹配相同的目标,还试图学习如何区分不同的对象。因此,当面对背景杂波、快速运动和遮挡时,我们的跟踪器可以获得准确的跟踪结果。在VOT2018、VOT2019、OTB100、LaSOT和UAV123五个流行基准上的实验结果表明,该方法是有效的,能够获得最先进的结果。

主要工作

【1】介绍了一种新的关系检测器(RD),该检测器通过基于少镜头学习的对比训练策略来获得从背景中过滤干扰物的能力。受益于研发,在跟踪过程中,一旦给定目标的初始状态,我们的跟踪器就可以在杂乱的背景中区分目标,而无需进一步微调。
【2】为了整合研发和分类分支获得的信息来细化跟踪结果,我们设计了一个细化模块(RM),该模块可以联合操作分类和回归来定位目标,减少这两个分支之间的不匹配。

网络结构


暹罗关系网络的跟踪管道。提出了关系检测器和联合精化模块。在跟踪过程中,通过精确的投资回报率池[6]从回归分支生成的提案特征输入研发,以衡量与目标特定特征的关系。然后,我们将研发的输出转换为匹配分数,并在细化模块中利用它来联合操作回归和分类分支,以预测目标位置。
关系检测器的体系结构。它由三个不同的非线性比较器组成,分别命名为Gloabl检测器、局部检测器和Patch检测器。我们通过这些检测器测量目标和感兴趣区域之间的关系,这些检测器被元学习以过滤干扰物。每个检测器最终生成一个分数来测量输入对的关系。

结果

【2】STMTrack: Template-free Visual Tracking with Space-time Memory Networks

论文地址:https://arxiv.org/abs/2104.00324
代码:https://github.com/fzh0917/STMTrack

摘要

如今,提高离线训练的暹罗跟踪器的性能变得越来越困难,因为从第一帧裁剪的模板的固定信息几乎已经被彻底挖掘,但是它们抵抗目标外观变化的能力很差。现有的具有模板更新机制的跟踪器依赖耗时的数值优化和复杂的手工设计策略来实现竞争性能,这阻碍了它们的实时跟踪和实际应用。在本文中,我们提出了一种新的基于时空记忆网络的跟踪框架,该框架能够充分利用与目标相关的历史信息,以更好地适应跟踪过程中的外观变化。具体来说,引入了一种新的存储机制,存储目标的历史信息,引导跟踪器聚焦在当前帧中信息量最大的区域。此外,内存网络的像素级相似度计算使我们的跟踪器能够生成目标的更精确的边界框。在具有挑战性的大规模基准上,与许多竞争对手的追踪器(OTB-2015、TrackingNet、GOT-10k、LaSOT、UAV123和VOT2018)进行了广泛的实验和比较,结果表明,没有花哨的功能,我们的追踪器在以37 FPS运行时,性能优于所有以前最先进的实时方法。

主要工作

【1】提出端到端记忆跟踪框架,具有适应性和模板更新策略。
【2】在视觉跟踪中引入了一种基于像素级相似度计算的新的存储机制,使得我们的跟踪器具有更强的鲁棒性,并且能够生成比以前许多使用特征映射级互相关的高性能方法更精确的目标框。

网络结构

左侧部分是特征提取网络,由内存分支(以浅绿色显示)和查询分支(以浅蓝色显示)组成。内存分支将内存帧和相应的前景-背景标签映射作为输入。" concat "表示沿时间维度的串联操作。中间部分是时空存储网络,它从多个存储帧中检索目标信息,用于查询帧中的目标定位。右侧是查询帧的前景背景分类和目标边界框回归的头部网络。

结果

vot2018

【3】Transformer Tracking

论文地址:https://arxiv.org/abs/2103.15436
代码:https://github.com/chenxin-dlut/TransT

摘要

相关性在跟踪领域起着至关重要的作用,尤其是在最近流行的基于暹罗的跟踪器中。相关运算是一种考虑模板和搜索区域相似性的简单融合方式。然而,相关运算本身是一个局部线性匹配过程,导致语义信息丢失,容易陷入局部最优,这可能是设计高精度跟踪算法的瓶颈。有没有比相关性更好的特征融合方法?为了解决这个问题,受Transformer的启发,本文提出了一种新的基于注意力的特征融合网络,该网络仅使用注意力就能有效地将模板和搜索区域特征结合起来。具体而言,所提出的方法包括基于自我注意的自我上下文增强模块和基于交叉注意的交叉特征增强模块。最后,提出了一种基于类暹罗特征提取主干、设计的基于注意力的融合机制以及分类回归头的Transformer跟踪方法。实验表明,我们的TransT在六个具有挑战性的数据集上取得了非常好的结果,尤其是在大规模的LaSOT、TrackingNet和GOT-10k基准上。我们的跟踪器在图形处理器上以大约50华氏度/秒的速度运行。

主要工作

【1】提出新的跟踪框架,包括特征提取模块、融合模块和头部预测模块三部分。融合模块仅使用注意力来组合模板和搜索区域特征,而没有相关性。
【2】开发了基于自注意力机制上下文增强模块和交叉关注的交叉特征增强模块的特征融合网络。与基于相关性的特征融合相比,基于注意力的方法自适应地聚焦有用信息,如边缘和相似目标,并在远处特征之间建立关联,使跟踪器获得更好的分类和回归结果。

网络结构



左:ECA模块。右图:CFA模块。ECA模块基于剩余形式的多头自我关注。CFA模块基于多头交叉注意力和剩余形式的FFN。输入Xqreceives来自CFA所在分支的特征,Xkvreceives来自另一个分支的特征。空间位置编码用于编码位置信息。ECA增强输入的上下文信息,CFA自适应地融合来自两个分支的特征。

结果

【4】Transformer Tracking

论文地址:https://arxiv.org/abs/2104.14545
代码:https://github.com/researchmm/LightTrack

摘要

在过去的几年中,目标跟踪取得了显著的进步。然而,最先进的跟踪器变得越来越笨重和昂贵,这限制了它们在资源受限的应用程序中的部署。在这项工作中,我们提出了LightTrack,它使用神经架构搜索(NAS)来设计更轻量级和更高效的对象跟踪器。综合实验表明,我们的LightTrack是有效的。它可以找到与手工制作的SOTA追踪器相比性能更好的追踪器,如SiamRPN++ [30]和Ocean [56],同时使用更少的模型Flops和参数。此外,当部署在资源受限的移动芯片组上时,发现的跟踪器运行得更快。例如,在骁龙845肾上腺素图形处理器上,光线跟踪比海洋快12倍,同时使用的参数少13倍,触发器少38倍。这种改进可能会缩小目标跟踪任务中学术模型和工业部署之间的差距。

主要工作

【1】提出自动化设计神经架构的目标跟踪。
【2】设计了轻量型搜索空间和专用搜索方法。

网络结构

LightTrack包括三个连续的阶段:预处理骨干超网,训练跟踪超网,以及用进化算法对训练好的超网进行搜索。

消融实验


1)大约有50%的主干块使用内核大小为7x7的MBConv。潜在的原因可能是大的感受野可以提高定位精度。
2)搜索到的架构选择倒数第二块作为特征输出层。这可能表明跟踪网络可能不喜欢高级功能。
3)分类分支比回归分支包含更少的层。这可能是由于粗略的对象定位比精确的包围盒回归相对容易。

结果

vot2019

【5】Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box Estimation

论文地址:https://openaccess.thecvf.com/content/CVPR2021/papers/Yan_Alpha-Refine_Boosting_Tracking_Performance_by_Precise_Bounding_Box_Estimation_CVPR_2021_paper.pdf
代码:https://github.com/MasterBin-IIAU/AlphaRefine

摘要

视觉目标跟踪旨在精确估计给定目标的包围盒,由于变形和遮挡等因素,这是一个具有挑战性的问题。许多最近的跟踪器采用多阶段策略来改进包围盒估计。这些方法首先粗略地定位目标,然后在随后的阶段中细化初始预测。然而,现有方法的精度仍然有限,不同阶段的耦合严重限制了方法的可移植性。该工作提出了一种新颖、灵活、精确的细化模块——阿尔法细化(Alpha-Refine,AR),可以显著提高基础跟踪器的盒子估计质量。通过探索一系列设计选项,我们得出结论,成功细化的关键是尽可能提取和维护详细的空间信息。遵循这一原则,Alpha-Refine采用像素相关、角点预测头和辅助蒙版头作为核心组件。在TrackingNet、LaSOT、GOT-10K和VOT2020基准上使用多个基本跟踪器的综合实验表明,我们的方法在几乎没有额外延迟的情况下显著提高了基本跟踪器的性能。所提出的Alpha-Refine方法导致了一系列的增强跟踪程序,其中ARSiamRPN(增强的SiamRPNpp)和ARDiMP50(增强的DiMP50)实现了良好的效率-精度平衡,而ARDiMPsuper(增强的DiMPsuper)在实时速度下实现了非常有竞争力的性能。

主要工作

提出一种精细化模块,通过提取和保持精确的空间信息提高跟踪框精度。
【1】特征融合模块:采用像素级相似度对比方式,保留目标边界和其他详细的空间信息。达到保证每个相关图上的局部信息,同时避免特征模糊的目的。
【2】跟踪框预测方式:1)引入角点检测方式,采用conv-bn-relu四层堆叠的方式对左上角和右下角热力图进行预测。通过soft-argmax方式使模型依据离散热力图预测出连续值,有效避免了RPN中的不一致问题。2)引入辅助掩码,与搜索区域保证相同尺寸,提取更详细的空间信息,同时指导模型更好完成前景、背景的辨别工作。

网络结构

网络整体结构图

三种特征相关性比较方法

跟踪框预测方式对比

结果


【6】Graph Attention Tracking

论文地址:https://openaccess.thecvf.com/content/CVPR2021/papers/Guo_Graph_Attention_Tracking_CVPR_2021_paper.pdf
代码:https://git.io/SiamGAT

摘要

基于暹罗网络的跟踪器将视觉跟踪任务公式化为相似性匹配问题。几乎所有流行的暹罗跟踪器都是通过目标分支和搜索分支之间的卷积特征互相关来实现相似性学习的。然而,由于目标特征区域的大小需要预先确定,这些基于互相关的方法要么保留了大量不利的背景信息,要么丢失了大量的前景信息。此外,目标和搜索区域之间的全局匹配也在很大程度上忽略了目标结构和部分级信息。为了解决上述问题,我们提出了一种简单的目标感知暹罗图注意力网络用于一般目标跟踪。我们提出用一个完整的二分图建立目标和搜索区域之间的部分-部分对应关系,并应用图关注机制将目标信息从模板特征传播到搜索特征。此外,我们研究了一种目标感知区域选择机制,以适应不同对象的大小和纵横比变化,而不是使用预先固定的区域裁剪进行模板-特征区域选择。在包括GOT-10k、UAV123、OTB-100和LaSOT在内的具有挑战性的基准测试上的实验表明,所提出的SiamGAT优于许多一流的跟踪器并具有领先的性能。

主要工作

【1】提出了一个图关注模块(GAM)来实现信息嵌入的部分对部分匹配。与传统的基于互相关的方法相比,该方法可以大大消除其缺点,有效地将目标信息从模板传递到搜索区域。
【2】与传统固定全局特征进行比对的方式相比,提出可以适应不同目标横纵比的跟踪框架。

网络结构


网络主要由三部分组成:1)特征提取子网络2)目标感知图注意力模块3)用于目标定位的分类-回归子网络。用一个完全二分图建立了目标模板和搜索区域之间的部分对部分对应关系,针对不同尺寸目标可以更换模板长宽比,实现有效的信息嵌入,使搜索区域的每个部分能够聚合来自目标的信息。

结果

【7】CapsuleRRT: Relationships-aware Regression Tracking via Capsules

论文地址:https://openaccess.thecvf.com/content/CVPR2021/papers/Ma_CapsuleRRT_Relationships-Aware_Regression_Tracking_via_Capsules_CVPR_2021_paper.pdf
代码:

摘要

回归跟踪由于其易于实现的特点而得到了越来越多的关注,而现有的回归跟踪器很少考虑对象部分与完整对象之间的关系。当缺少目标对象的某些部分时,这将最终导致从目标对象漂移。最近,CapsNet由于其部分-对象关系机制,在图像分类方面显示了有希望的结果,而CapsNet即使在执行简单任务时也具有较高的计算要求。因此,CapsNet对回归跟踪的原始适应是没有意义的,因为这将严重影响跟踪器的速度。为了解决这些问题,我们首先探索CapsNet赋予回归跟踪的时空关系。整个回归框架称为CapsularRT,由三部分组成。一种是S-Caps,它捕获零件和对象之间的空间关系。同时,设计了一个T-Caps模块来利用目标内部的时间关系。通过STCaps学习获得目标的响应。此外,提出了一种预先引导的胶囊路由算法,为后续帧生成更精确的胶囊分配。除此之外,CapsNet中繁重的计算负担通过一种知识提取姿势矩阵压缩策略来解决,该策略利用更少样本的更紧密和更具区别性的表示。大量的实验结果表明,CapsularRT在准确性和速度方面优于最先进的方法。

主要工作

【1】提出T-Caps和S-Caps模块学习时空关系。

网络结构

S-Caps通过给定的搜索区域提取空间关系。

CVPR2021目标跟踪汇总(一)相关推荐

  1. CV Code | 本周新出计算机视觉开源代码汇总(含目标跟踪、语义分割、姿态跟踪、少样本学习等)...

    点击我爱计算机视觉标星,更快获取CVML新技术 刚刚过去的一周出现了很多很实用.有意思.很神奇的CV代码. 比如大家期待的SiamRPN++算法,官方终于要开源了. 阿里MNN成为移动端网络部署的新选 ...

  2. CV Code | 本周新出计算机视觉开源代码汇总(含自动驾驶目标检测、医学图像分割、风格迁移、语义分割、目标跟踪等)...

    点击我爱计算机视觉标星,更快获取CVML新技术 刚刚过去的一周含五一假期,工作日第一天,CV君汇总了过去一周计算机视觉领域新出的开源代码,涉及到自动驾驶目标检测.医学图像分割.风格迁移.神经架构搜索. ...

  3. 最新目标跟踪评估指标汇总

    前段时间接触了一些目标跟踪的场景,本文主要汇总目标跟踪的常用评估指标,主要包括下面几类: 容易理解的概念:FP.FN.TP.id switch.ML.MT 更加综合的概念:MOTA.IDF1.MOTP ...

  4. 智慧交通day04-特定目标车辆追踪03:siamese在目标跟踪中的应用-汇总

    总结: Siamese网络衡量两个输入的相似程度,输出是一个[0,1]的浮点数,表示二者的相似程度.孪生神经网络有两个输入(Input1 and Input2),将两个输入feed进入两个神经网络(N ...

  5. 目标跟踪经典算法汇总(持续更新...)

    如题,虽然这个问题是经典目标跟踪算法,但事实上,可能我们并不需要那些曾经辉煌但已被拍在沙滩上的tracker(目标跟踪算法),而是那些即将成为经典的,或者就目前来说最好用.速度和性能都看的过去trac ...

  6. 【目标跟踪】|数据集汇总

    测试使用的数据集 OTB在它的第一个[9]和第二个[12]版本中分别收集了51个和100个移动对象,而ALOV++[21]提供了一个更大的超过300个视频的池.VOT[4].[5].[8]是自2013 ...

  7. 应用YOLOV4 - DeepSort 实现目标跟踪

    转载自 https://cloud.tencent.com/developer/article/1706259 本文分享利用yolov4+deepsort实现目标跟踪,主要是讲解如何使用,具体原理可以 ...

  8. Swin-Transformer又又又下一城 | 看SwinTrack目标跟踪领域独领风骚

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 来源丨集智书童 作者丨ChaucerG Transformer最近在改进视觉跟踪算法方面显示出强大的潜 ...

  9. 一文详解目标跟踪中的相关滤波

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 本文来源:AI干货知识库 / 导读 / 目标跟踪是计算机视觉领域的一个重要问题,目前广泛应用在体育赛事 ...

最新文章

  1. docker portainer_Docker入门详解(十一) 图形Portainer
  2. it oracle 培训,Oracle数据库技术培训_OracleDBA数据库工程师_Oracle数据库在线学习视频教程_IT职业培训-51CTO学院_精培学院...
  3. I2C_ADDRS(addr, addrs...)理解
  4. python获取当前时间代码_python当前时间格式化代码
  5. IO、NIO、AIO 内部原理分析
  6. springMVC解析视图
  7. 查看依赖树_如何在基于 Ubuntu 或 Debian 的 Linux 发行版中查看一个软件包的依赖...
  8. JVM运行参数_JVM内存模型_常用内存分析工具
  9. python机器学习库sklearn——降维
  10. Android studio中常用快捷键
  11. Android 不同布局类型measure、layout、draw耗时对比
  12. 十大最热门人工智能技术
  13. docker安装DM8
  14. java批量生成条形码图片 打包zip
  15. android app 图片资源,Android App 瘦身总结 第一章 图片资源的优化处理
  16. Java的进程内缓存框架:EhCache (转)
  17. 家乡菜之回锅茄子_wizard_新浪博客
  18. 学linux好找工作吗?未来可以从事什么岗位?
  19. failed to register layer: Error processing tar file(exit status 1): archive/tar: invalid tar header
  20. android 文档api

热门文章

  1. 第二章 2.1 机器视觉——图像《2022年斯坦福AI指数报告》中文全解读
  2. 移动客户端触屏滑动事件
  3. JavaScript - 核心语法学习
  4. Python入门到精通【精品】第一章 - Python概述
  5. 被各种注解搞晕了?那快来看看Spring Bean注解详解!
  6. 研究课题:工资管理系统
  7. bootstarp js设置列隐藏_bootstraptable表格columns 隐藏方法
  8. 学习java过程之内部类
  9. python统计字符串字符出现次数
  10. interlib android客户端开发,基于Android的移动图书馆设计与开发