摘要：多目标跟踪这个具有挑战性的任务需要同时完成跟踪目标的初始化、定位并构建时空上的跟踪轨迹。本文将这个任务构建为一个帧到帧的集合预测问题，并提出了一个基于transformer的端到端的多目标跟踪方法TrackFormer。

本文分享自华为云社区《论文解读系列十四：基于transformer的多目标跟踪方法TrackFormer详细解读》，原文作者：谷雨润一麦。

多目标跟踪这个具有挑战性的任务需要同时完成跟踪目标的初始化、定位并构建时空上的跟踪轨迹。本文将这个任务构建为一个帧到帧的集合预测问题，并提出了一个基于transformer的端到端的多目标跟踪方法TrackFormer。本文模型通过注意力机制实现了帧与帧之间的数据关联，完成了视频序列间的跟踪轨迹的预测。Transformer的解码器同时从静态的目标查询中初始化新的目标和从跟踪查询中跟踪已有的跟踪轨迹并对位置进行更新，两种类型的查询都可以同时从self-attention和encoder-decoder的注意力中关注到全局的帧级特征。因此可以省略掉额外的图优化和匹配的过程，也不需要对运动和外貌特征进行建模。

1. Motivation

多目标跟踪任务需要跟踪一系列目标的轨迹，当目标在视频序列中移动时可以保持各自具有区分性的跟踪id。现有的tracking-by-detection的方法一般都包含两个步骤（1）检测单独视频帧中目标（2）对帧与帧之间的检测目标进行关联，从而形成每个目标的跟踪轨迹。传统的基于tracking-by-detection的方法的数据关联一般都需要图优化或者利用卷积神经网络预测目标间的分数的方式。本文提出了一个新的跟踪范式tracking-by-attention，该方法将多目标跟踪任务建模为一个集合预测问题，通过提出的TrackFormer网络实现了端到端的可训练的在线多目标跟踪网络。该网络利用encoder对来自卷积网络的图像特征进行编码，然后通过decoder将查询向量解码为包围框和对应的身份id，其中的跟踪查询用来做帧与帧之间的数据关联。

2. 网络结构

本文提出的TrackFormer是一个基于transformer的端到端多目标跟踪方法，它将多目标跟踪任务建模为一个集合预测问题，并引出了tracking-by-attention这种新的范式。下面将从整体流程、跟踪过程和网络损失函数三个方面分别对网络进行介绍。

图一 trackformer训练流程图

2.1 基于集合预测的多目标任务

给定具有K个不同identity的目标的视频序列，多目标跟踪任务需要生成包括包围框和身份id（k）的跟踪轨迹

总帧数T 的子集（t1，t2，…）记录了目标从进入到离开场景的时间序列。

为了将MOT（多目标跟踪任务）建模为序列预测问题，本文利用了transformer的编码器-解码器结构。文本模型通过下面四个步骤完成在线的跟踪并同时输出每一帧目标的边界框、类别以及身份id：

1）通过通用的卷积神经网络backbone提取帧级的特征，例如ResNet

2）通过transformer的编码器的self-attention模块完成帧级特征编码

3）通过transformer的解码器的self-和cross-attention完成对查询实体的解码

4）通过多层感知机对解码器输出进行映射完成边界框和类别的预测

其中解码器的注意力机制一共分为两种（1）所有查询向量上的self-attention，可以用来响应场景中的所有目标；（2）编码器和解码器之间的注意力，可以获取到当前帧的全局视觉信息。另外，因为transformer具有排列不变性，需要分别给特征输入和解码查询实体添加额外的位置编码和目标编码。

2.2 基于解码器查询向量的跟踪过程

Transformer的解码器查询向量一共有两种初始化方式（1）静态目标查询向量，帮助模型在任意帧初始化跟踪目标（2）自回归跟踪查询向量，负责在帧与帧之间跟踪目标。Transformer同时对目标和跟踪查询进行解码可以以一种统一方式的实现检测和跟踪，因此引入了一种tracking-by-attention的模式。详细的网络结构如下图所示：

图二 trackformer网络结构

2.2.1 跟踪初始化

场景中新出现的目标都是通过固定数量（Nobject）的目标查询向量进行检测的，这Nobject个目标向量在网络训练过程中会不断学习从而可以实现场景中的所有目标编码，然后通过transformer的解码器的解码完成新目标类别和位置信息的预测，从而实现了跟踪的初始化。

2.2.2跟踪查询

为了实现帧与帧之间的跟踪，本文在解码过程中提出了“跟踪查询”这个概念。跟踪查询会在视频序列中不断跟踪目标，在携带者身份信息的同时还通过自回归的方式自适应的调整目标的位置预测。为了实现这个目标，在解码过程中会用上一帧对应的输出embedding来初始化检测的跟踪查询向量，然后在解码过程中通过encoder和decoder建立当前帧和查询向量之间注意力关系，从而完成了跟踪查询中各个实例的身份和位置的更新。

跟踪查询向量如图一中的颜色方块所示，上一帧的transformer输出embedding会被用来初始化当前帧的查询向量，通过和当前帧特征进行查询，完整帧与帧之间的目标跟踪。

2.3 网络训练及损失函数

因为查询跟踪需要跟踪下一帧的目标并和目标查询交互一起工作，TrackFormer需要专门的帧与帧之间的跟踪训练。如图一所示，本文通过同时训练紧邻的两帧来完成跟踪训练，并一起优化所有的多目标跟踪目标函数。集合预测损失度量了每一帧的所有输出

的类别和边界框预测与真实目标之间的相似性，集合预测损失一共可以分为两部分计算：

1）上一帧（t-1）的 Nobject 个目标查询的loss

2）从上一步得到得到的跟踪目标和当前帧(t)的新的检测目标总共N个查询的loss

因为transformer的输出是无序的，因此在计算集合预测损失之前需要先完成输出embedding和真实标签之间的匹配问题。这个匹配可以同时通过跟踪id和包围框以及类别之间的相似性来完成，首先考虑跟踪id的情况，我们用 Kt-1 表示t-1帧的跟踪id集合，用 Kt 表示当前帧t的跟踪id集合，通过这两个跟踪集合可以完成Ntrack跟踪查询和真实标签的硬匹配。两个集合的匹配一共可以分为三种情况：（1）kt-1 和 kt 的交集，这个可以用来直接给跟踪查询embedding匹配对应的真实标签（2）kt-1 中出现 kt 中没有的，直接舍匹配背景标签（3）kt 和 kt-1中有中不存在的在，这一部分是新的目标，需要用匈牙利算法对目标查询和真实标签的包围框和类别进行优化匹配得到最小损失的匹配结果。匹配过程如下公式所示：

σ为gt到目标查询（Nobject）的映射关系，优化目标就是让匹配损失最小，匹配损失同时包括了类别损失和包围框损失如下所示：

得到匹配结果后，最后就可以计算集合预测损失，同时包括了跟踪和目标查询输出的损失，计算方法如下：

∏是通过跟踪id和匈牙利算法得到的输出与真值之间的匹配结果。

3. 实验结果

表3-1 MOT17上的跟踪结果

从表3-1的结果可以看出，在私有检测器上的跟踪结果仍有一定差距，这主要是因为基于transformer的检测器效果没有现在SOTA的方法好，但当采用共有检测器时，在线上跟踪的情况下无论是在MOTP和IDF1都有明显的提升。

表3-2 MOTS20上的跟踪结果

除了目标检测和跟踪之外，TrackFormer还可以预测实例水平的分割图。从表3-2可以看出无论是在交叉验证结果上还是测试集上，TrackFormer都要优于现有的SOTA方法。

点击关注，第一时间了解华为云新鲜技术~

AI论文解读：基于Transformer的多目标跟踪方法TrackFormer相关推荐

带你读AI论文：基于Transformer的直线段检测
摘要:本文提出了一种基于Transformer的端到端的线段检测模型.采用多尺度的Encoder/Decoder算法,可以得到比较准确的线端点坐标.作者直接用预测的线段端点和Ground truth的 ...
微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法
作者丨张浩宇学校丨国防科技大学计算机学院研究方向丨自然语言生成.知识图谱问答本文解读的是一篇由国防科技大学与微软亚洲研究院共同完成的工作,文中提出一种基于预训练模型的自然语言生成方法. 摘要在 ...
NIPS 2018论文解读 | 基于条件对抗网络的领域自适应方法
在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...
刷爆 AI 圈！基于 Transformer 的 DALL-E 代码刚刚开源了
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达转自 | AI科技评论 OpenAI在1月5日公布DALL-E模型以 ...
为什么正则化可以起到对模型容量进行控制_论文解读 | 基于正则化图神经网络的脑电情绪识别...
©PaperWeekly 原创 · 作者|张玮玮学校|东北大学硕士生研究方向|情绪识别引言论文动机现有的基于脑电图的情绪识别方法大多不能很好地解决以下三个方面的问题:1. 脑电图信号的拓扑结构 ...
论文解读 | 基于正则化图神经网络的脑电情绪识别
©PaperWeekly 原创 · 作者|张玮玮学校|东北大学硕士生研究方向|情绪识别引言论文动机现有的基于脑电图的情绪识别方法大多不能很好地解决以下三个方面的问题: 1. 脑电图信号的拓 ...
IJCAI 2019 论文解读 | 基于超图网络模型的图网络进化算法
作者丨张云喆单位丨暗物智能科技研究方向丨NLP推理.数学符号推理研究背景现实生活中很多的数据可以用图(graph)来建模,比如社交网络数据,paper 引用数据等.对于 AI 而言,一个常见的 ...
AAAI 2019 论文解读 | 基于区域分解集成的目标检测
作者丨文永亮学校丨哈尔滨工业大学(深圳) 研究方向丨目标检测.GAN 本文解读的是一篇发表于 AAAI 2019 的 paper,文章提出了一种 R-DAD 的方法来对 RCNN 系列的目标检测方法 ...
CVPR 2018 论文解读 | 基于GAN和CNN的图像盲去噪
作者丨左育莘学校丨西安电子科技大学研究方向丨计算机视觉图像去噪是low-level视觉问题中的一个经典的话题.其退化模型为 y=x+v,图像去噪的目标就是通过减去噪声 v,从含噪声的图像 y 中 ...

AI论文解读：基于Transformer的多目标跟踪方法TrackFormer