RTD-Net：Relaxed Transformer Decoders for Direct Action Proposal Generation 论文阅读笔记

论文地址：https://arxiv.org/pdf/2102.01894.pdf

Abstract

本文提出了一个简单而有效的框架(RTDNet)，用于直接生成行动建议，通过重新利用一个类似于Transformer的架构。为了解决时间和空间之间的本质视觉差异，我们对原始的Transformer检测框架(DETR)进行了三个重要的改进。首先，为了解决视频中的慢速问题，我们将原来的Transformer编码器替换为边界注意模块，以更好地捕获远程时间信息。其次，由于模糊的时间边界和相对稀疏的注释，我们提出了一种宽松的匹配方案，以缓解对每个GT的单一分配的严格标准。最后，我们设计了一个三分支头，通过明确预测它的完整性来进一步改进提案置信估计。

Introduction

与原来的目标检测Transformer相比，首先，我们用特定的边界注意架构替换原来的Transformer编码器，以克服过度平滑的问题。其次，我们提出了一个松弛匹配器，以缓解单一分配的严格标准。最后，我们设计了一个三分支的检测头来进行训练和推理。添加一个完整性头来明确地估计回归时间和GT之间的tIoU。我们观察到，这种tIoU损失可以指导Transformer的训练，并使三头收敛到一个稳定的解。
总结来说，有以下几点贡献：
第一次采用了Transformer架构，以便在视频中直接生成行动提案来建模全局视图建模提案间的依赖关系，通过使用一个简单而整洁的框架，简化了时间动作提案生成管道，删除了手工制作的设计，从而大大减少了推理时间。
我们对DETR做了三个重要的改进，以解决视频中的时间位置和图像中的空间检测之间的本质区别，包括边界注意表示、松弛机制和三分支头部设计。
实验表明，我们的方法在THUMOS14上优于现有的先进方法，并且在时间动作提议生成任务和ActivityNet-1.3任务上取得了相当好的性能。

Method

RTD-Net的结构如上图，我们的RTD-Net通过将其视为一个直接集预测问题，简化了时间行动提案生成的过程。它由三种独特的设计组成：一个用于特征提取的边界注意模块，一个用于直接和并行解码查询的transformer解码器，以及一个用于训练标签分配的松弛匹配器。我们的RTD-Net能够有效地生成一组数量更少的提案，而不需要进行任何后期处理。
首先，我们使用骨干网络来提取短期特征。然后边界注意模块用判别边界分数对其进行增强，输出紧凑的边界注意表示输入transformer解码器。如实验所示，我们发现这个边界注意模块对后续的解码过程很重要。在此之后，transformer译码器使用一组学习到的查询来关注边界注意表示。这种并行解码过程能够显式地建模候选提案之间的所有成对约束，并以全局视图捕获候选提案之间的上下文信息。最终，一个三分支的检测头将解码器嵌入转换为我们最终的预测结果。边界头直接生成时间框，二进制分类头结合完整性头为每个预测框提供置信值。对于训练，我们在匹配器中给出了一个宽松的匹配标准，这减轻了模糊的时间边界的影响，并允许更多的良好预测的建议被分配为正样本。
Feature Encoding

Direct Action Proposal Generation Mechanism
边界注意的表示：如上所述，slowness是视频数据的一般先验，其中短期特征在局部窗口中变化非常缓慢。同时，我们的短期特征通常是从一个有重叠的短视频片段中提取出来的，这将进一步平滑视觉特征。对于时间动作建议的生成，在视觉表示中保持清晰的边界信息对允许后续的解码处理至关重要。为了缓解特征缓慢的问题，我们提出了边界注意模块，用区分动作边界信息明确地增强短期特征。具体来说，我们将原始特征与它自己的动作开始和结束分数相乘，其中每次动作边界的分数都用时间评估模块进行估计。在实验中，我们发现这种边界注意表示有助于我们的变压器解码器生成更准确的行动建议，由于行动边界信息的显式利用。利用MLP编码器将边界注意表示转换为更紧凑的形式。
Relaxed Transformer解码器。我们使用普通的变压器解码器来直接输出时间动作建议。解码器以一组建议查询和边界注意表示作为输入，并通过堆叠的多头自注意和编码器-解码器注意块为每个查询输出嵌入的动作建议。自我注意层对建议之间的时间依赖性进行建模，并细化相应的查询嵌入。在“编码器-解码器”注意层中，提案查询关注所有的时间步长，并在高激活时将动作信息聚合到每个查询嵌入中。在训练过程中，该解码器与匈牙利匹配器协作，将积极的建议与地面真相对齐，整个管道用一个集合预测损失进行训练.
作者还提出了一种宽松的匹配方案，当匹配GT时，多个检测到的动作建议被分配为正。具体来说，我们使用tIoU阈值来区分阳性和阴性样本，其中tIoU计算为目标和预测它们的并集的交集。tIoU高于一定阈值的预测将被标记为阳性样本。在实验中，我们观察到这种简单的放松将缓解RTD-Net的训练难度，并有助于提高最终的表现。

三支头设计：RTD-Net通过设计三个前馈网络(FFNs)作为检测头来生成最终的预测。我们在目标检测中推广了box头和class头来预测时间动作建议。边界头解码动作提案ψn=(tns，tne)的时间边界元组，它由起始帧tns和结束帧tne组成。二进制分类头预测每个提案的前景置信度得分pbc。此外，还提出了一个完整性头来评估预测的完整性pc。
一个高质量的提案不仅需要很高的前景信心，还需要准确的边界。有时，由于行动边界的混淆，二元分类分数本身并不能作为预测的可靠度量方法。RTD-Net引入了一个完整性头来预测完整性评分pc，用于测量预测和目标之间的重叠。这种额外的完整性评分能够明确地合并时间定位质量，以提高建议置信度评分估计，从而使整个管道更加稳定。