论文地址:https://arxiv.org/pdf/2102.01894.pdf

Abstract

本文提出了一个简单而有效的框架(RTDNet),用于直接生成行动建议,通过重新利用一个类似于Transformer的架构。为了解决时间和空间之间的本质视觉差异,我们对原始的Transformer检测框架(DETR)进行了三个重要的改进。首先,为了解决视频中的慢速问题,我们将原来的Transformer编码器替换为边界注意模块,以更好地捕获远程时间信息。其次,由于模糊的时间边界和相对稀疏的注释,我们提出了一种宽松的匹配方案,以缓解对每个GT的单一分配的严格标准。最后,我们设计了一个三分支头,通过明确预测它的完整性来进一步改进提案置信估计。

Introduction

与原来的目标检测Transformer相比,首先,我们用特定的边界注意架构替换原来的Transformer编码器,以克服过度平滑的问题。其次,我们提出了一个松弛匹配器,以缓解单一分配的严格标准。最后,我们设计了一个三分支的检测头来进行训练和推理。添加一个完整性头来明确地估计回归时间和GT之间的tIoU。我们观察到,这种tIoU损失可以指导Transformer的训练,并使三头收敛到一个稳定的解。
总结来说,有以下几点贡献:
第一次采用了Transformer架构,以便在视频中直接生成行动提案来建模全局视图建模提案间的依赖关系,通过使用一个简单而整洁的框架,简化了时间动作提案生成管道,删除了手工制作的设计,从而大大减少了推理时间。
我们对DETR做了三个重要的改进,以解决视频中的时间位置和图像中的空间检测之间的本质区别,包括边界注意表示、松弛机制和三分支头部设计。
实验表明,我们的方法在THUMOS14上优于现有的先进方法,并且在时间动作提议生成任务和ActivityNet-1.3任务上取得了相当好的性能。

Method

RTD-Net的结构如上图,我们的RTD-Net通过将其视为一个直接集预测问题,简化了时间行动提案生成的过程。它由三种独特的设计组成:一个用于特征提取的边界注意模块,一个用于直接和并行解码查询的transformer解码器,以及一个用于训练标签分配的松弛匹配器。我们的RTD-Net能够有效地生成一组数量更少的提案,而不需要进行任何后期处理。
首先,我们使用骨干网络来提取短期特征。然后边界注意模块用判别边界分数对其进行增强,输出紧凑的边界注意表示输入transformer解码器。如实验所示,我们发现这个边界注意模块对后续的解码过程很重要。在此之后,transformer译码器使用一组学习到的查询来关注边界注意表示。这种并行解码过程能够显式地建模候选提案之间的所有成对约束,并以全局视图捕获候选提案之间的上下文信息。最终,一个三分支的检测头将解码器嵌入转换为我们最终的预测结果。边界头直接生成时间框,二进制分类头结合完整性头为每个预测框提供置信值。对于训练,我们在匹配器中给出了一个宽松的匹配标准,这减轻了模糊的时间边界的影响,并允许更多的良好预测的建议被分配为正样本。
Feature Encoding

Direct Action Proposal Generation Mechanism
边界注意的表示:如上所述,slowness是视频数据的一般先验,其中短期特征在局部窗口中变化非常缓慢。同时,我们的短期特征通常是从一个有重叠的短视频片段中提取出来的,这将进一步平滑视觉特征。对于时间动作建议的生成,在视觉表示中保持清晰的边界信息对允许后续的解码处理至关重要。为了缓解特征缓慢的问题,我们提出了边界注意模块,用区分动作边界信息明确地增强短期特征。具体来说,我们将原始特征与它自己的动作开始和结束分数相乘,其中每次动作边界的分数都用时间评估模块进行估计。在实验中,我们发现这种边界注意表示有助于我们的变压器解码器生成更准确的行动建议,由于行动边界信息的显式利用。利用MLP编码器将边界注意表示转换为更紧凑的形式。
Relaxed Transformer解码器。我们使用普通的变压器解码器来直接输出时间动作建议。解码器以一组建议查询和边界注意表示作为输入,并通过堆叠的多头自注意和编码器-解码器注意块为每个查询输出嵌入的动作建议。自我注意层对建议之间的时间依赖性进行建模,并细化相应的查询嵌入。在“编码器-解码器”注意层中,提案查询关注所有的时间步长,并在高激活时将动作信息聚合到每个查询嵌入中。在训练过程中,该解码器与匈牙利匹配器协作,将积极的建议与地面真相对齐,整个管道用一个集合预测损失进行训练.
作者还提出了一种宽松的匹配方案,当匹配GT时,多个检测到的动作建议被分配为正。具体来说,我们使用tIoU阈值来区分阳性和阴性样本,其中tIoU计算为目标和预测它们的并集的交集。tIoU高于一定阈值的预测将被标记为阳性样本。在实验中,我们观察到这种简单的放松将缓解RTD-Net的训练难度,并有助于提高最终的表现。

三支头设计:RTD-Net通过设计三个前馈网络(FFNs)作为检测头来生成最终的预测。我们在目标检测中推广了box头和class头来预测时间动作建议。边界头解码动作提案ψn=(tns,tne)的时间边界元组,它由起始帧tns和结束帧tne组成。二进制分类头预测每个提案的前景置信度得分pbc。此外,还提出了一个完整性头来评估预测的完整性pc。
一个高质量的提案不仅需要很高的前景信心,还需要准确的边界。有时,由于行动边界的混淆,二元分类分数本身并不能作为预测的可靠度量方法。RTD-Net引入了一个完整性头来预测完整性评分pc,用于测量预测和目标之间的重叠。这种额外的完整性评分能够明确地合并时间定位质量,以提高建议置信度评分估计,从而使整个管道更加稳定。

RTD-Net:Relaxed Transformer Decoders for Direct Action Proposal Generation 论文阅读笔记相关推荐

  1. Enriching Local and Global Contexts for Temporal Action Localization ContextLoc论文阅读笔记

    论文地址:https://arxiv.org/pdf/2107.12960.pdf Abstract 有效地解决时间动作定位(TAL)问题需要一个共同追求两个混杂目标的视觉表征,即时间定位的细粒度识别 ...

  2. BSN: Boundary-Sensitive Network for Temporal Action Proposal Generation

    转自BSN作者林天威知乎:https://zhuanlan.zhihu.com/p/39327364,用于学习交流. 前言 这篇笔记主要介绍我们录用于ECCV 2018上的论文: "BSN: ...

  3. 时序动作检测《BSN: Boundary Sensitive Network for Temporal Action Proposal Generation》

    时序动作检测SSAD<Single Shot Temporal Action Detection>_程大海的博客-CSDN博客_时序动作检测 时序动作检测<BSN: Boundary ...

  4. 【论文翻译】 BMN: Boundary-Matching Network for Temporal Action Proposal Generation

    BMN: Boundary-Matching Network for Temporal Action Proposal Generation 边界匹配网络[时序动作提名] 1. Introductio ...

  5. 【SOD论文阅读笔记】Visual Saliency Transformer

    [SOD论文阅读笔记]Visual Saliency Transformer 一.摘要 Motivation: Method: Experimental results 二.Introduction ...

  6. 论文阅读笔记:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    论文阅读笔记:Swin Transformer 摘要 1 简介 2 相关工作 3 方法论 3.1 总览 Swin Transformer block 3.2 shifted window-based ...

  7. PVI-DSO: Leveraging Planar Regularities for Direct Sparse Visual-Inertial Odometry (阅读笔记)

    PVI-DSO 阅读笔记 #简要 #简要 PVI-DSO: <PVI-DSO: Leveraging Planar Regularities for Direct Sparse Visual-I ...

  8. BMN:Boundary-matching network for temporal action proposal generation

    Video Analysis 相关领域解读之Temporal Action Detection(时序行为检测) - 知乎本文投稿于 @极视角 公众号,链接为 文章链接. 上一篇 Video Analy ...

  9. Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记

    Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记 一.Abstract 二.引言 ...

  10. 毫米波目标检测论文 阅读笔记 | Radar Transformer: An Object Classification Network Based on 4D MMW Imaging Radar

    毫米波目标检测论文 | Radar Transformer: An Object Classification Network Based on 4D MMW Imaging Radar Jie Ba ...

最新文章

  1. 优化系统后VS启动不了问题的一种解决方案
  2. java工程打包时进行签名_使用Java SDK实现离线签名
  3. Docker常用操作
  4. 学习笔记(44):Python实战编程-单击事件
  5. mysql5.7.17的linux安装,linux下mysql5.7.17最新稳定版本安装教程
  6. 开发文档怎么编写_PoC 编写指南
  7. 仿制波形驱动机器人- SAW
  8. 类型字节oracle 增强型时间类型以及postgresql时间类型
  9. bzoj4093: [Usaco2013 Dec]Vacation Planning
  10. Android-多线程AsyncTask
  11. 20191231每日一句
  12. C语言必背代码大全(2021整理)
  13. windows下编译librtmp库
  14. Matlab2018如何画函数曲线,2018年Matlab画函数图像.doc
  15. 6月29日Java实训第一天
  16. 1.4、云计算HCIA虚拟化存储基础知识
  17. Latex不能编译eps文件
  18. 解决 canvas隐藏后出现滚动条的问题
  19. 算法学习-图像的数据格式BGR
  20. 论文阅读:智能机器故障诊断方法综述Applications of machine learning to machine fault diagnosis: A review and roadmap

热门文章

  1. Linux 上格式化ssd硬盘方法
  2. 俄亥俄州立大学计算机科学转学成功,托福97,我是如何转学成功的?
  3. iRingg for Mac(iPhone铃声制作工具)
  4. 荆门市建设企业网站多少钱,荆门口碑好的网站建设多少钱
  5. 湖南师范大学学科综合评价计算机,师范类高校自主招生/综合评价相关问答,2020届参考...
  6. 打印机显示脱机怎么办?
  7. 两种储能器件 电容和电感 课堂笔记
  8. 切换linux默认桌面,Debian默认桌面再次切换到Gnome
  9. windows server 2008R2 修改账户密码
  10. 计算机切换用户界面键,电脑切换用户_电脑切换用户快捷键