论文地址:https://arxiv.org/pdf/2105.12043.pdf

Abstarct

为了捕获在不同粒度级别上的依赖关系,本文直观地提出了一个使用transformer的单一时间动作提案生成框架,称为TAPG Transformer,它由一个Boundary Transformer和一个Proposal Transformer组成。通常,Boundary Transformer捕获长期的时间依赖性来预测精确的边界信息,而Proposal Transformer学习丰富的inter-proposal关系,以进行可靠的一致性评估。

Introduction


上图是TAPG模型总览图,给定一个未修剪的视频,Boundary Transformer捕捉帧间关系,Proposal Transformer编码proposal间关系。我们进一步将边界概率与一致性序列进行匹配,以生成建议。
一般来说,现有的TAPG方法主要有两类:基于锚点的回归方法和基于边界的回归方法。这两种回归方法通常从不同的方面采用视频中的上下文信息。基于锚定的方法基于多尺度和密集的预化锚定生成行动提案,这样,我们就可以评估具有丰富的提案级上下文信息的提案的一致性分数。因此,这些方法可以获得可靠的一致性评分,但仍然存在,而且通常存在不精确的边界。最近,基于边界的方法利用边界周围的帧级上下文信息来预测边界。因此,与基于锚点的方法相比,它们可以生成具有更长可存在的持续时间和更精确的边界的建议。同时,它们对噪声更加敏感,没有考虑丰富的方案级环境。基于上述分析,我们试图更充分地利用框架级上下文和提案级上下文来生成时间提案。Boundary Transformer的目标是通过捕获局部细节和全局依赖关系之间丰富的长期时间关系来定位精确的动作边界。为此,提供视频特征的序列作为Tansformer的输入,模块的输出是边界概率。然后,Proposal Transformer来捕获潜在的方案间关系,以进行一致性评估。我们还提出了一种稀疏抽样机制来生成稀疏建议序列,而不是密集分布的建议。
总之,我们的工作有三个主要贡献:我们提出一个proposal Transformer来捕获长期帧级依赖,以精确的时间边界预测。我们提出了一种具有稀疏建议采样机制的方案变换器,它可以学习方案环境评估的建议级上下文。此外,稀疏抽样可以显著减少密集分布方案带来的影响。大量的实验表明,我们的方法在THUMOS14上优于现有的先进方法,并且在时间动作提议生成任务和时间动作检测任务上取得了相当的性能。

Approach

Preliminary: General Transformer

Transformer具有编码器-解码器结构。编码器由六个相同的块组成,每个块有两个子层:一个多头自注意层和一个简单的位置级全连接的前馈层。与编码器类似,Transformer模型中的解码器由6个相同的块组成。除了每个编码器块中的两个子层之外,解码器还插入第三子层,该子层对相应的编码器块的输出执行多头注意。
Transformer架构的一个关键特征是所谓的自我注意机制,它明确地建模了结构化预测任务序列的所有实体之间的交互。然后,我们计算自注意机制的输出为:

TAPG Transformer

时间动作提案生成任务一般分为边界预测和proposal置信度评估两个子任务。在精确的边界预测中,远程帧级依赖关系是可取的。此外,对丰富的建议间关系的建模在一致性回归中起着至关重要的作用。由于变压器模型在语言领域的成功,类似于变压器在句子上的操作方式,它可以自然地应用于一系列的框架或建议。因此,我们提出通过一个双元变压器网络来依次解决每个任务,从而能够捕获序列元素之间的长期信息和依赖性。上图说明了我们提出的框架的架构,该框架被称为TAPG Transformer。
给定一个包含

Temporal Action Proposal Generation with Transformers TAPG transformer论文阅读笔记相关推荐

  1. BMN:Boundary-matching network for temporal action proposal generation

    Video Analysis 相关领域解读之Temporal Action Detection(时序行为检测) - 知乎本文投稿于 @极视角 公众号,链接为 文章链接. 上一篇 Video Analy ...

  2. BSN: Boundary-Sensitive Network for Temporal Action Proposal Generation

    转自BSN作者林天威知乎:https://zhuanlan.zhihu.com/p/39327364,用于学习交流. 前言 这篇笔记主要介绍我们录用于ECCV 2018上的论文: "BSN: ...

  3. 时序动作检测《BSN: Boundary Sensitive Network for Temporal Action Proposal Generation》

    时序动作检测SSAD<Single Shot Temporal Action Detection>_程大海的博客-CSDN博客_时序动作检测 时序动作检测<BSN: Boundary ...

  4. 【论文翻译】 BMN: Boundary-Matching Network for Temporal Action Proposal Generation

    BMN: Boundary-Matching Network for Temporal Action Proposal Generation 边界匹配网络[时序动作提名] 1. Introductio ...

  5. SA-M4C : Spatially Aware Multimodal Transformers for TextVQA --- 论文阅读笔记

    Paper : https://arxiv.org/abs/2007.12146 [ECCV2020] spatially aware self-attention layer : 使用空间图定义每一 ...

  6. Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记

    Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding 论文阅读笔记 一.Abstract 二.引言 ...

  7. PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 论文阅读笔记

    PolyFormer: Referring Image Segmentation as Sequential Polygon Generation 论文阅读笔记 一.Abstract 二.引言 三.相 ...

  8. 【SOD论文阅读笔记】Visual Saliency Transformer

    [SOD论文阅读笔记]Visual Saliency Transformer 一.摘要 Motivation: Method: Experimental results 二.Introduction ...

  9. 论文阅读笔记:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    论文阅读笔记:Swin Transformer 摘要 1 简介 2 相关工作 3 方法论 3.1 总览 Swin Transformer block 3.2 shifted window-based ...

  10. 《Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting》论文阅读笔记

    论文阅读笔记 去年在ECCV上发表的<Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spott ...

最新文章

  1. 万字长文 | 美团王慧文,王兴14年的带刀护卫
  2. sql注入语句示例大全_SQL Group By语句用示例语法解释
  3. 职中心得体会300字高一计算机,职业高中毕业的自我鉴定范文300字
  4. 计算机进位法,计算机基础知识--进位计数制.docx
  5. 数据挖掘学习06 - 《数据挖掘导论》导读
  6. [leetcode] Single Number 查找数组中的单数
  7. 【Java】IntelliJ IDEA 14.x 与 Tomcat 集成,创建并运行Java Web
  8. Linux源码安装pgadmin4,CentOS7中安装pgAdmin 4
  9. 机器学习/深度学习算法学习心得
  10. 无法启动程序因为计算机中丢失msvcr100,devenv.exe 系统错误无法启动此程序,因为计算机中丢失 MSVCR100.dll问题的解决办法...
  11. 联邦学习笔记-《Federated Machine Learning: Concept and Applications》论文翻译个人笔记
  12. u-boot 自定义命令
  13. android系统如何获得外置卡路径
  14. linux性能分析工具总结(初级工具篇)
  15. Julia是什么?为什么突然这么火?
  16. 陌陌其实也是个APP工厂,除了AI换脸ZAO,还有这些
  17. 2017高考计算机考试大纲,2017高考全国统一考试大纲及考试说明
  18. 基于 java springboot 超市管理系统源码
  19. 实时车道线检测算法 | LaneATT-250FPS LSTR-420FPS
  20. PMP成绩如何查询?

热门文章

  1. DM368开发 -- 再论 UBL
  2. Compose基础-SideEffect(二)
  3. YYC松鼠聚合直播系统添加图片上传视频提示网络错误的问题解决方案
  4. navicat报错 Access violation at address in module ‘navicat.exe‘
  5. MySQL工作有多努力--了解MySQL Threads Running
  6. 2018湖南计算机对口高考C语言答案,2018年湖南省对口高考C语言试题
  7. 51单片机-在Mac搭建环境sdcc+stcgal
  8. Linux查看mpp数据库地址,Linux环境搭建DM8 MPP双节点集群
  9. web期末网站设计大作业:动漫网站设计——龙猫(10页) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 动漫漫画网页设计...
  10. C# 判断圆与矩形的冲突