Enriching Local and Global Contexts for Temporal Action Localization

链接:https://arxiv.org/pdf/2107.12960.pdf

多级特征表示:

所有特征都是维度为 DDD 的一维向量。

snippet-level:x∈RDx\in{}\mathbb{R}^{D}x∈RD ,通过 I3D 提取特征,每一帧都表示为一个 snippet-level 的特征。

proposal-level:y∈RDy\in{}\mathbb{R}^{D}y∈RD ,通过 BSN 获得 proposal,对每个 proposal 的 [start, end] 中全部 snippets 进行 max-pooling。

video-level:z∈RDz\in{}\mathbb{R}^{D}z∈RD ,将全部的 snippets 进行 max-pooling。

网络结构

L-Net:

通过余弦相似度计算一个 proposal feature 和 proposal 内部全部snippet features 的距离,作为 snippet 的权重 aaa 。

W1L,W2L∈RD2×DW_{1}^{L}, W_{2}^{L} \in \mathbb{R}^{\frac{D}{2}\times D}W1L​,W2L​∈R2D​×D,原始的 proposal feature 与加权后的 snippet features 融合后作为新的 proposal feature,经过全连接层后,特征维度减半。

G-Net:

与 L-Net 类似的方式调整 video feature ,每一个 proposal 都会获得一个独有的 video feature。a,ba, ba,b 分别表示 proposal 中的 snippets 和 proposal 的权重。

proposal 与 video feature 连接后作为新的 proposal feature,维度为 DDD。

P-Net:

用于接收特征,进行分类和对 proposal 分数回归。可使用不同的网络替换,作者分别使用 non-local 和 P-GCN 实验。

Extended Proposals


L-Net 之间和 G-Net 之间共享权重。降低计算量,且能反应 Original Proposal 与 Extended Region 之间的关联。

**

P-Net 使用 P-GCN 时,文章可以理解为 baseline 为 P-GCN,对绿色框内的 Proposal Features 和 Extended Proposal Features 进行了额外的特征处理( 即 L-Net,G-Net 的特征加权融合 )。

作者使用 BSN 获取到 proposal 后(与 P-GCN 等 two-stage 方法相同),对 proposal 的片段特征进行处理,再分类和打分。这篇文章关注的重点是特征表示,充分利用不同层级的特征提升下游任务精度。

Local context:细粒度的特征,提升定位精度。

Global context:考虑了背景信息,适合分类,但需要消除噪声。

实验结果

Enriching Local and Global Contexts for Temporal Action Localization相关推荐

  1. Enriching Local and Global Contexts for Temporal Action Localization ContextLoc论文阅读笔记

    论文地址:https://arxiv.org/pdf/2107.12960.pdf Abstract 有效地解决时间动作定位(TAL)问题需要一个共同追求两个混杂目标的视觉表征,即时间定位的细粒度识别 ...

  2. StNet: Local and Global spatial-temporal modeling for action regcognition

    StNet: Local and Global spatial-temporal modeling for action regcognition 摘要:静态图像理解上取得了成功,高效的视频时序以及空 ...

  3. P-GCN:Graph Convolutional Networks for Temporal Action Localization 2019 ICCV

    论文下载链接:https://arxiv.org/pdf/1911.11462.pdf 1 摘要 大多数最先进的行为定位系统都是单独处理每个动作proposal,而不是在学习过程中显式地利用它们之间的 ...

  4. Background Suppression Network for Weakly-supervised Temporal Action Localization

    Background Suppression Network for Weakly-supervised Temporal Action Localization 提出问题: 弱监督视频动作定位中,先 ...

  5. Temporal action localization in untrimmed videos via Multi-stage CNNs SCNN论文阅读笔记

    文章标题:Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs 文章链接:Shou_Temporal_Action ...

  6. 时序动作定位:Rethinking the Faster R-CNN Architecture for Temporal Action Localization(TAL-Net)

    这篇是2018CVPR的文章,论文下载链接: http://cn.arxiv.org/pdf/1804.07667.pdf 1 背景 1.1 Faster R-CNN vs TAL-Net 得益于Fa ...

  7. 时序动作定位|使用 ‘注意力机制’ 的弱监督时序动作定位顶会论文理解笔记(Weakly-Supervised Temporal Action Localization)

    目录 Weakly Supervised Action Localization by Sparse Temporal Pooling Network(CVPR 2018) W-TALC: Weakl ...

  8. StNet: Local and Global Spatial-Temporal Modeling for Action Recognition

    论文:https://arxiv.org/abs/1811.01549 代码:https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/ ...

  9. Action Unit Memory Network for Weakly Supervised Temporal Action Localization 笔记

    目录 1.介绍 2.方法 2.1 特征提取 2.2 动作单元记忆网络 构建Memory Bank Memory Bank用于分类 Memory Bank的更新 3.消融实验 1.介绍 这篇文章是提出了 ...

  10. Learning salient boundary feature for anchor-free temporal action localization AFSD阅读笔记及代码复现

    论文地址:Lin_Learning_Salient_Boundary_Feature_for_Anchor-free_Temporal_Action_Localization_CVPR_2021_pa ...

最新文章

  1. aac文件损坏修复软件_Mac不能安装非信任应用的解决方法 MAC软件安装必读 打不开身份不明的开发者?文件已损坏?...
  2. MySQL - mysqldump多种方式实现数据迁移
  3. mysql双主同步一个库,CNESA
  4. python教程:filter,map,reduce
  5. PHP开发中csrf攻击的简单演示和防范
  6. 有关sublime的一些使用
  7. RSA公私钥加解密方式-工具类
  8. hdu1962Corporative Network带权回路
  9. python-词云wordcloud-0223
  10. go语言的iota是什么意思_go语言基础之iota枚举
  11. c语言任意两个整数相减_大整数加减运算的C语言实现
  12. 学科前沿技术专题第六章
  13. python作业(12.12)
  14. 恢复计算机到以前时间点,电脑恢复到某个时间点
  15. 集成 rootbeer 和 小米mix2s Root 流程
  16. 2022华为机试真题 C++ 实现【统计射击比赛成绩】
  17. 【学术】英文写作中值得参考的语法、句式(二)
  18. 虚拟机克隆之后的IP修改问题
  19. perl/tk_在Perl / Tk中使用高级小部件
  20. VS2013、VS2019配置和使用技巧

热门文章

  1. PowerBuilder 2018
  2. 3.7V转12V2A 15V2A 大功率升压芯片 拉杆音响专用升压芯片
  3. 【游戏】[C++] 贪吃蛇控制台版
  4. MTK 三星处理器一览表
  5. 计算机专业数字逻辑,大学计算机专业数字逻辑课程试卷及答案(4份)
  6. NVIDIA驱动重装经历
  7. 紧急 抢救mysql 数据库 恢复到指定时间点
  8. iir滤波器c语言程序,请教C语言做iir滤波器问题
  9. 计算机代码画玫瑰,turtle画玫瑰花(示例代码)
  10. SegNet论文笔记