Enriching Local and Global Contexts for Temporal Action Localization

2024-04-06 23:47:33

Enriching Local and Global Contexts for Temporal Action Localization

链接：https://arxiv.org/pdf/2107.12960.pdf

多级特征表示：

所有特征都是维度为 DDD 的一维向量。

snippet-level：x∈RDx\in{}\mathbb{R}^{D}x∈RD ，通过 I3D 提取特征，每一帧都表示为一个 snippet-level 的特征。

proposal-level：y∈RDy\in{}\mathbb{R}^{D}y∈RD ，通过 BSN 获得 proposal，对每个 proposal 的 [start, end] 中全部 snippets 进行 max-pooling。

video-level：z∈RDz\in{}\mathbb{R}^{D}z∈RD ，将全部的 snippets 进行 max-pooling。

网络结构

L-Net：

通过余弦相似度计算一个 proposal feature 和 proposal 内部全部snippet features 的距离，作为 snippet 的权重 aaa 。

W1L,W2L∈RD2×DW_{1}^{L}, W_{2}^{L} \in \mathbb{R}^{\frac{D}{2}\times D}W1L,W2L∈R2D×D，原始的 proposal feature 与加权后的 snippet features 融合后作为新的 proposal feature，经过全连接层后，特征维度减半。

G-Net：

与 L-Net 类似的方式调整 video feature ，每一个 proposal 都会获得一个独有的 video feature。a,ba, ba,b 分别表示 proposal 中的 snippets 和 proposal 的权重。

proposal 与 video feature 连接后作为新的 proposal feature，维度为 DDD。

P-Net：

用于接收特征，进行分类和对 proposal 分数回归。可使用不同的网络替换，作者分别使用 non-local 和 P-GCN 实验。

Extended Proposals

L-Net 之间和 G-Net 之间共享权重。降低计算量，且能反应 Original Proposal 与 Extended Region 之间的关联。

**

P-Net 使用 P-GCN 时，文章可以理解为 baseline 为 P-GCN，对绿色框内的 Proposal Features 和 Extended Proposal Features 进行了额外的特征处理（即 L-Net，G-Net 的特征加权融合）。

作者使用 BSN 获取到 proposal 后（与 P-GCN 等 two-stage 方法相同），对 proposal 的片段特征进行处理，再分类和打分。这篇文章关注的重点是特征表示，充分利用不同层级的特征提升下游任务精度。

Local context：细粒度的特征，提升定位精度。

Global context：考虑了背景信息，适合分类，但需要消除噪声。

实验结果

Enriching Local and Global Contexts for Temporal Action Localization相关推荐

Enriching Local and Global Contexts for Temporal Action Localization ContextLoc论文阅读笔记
论文地址:https://arxiv.org/pdf/2107.12960.pdf Abstract 有效地解决时间动作定位(TAL)问题需要一个共同追求两个混杂目标的视觉表征,即时间定位的细粒度识别 ...
StNet: Local and Global spatial-temporal modeling for action regcognition
StNet: Local and Global spatial-temporal modeling for action regcognition 摘要:静态图像理解上取得了成功,高效的视频时序以及空 ...
P-GCN：Graph Convolutional Networks for Temporal Action Localization 2019 ICCV
论文下载链接:https://arxiv.org/pdf/1911.11462.pdf 1 摘要大多数最先进的行为定位系统都是单独处理每个动作proposal,而不是在学习过程中显式地利用它们之间的 ...
Background Suppression Network for Weakly-supervised Temporal Action Localization
Background Suppression Network for Weakly-supervised Temporal Action Localization 提出问题: 弱监督视频动作定位中,先 ...
Temporal action localization in untrimmed videos via Multi-stage CNNs SCNN论文阅读笔记
文章标题:Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs 文章链接:Shou_Temporal_Action ...
时序动作定位:Rethinking the Faster R-CNN Architecture for Temporal Action Localization(TAL-Net)
这篇是2018CVPR的文章,论文下载链接: http://cn.arxiv.org/pdf/1804.07667.pdf 1 背景 1.1 Faster R-CNN vs TAL-Net 得益于Fa ...
时序动作定位｜使用 ‘注意力机制’ 的弱监督时序动作定位顶会论文理解笔记（Weakly-Supervised Temporal Action Localization）
目录 Weakly Supervised Action Localization by Sparse Temporal Pooling Network(CVPR 2018) W-TALC: Weakl ...
StNet: Local and Global Spatial-Temporal Modeling for Action Recognition
论文:https://arxiv.org/abs/1811.01549 代码:https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/ ...
Action Unit Memory Network for Weakly Supervised Temporal Action Localization 笔记
目录 1.介绍 2.方法 2.1 特征提取 2.2 动作单元记忆网络构建Memory Bank Memory Bank用于分类 Memory Bank的更新 3.消融实验 1.介绍这篇文章是提出了 ...
Learning salient boundary feature for anchor-free temporal action localization AFSD阅读笔记及代码复现
论文地址:Lin_Learning_Salient_Boundary_Feature_for_Anchor-free_Temporal_Action_Localization_CVPR_2021_pa ...

最新文章

热门文章