Enriching Local and Global Contexts for Temporal Action Localization
Enriching Local and Global Contexts for Temporal Action Localization
链接:https://arxiv.org/pdf/2107.12960.pdf
多级特征表示:
所有特征都是维度为 DDD 的一维向量。
snippet-level:x∈RDx\in{}\mathbb{R}^{D}x∈RD ,通过 I3D 提取特征,每一帧都表示为一个 snippet-level 的特征。
proposal-level:y∈RDy\in{}\mathbb{R}^{D}y∈RD ,通过 BSN 获得 proposal,对每个 proposal 的 [start, end] 中全部 snippets 进行 max-pooling。
video-level:z∈RDz\in{}\mathbb{R}^{D}z∈RD ,将全部的 snippets 进行 max-pooling。
网络结构
L-Net:
通过余弦相似度计算一个 proposal feature 和 proposal 内部全部snippet features 的距离,作为 snippet 的权重 aaa 。
W1L,W2L∈RD2×DW_{1}^{L}, W_{2}^{L} \in \mathbb{R}^{\frac{D}{2}\times D}W1L,W2L∈R2D×D,原始的 proposal feature 与加权后的 snippet features 融合后作为新的 proposal feature,经过全连接层后,特征维度减半。
G-Net:
与 L-Net 类似的方式调整 video feature ,每一个 proposal 都会获得一个独有的 video feature。a,ba, ba,b 分别表示 proposal 中的 snippets 和 proposal 的权重。
proposal 与 video feature 连接后作为新的 proposal feature,维度为 DDD。
P-Net:
用于接收特征,进行分类和对 proposal 分数回归。可使用不同的网络替换,作者分别使用 non-local 和 P-GCN 实验。
Extended Proposals
L-Net 之间和 G-Net 之间共享权重。降低计算量,且能反应 Original Proposal 与 Extended Region 之间的关联。
**
P-Net 使用 P-GCN 时,文章可以理解为 baseline 为 P-GCN,对绿色框内的 Proposal Features 和 Extended Proposal Features 进行了额外的特征处理( 即 L-Net,G-Net 的特征加权融合 )。
作者使用 BSN 获取到 proposal 后(与 P-GCN 等 two-stage 方法相同),对 proposal 的片段特征进行处理,再分类和打分。这篇文章关注的重点是特征表示,充分利用不同层级的特征提升下游任务精度。
Local context:细粒度的特征,提升定位精度。
Global context:考虑了背景信息,适合分类,但需要消除噪声。
实验结果
Enriching Local and Global Contexts for Temporal Action Localization相关推荐
- Enriching Local and Global Contexts for Temporal Action Localization ContextLoc论文阅读笔记
论文地址:https://arxiv.org/pdf/2107.12960.pdf Abstract 有效地解决时间动作定位(TAL)问题需要一个共同追求两个混杂目标的视觉表征,即时间定位的细粒度识别 ...
- StNet: Local and Global spatial-temporal modeling for action regcognition
StNet: Local and Global spatial-temporal modeling for action regcognition 摘要:静态图像理解上取得了成功,高效的视频时序以及空 ...
- P-GCN:Graph Convolutional Networks for Temporal Action Localization 2019 ICCV
论文下载链接:https://arxiv.org/pdf/1911.11462.pdf 1 摘要 大多数最先进的行为定位系统都是单独处理每个动作proposal,而不是在学习过程中显式地利用它们之间的 ...
- Background Suppression Network for Weakly-supervised Temporal Action Localization
Background Suppression Network for Weakly-supervised Temporal Action Localization 提出问题: 弱监督视频动作定位中,先 ...
- Temporal action localization in untrimmed videos via Multi-stage CNNs SCNN论文阅读笔记
文章标题:Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs 文章链接:Shou_Temporal_Action ...
- 时序动作定位:Rethinking the Faster R-CNN Architecture for Temporal Action Localization(TAL-Net)
这篇是2018CVPR的文章,论文下载链接: http://cn.arxiv.org/pdf/1804.07667.pdf 1 背景 1.1 Faster R-CNN vs TAL-Net 得益于Fa ...
- 时序动作定位|使用 ‘注意力机制’ 的弱监督时序动作定位顶会论文理解笔记(Weakly-Supervised Temporal Action Localization)
目录 Weakly Supervised Action Localization by Sparse Temporal Pooling Network(CVPR 2018) W-TALC: Weakl ...
- StNet: Local and Global Spatial-Temporal Modeling for Action Recognition
论文:https://arxiv.org/abs/1811.01549 代码:https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/ ...
- Action Unit Memory Network for Weakly Supervised Temporal Action Localization 笔记
目录 1.介绍 2.方法 2.1 特征提取 2.2 动作单元记忆网络 构建Memory Bank Memory Bank用于分类 Memory Bank的更新 3.消融实验 1.介绍 这篇文章是提出了 ...
- Learning salient boundary feature for anchor-free temporal action localization AFSD阅读笔记及代码复现
论文地址:Lin_Learning_Salient_Boundary_Feature_for_Anchor-free_Temporal_Action_Localization_CVPR_2021_pa ...
最新文章
- aac文件损坏修复软件_Mac不能安装非信任应用的解决方法 MAC软件安装必读 打不开身份不明的开发者?文件已损坏?...
- MySQL - mysqldump多种方式实现数据迁移
- mysql双主同步一个库,CNESA
- python教程:filter,map,reduce
- PHP开发中csrf攻击的简单演示和防范
- 有关sublime的一些使用
- RSA公私钥加解密方式-工具类
- hdu1962Corporative Network带权回路
- python-词云wordcloud-0223
- go语言的iota是什么意思_go语言基础之iota枚举
- c语言任意两个整数相减_大整数加减运算的C语言实现
- 学科前沿技术专题第六章
- python作业(12.12)
- 恢复计算机到以前时间点,电脑恢复到某个时间点
- 集成 rootbeer 和 小米mix2s Root 流程
- 2022华为机试真题 C++ 实现【统计射击比赛成绩】
- 【学术】英文写作中值得参考的语法、句式(二)
- 虚拟机克隆之后的IP修改问题
- perl/tk_在Perl / Tk中使用高级小部件
- VS2013、VS2019配置和使用技巧