CVPR 2021 |针对强时序依赖,即插即用、混合注意力机制的 ACTION 模块
本文是对我们 CVPR 2021 接收的工作 "ACTION-Net: Multipath Excitation for Action Recognition" 的介绍。主要针对强时序依赖行为识别这个场景,设计了一组卷积模块。
作者单位:都柏林圣三一大学,字节跳动
论文地址:https://arxiv.org/abs/2103.07372
项目地址:https://github.com/V-Sense/ACTION-Net
01
ACTION模块
ACTION 的核心思想是生成三个 attention map 即时空 attention map, channel attention map 和 motion attention map 来激发相应视频中的特征。因为 ACTION 模块是基于 2D CNN 的,所以 ACTION 的输入是一个 4D
(N: batch size, T: number of segments, C: number of channels, H: hegith, W: width)。下面我们将介绍三个模块分别对于输入 X 的处理。
1.1时空注意力 (Spatial-Temporal Excitation: STE)
该模块通过产生时空 attention map 来提取视频中的时空(spatio-temporal)特征。传统的时空特征提取主要使用3D卷积,但直接对输入引入3D卷积会大大的增加模型的计算量。所以我们先对 X 做一个channel average得到一个对于时空的 global channel 的特征
我们再将
reshape 成能够被 3D 卷积操作的维度即(N, 1, T, H, W)。至此,我们可以用一个 3D 卷积核对这个 F 进行卷积,卷积完之后再通过 Sigmoid 就可以得到一个时空的 attention map
这个时空 attention map reshape 成和 X 一样的维度再去点乘 X 就可以得到激发我们所需要的时空特征。STE 的结构和 PyTorch API 伪代码如下图:
STE 的结构图
PyTorch API 伪代码图
1.2信道注意力 (Channel Excitation: CE)
这个 block 是基于 SE-Net 的 SE block。但因为视频动作中含有时序信息,所以我们在信道的 squeeze 和 unsqueeze 之间插入了 1D 在时域上的卷积来增强信道在时域上的相互依赖程度。和 SE 一样,我们可以得到一个基于信道的 attention map
和 STE 一样,我们用得到的 attention map 点乘输入的 X 得到信道所激发特征。STE 的结构和 PyTorch API 伪代码如下图:
STE 的结构图
PyTorch API 伪代码图
1.3运动注意力 (Motion Excitation: ME)
ACTION 模块是由以上提到的三个注意力模块并联而成。这个模块和之前的工作TSM一样,即插即用。在和 state-of-the-art 的方法比较中,我们的backbone 采用了和之前工作相同的 ResNet-50 作为比较。同时,我们以 TSN和 TSM 为baseline 测试了ACTION 在不同 backbone (ResNet-50, MobileNet V2, BN-Inception) 上的性能。
02
实验结果
我们分别用了三个侧重于时序动作的视频数据集: Something-Something V2, Jester, EgoGesture 来测试我们提出的 ACTION 模块。
2.1对比实验
从下表中可以看出 ACTION 在 Jester 和 EgoGesture 上面的表现还是十分鲁棒的,都取得了 state-of-the-art 的效果。在 Something V2 的数据集上面相比STM 和 TEA 也取得了很相近的效果。
但值得注意的是,STM 和 TEA 都是分别针对于 ResNet 和 Res2Net 设计的,而 ACTION 是一个即插即用的模块,不会受限于 backbone 种类。
2.2Ablation Studies
Table 3 列出了不同 path 增加的计算量,参数以及效果提升。可以看 STE 和 CE 相对 TSM 于所增加的计算量非常小,同时可以提高 1.7% 准确率。ME 相对于另外两个模块计算量有所增加,但同时增加的准确率也最高。当我们把三个模块并联成 ACTION 时,准确率最高,但同时计算量也是增加的最多的。
Table 5 列出了ACTION 模块在不同 backbone 相较于 baseline 的一个效果提升。我们可以看出 ACTION 在 MobileNet V2 中所增加的计算量最低,这是由于MobileNet V2 本身倒锥形的结构(Inverted Residual)即在 residual block里,两边 channel 少,中间 channel 多。
而我们的 ACTION 插在每个 residual 的开始,所以 MobileNet V2 这样的结构本身会是 ACTION 带来的计算量比 ResNet-50 和 BNInception 来的要小。从准确率增加的效果上来看,对 ResNet-50 的提升最为明显(同时也增加的计算量也是最大)。
其它解读:CVPR 2021 | 用于动作识别,即插即用、混合注意力机制的 ACTION 模块
备注:人体
人体动作检测与识别交流群
动作识别、动作检测等技术,
若已为CV君其他账号好友请直接私信。
在看,让更多人看到
CVPR 2021 |针对强时序依赖,即插即用、混合注意力机制的 ACTION 模块相关推荐
- CVPR 2021 | 用于动作识别,即插即用、混合注意力机制的 ACTION 模块
分享一篇来自 CVPR 2021 的文章,ACTION-Net: Multipath Excitation for Action Recognition.作者单位:都柏林圣三一大学,字节跳动 AI L ...
- 【CBAM 解读】混合注意力机制:Convolutional Block Attention Module
摘要 本文提出了卷积块注意模块(CBAM),这是一种简单而有效的前馈卷积神经网络注意模块.在给定中间特征图的情况下,我们的模块沿着通道和空间两个不同的维度顺序地推断关注图,然后将关注图与输入特征图相乘 ...
- ICCV 2021 | 最新开源!多视角几何和注意力机制实现新视角合成
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨Bo Yang@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/ ...
- CVPR 2021 | 针对全局 SfM 的高效初始位姿图生成
Efficient Initial Pose-graph Generation for Global SfM 作者:Daniel Barath, Dmytro Mishkin, Ivan Eichha ...
- 直播 | WWW 2021:用先验知识指导BERT注意力机制的语义文本匹配
「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...
- 注意力机制详解系列(四):混合注意力机制
- 动作识别最新高效利器 ACTION-Net:通用的多路径激活模块 | CVPR 2021
2021-04-20 01:48:02 本文是对我们 CVPR 2021 接收的工作 "ACTION-Net: Multipath Excitation for Action Recogni ...
- 字节跳动多篇论文入选 CVPR 2021,精选干货都在这里了
CVPR 2021,近期刚刚落下帷幕. 作为计算机视觉领域三大顶级学术会议之一,CVPR每年都吸引了各大高校.科研机构与科技公司的论文投稿,许多重要的计算机视觉技术成果都在CVPR上中选发布. 今天, ...
- 论文浅尝 | 混合注意力原型网络的含噪音少样本的关系分类
论文笔记整理:余海阳,浙江大学硕士,研究方向为知识图谱.自然语言信息抽取. 链接:https://www.aaai.org/Papers/AAAI/2019/AAAI-GaoTianyu.915.pd ...
最新文章
- 尴尬!中科院国产编程语言“木兰”引争议:声称完全自主,实则换皮Python?...
- RTMP在NGINX的启动
- 本地安装 SAP Commerce 实例
- 洛谷 P1340 兽径管理
- HDU 2072(单词数)题解
- 4999元起!iQOO 9 Pro今日首销:骁龙8旗舰处理器+独立显示芯片Pro
- mysql函数使用_mysql函数应用
- JavaScript 字符串(String)对象
- 进入windows自启文件夹
- 读xml文件时字体串类型的判断
- gmail api 发送邮件_Node定时自动发邮件功能
- Android控件:在《第一行代码(第二版)》学习RecyclerView的踩坑经过
- 使用jTopo给Html5 Canva中绘制的元素添加鼠标事件_html5教程技巧
- 三菱PLC项目案例学习之PLC控制伺服或步进电机带动丝运行案例
- android 悬浮窗截屏,GitHub - tyhjh/ScreenShot: Android截屏的封装
- Springboot 返回数据提示语 国际化 (AOP实现)
- 两台电脑共享一套键盘鼠标的神器
- 互联网产品经理的学习计划
- 爱是永恒,依然爱是您
- 什么是阿里云服务器ECS?阿里云服务器的用途
热门文章
- Multi_thread--Linux下多线程编程中信号量介绍及简单使用
- 设计模式学习笔记——装饰(Decorator)模式
- Linux学习笔记4
- python变量命名规则_Python教程第9篇:牢记Python变量命名5大规则
- iphone屏蔽系统更新_屏蔽 iOS 系统更新的最新方法,支持所有 iPhone、iPad 设备
- python14张思维导图高清pdf_程序员必备,快速学习 Python 的全套14张思维导图(附高清版下载)...
- linux内核oops错误码说明,调试 – 了解内核oops错误代码
- python postgresql跨数据库操作_python 操作postgres数据库
- 宝塔可以修改服务器内存限制吗,宝塔内存使用率很高的解决方法 cpu过高这样做!...
- CentOS7.4安装redis-3.2.6