本文是对我们 CVPR 2021 接收的工作 "ACTION-Net: Multipath Excitation for Action Recognition" 的介绍。主要针对强时序依赖行为识别这个场景,设计了一组卷积模块。

  • 作者单位:都柏林圣三一大学,字节跳动

  • 论文地址:https://arxiv.org/abs/2103.07372

  • 项目地址:https://github.com/V-Sense/ACTION-Net

      01      

ACTION模块

ACTION 的核心思想是生成三个 attention map 即时空 attention map, channel attention map 和 motion attention map 来激发相应视频中的特征。因为 ACTION 模块是基于 2D CNN 的,所以 ACTION 的输入是一个 4D

(N: batch size, T: number of segments, C: number of channels, H: hegith, W: width)。下面我们将介绍三个模块分别对于输入 X 的处理。

1.1时空注意力 (Spatial-Temporal Excitation: STE)

该模块通过产生时空 attention map 来提取视频中的时空(spatio-temporal)特征。传统的时空特征提取主要使用3D卷积,但直接对输入引入3D卷积会大大的增加模型的计算量。所以我们先对 X 做一个channel average得到一个对于时空的 global channel 的特征

我们再将

reshape 成能够被 3D 卷积操作的维度即(N, 1, T, H, W)。至此,我们可以用一个 3D 卷积核对这个 进行卷积,卷积完之后再通过 Sigmoid 就可以得到一个时空的 attention map

这个时空 attention map reshape 成和 一样的维度再去点乘 就可以得到激发我们所需要的时空特征。STE 的结构和 PyTorch API 伪代码如下图:

STE 的结构图

PyTorch API 伪代码图

1.2信道注意力 (Channel Excitation: CE)

这个 block 是基于 SE-Net 的 SE block。但因为视频动作中含有时序信息,所以我们在信道的 squeeze 和 unsqueeze 之间插入了 1D 在时域上的卷积来增强信道在时域上的相互依赖程度。和 SE 一样,我们可以得到一个基于信道的 attention map

和 STE 一样,我们用得到的 attention map 点乘输入的 得到信道所激发特征。STE 的结构和 PyTorch API 伪代码如下图:

STE 的结构图

PyTorch API 伪代码图

1.3运动注意力 (Motion Excitation: ME)

ACTION 模块是由以上提到的三个注意力模块并联而成。这个模块和之前的工作TSM一样,即插即用。在和 state-of-the-art 的方法比较中,我们的backbone 采用了和之前工作相同的 ResNet-50 作为比较。同时,我们以 TSN和 TSM 为baseline 测试了ACTION 在不同 backbone (ResNet-50, MobileNet V2, BN-Inception) 上的性能。

      02      

实验结果

我们分别用了三个侧重于时序动作的视频数据集: Something-Something V2, Jester, EgoGesture 来测试我们提出的 ACTION 模块。

2.1对比实验

从下表中可以看出 ACTION 在 Jester 和 EgoGesture 上面的表现还是十分鲁棒的,都取得了 state-of-the-art 的效果。在 Something V2 的数据集上面相比STM 和 TEA 也取得了很相近的效果。

但值得注意的是,STM 和 TEA 都是分别针对于 ResNet 和 Res2Net 设计的,而 ACTION 是一个即插即用的模块,不会受限于 backbone 种类。

2.2Ablation Studies

Table 3 列出了不同 path 增加的计算量,参数以及效果提升。可以看 STE 和 CE 相对 TSM 于所增加的计算量非常小,同时可以提高 1.7% 准确率。ME 相对于另外两个模块计算量有所增加,但同时增加的准确率也最高。当我们把三个模块并联成 ACTION 时,准确率最高,但同时计算量也是增加的最多的。

Table 5 列出了ACTION 模块在不同 backbone 相较于 baseline 的一个效果提升。我们可以看出 ACTION 在 MobileNet V2 中所增加的计算量最低,这是由于MobileNet V2 本身倒锥形的结构(Inverted Residual)即在 residual block里,两边 channel 少,中间 channel 多。

而我们的 ACTION 插在每个 residual 的开始,所以 MobileNet V2 这样的结构本身会是 ACTION 带来的计算量比 ResNet-50 和 BNInception 来的要小。从准确率增加的效果上来看,对 ResNet-50 的提升最为明显(同时也增加的计算量也是最大)。

其它解读:CVPR 2021 | 用于动作识别,即插即用、混合注意力机制的 ACTION 模块

备注:人体

人体动作检测与识别交流群

动作识别、动作检测等技术,

若已为CV君其他账号好友请直接私信。

在看,让更多人看到  

CVPR 2021 |针对强时序依赖,即插即用、混合注意力机制的 ACTION 模块相关推荐

  1. CVPR 2021 | 用于动作识别,即插即用、混合注意力机制的 ACTION 模块

    分享一篇来自 CVPR 2021 的文章,ACTION-Net: Multipath Excitation for Action Recognition.作者单位:都柏林圣三一大学,字节跳动 AI L ...

  2. 【CBAM 解读】混合注意力机制:Convolutional Block Attention Module

    摘要 本文提出了卷积块注意模块(CBAM),这是一种简单而有效的前馈卷积神经网络注意模块.在给定中间特征图的情况下,我们的模块沿着通道和空间两个不同的维度顺序地推断关注图,然后将关注图与输入特征图相乘 ...

  3. ICCV 2021 | 最新开源!多视角几何和注意力机制实现新视角合成

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨Bo Yang@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/ ...

  4. CVPR 2021 | 针对全局 SfM 的高效初始位姿图生成

    Efficient Initial Pose-graph Generation for Global SfM 作者:Daniel Barath, Dmytro Mishkin, Ivan Eichha ...

  5. 直播 | WWW 2021:用先验知识指导BERT注意力机制的语义文本匹配

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  6. 注意力机制详解系列(四):混合注意力机制

  7. 动作识别最新高效利器 ACTION-Net:通用的多路径激活模块 | CVPR 2021

    2021-04-20 01:48:02 本文是对我们 CVPR 2021 接收的工作 "ACTION-Net: Multipath Excitation for Action Recogni ...

  8. 字节跳动多篇论文入选 CVPR 2021,精选干货都在这里了

    CVPR 2021,近期刚刚落下帷幕. 作为计算机视觉领域三大顶级学术会议之一,CVPR每年都吸引了各大高校.科研机构与科技公司的论文投稿,许多重要的计算机视觉技术成果都在CVPR上中选发布. 今天, ...

  9. 论文浅尝 | 混合注意力原型网络的含噪音少样本的关系分类

    论文笔记整理:余海阳,浙江大学硕士,研究方向为知识图谱.自然语言信息抽取. 链接:https://www.aaai.org/Papers/AAAI/2019/AAAI-GaoTianyu.915.pd ...

最新文章

  1. 尴尬!中科院国产编程语言“木兰”引争议:声称完全自主,实则换皮Python?...
  2. RTMP在NGINX的启动
  3. 本地安装 SAP Commerce 实例
  4. 洛谷 P1340 兽径管理
  5. HDU 2072(单词数)题解
  6. 4999元起!iQOO 9 Pro今日首销:骁龙8旗舰处理器+独立显示芯片Pro
  7. mysql函数使用_mysql函数应用
  8. JavaScript 字符串(String)对象
  9. 进入windows自启文件夹
  10. 读xml文件时字体串类型的判断
  11. gmail api 发送邮件_Node定时自动发邮件功能
  12. Android控件:在《第一行代码(第二版)》学习RecyclerView的踩坑经过
  13. 使用jTopo给Html5 Canva中绘制的元素添加鼠标事件_html5教程技巧
  14. 三菱PLC项目案例学习之PLC控制伺服或步进电机带动丝运行案例
  15. android 悬浮窗截屏,GitHub - tyhjh/ScreenShot: Android截屏的封装
  16. Springboot 返回数据提示语 国际化 (AOP实现)
  17. 两台电脑共享一套键盘鼠标的神器
  18. 互联网产品经理的学习计划
  19. 爱是永恒,依然爱是您
  20. 什么是阿里云服务器ECS?阿里云服务器的用途

热门文章

  1. Multi_thread--Linux下多线程编程中信号量介绍及简单使用
  2. 设计模式学习笔记——装饰(Decorator)模式
  3. Linux学习笔记4
  4. python变量命名规则_Python教程第9篇:牢记Python变量命名5大规则
  5. iphone屏蔽系统更新_屏蔽 iOS 系统更新的最新方法,支持所有 iPhone、iPad 设备
  6. python14张思维导图高清pdf_程序员必备,快速学习 Python 的全套14张思维导图(附高清版下载)...
  7. linux内核oops错误码说明,调试 – 了解内核oops错误代码
  8. python postgresql跨数据库操作_python 操作postgres数据库
  9. 宝塔可以修改服务器内存限制吗,宝塔内存使用率很高的解决方法 cpu过高这样做!...
  10. CentOS7.4安装redis-3.2.6