行为识别 - TAM: Temporal Adaptive Module for Video Recognition
文章目录
- 0. 前言
- 1. 要解决什么问题
- 2. 用了什么方法
- 3. 效果如何
- 4. 还存在什么问题
0. 前言
- 相关资料:
- arxiv
- github
- 论文解读(作者本人解读,推荐)
- 论文基本信息
- 领域:行为识别
- 作者单位:南京大学&商汤研究院
- 发表时间:2020.5,ICLR 2021
- 一句话总结:提出了一种新的block结构,在BottleNeck的非skip分支中添加了仅处理时间维度信息的自适应卷积结构。
1. 要解决什么问题
- 深度学习领域,视频相关研究比图像相关研究少/慢一些。
- 视频相比于图像,其主要区别在于,除了要考虑空间特征,还需要考虑时间特征。
- 在行为识别领域,要解决的主要问题就是 高效提取视频的时空特征,这也就是本文的目标。
- 现在提取视频特征的主流方法是使用3D卷积,但3D卷积存在针对性差、计算量高的缺陷。
- 对3D卷积的优化主要集中在两个研究方向:
- 基于2D卷积的时间特征提取模块。
- 设计专门用于时间特征提取的模块(而不是向3D卷积那么粗糙的方法)。
2. 用了什么方法
- 提出了一种新的时间自适应结构(temporal adaptive module,TAM)。
- 这种模块的关键在于,对于不同的视频有不同的处理,adaptive temporal kernels。(这种说法很有意思)
- 在看了下面的网络结构后发现,在TAM模块内,卷积核会改变,特征图也做了处理。
- TAM模块结构示意图如下(这张图TAM并不直观,还是下面一张图显示的TAM直观):
- TANet结构示意图如下:
- local branch 用于提取短期信息,global branch用于提取长期信息。
- 其实看源码更好。
3. 效果如何
在 Kinetics-400 上达到SOTA
在Something-Something上也到SOTA
4. 还存在什么问题
- 说是在同样FLOPs下性能更好,但测试基础是ResNet。
- 等代码开源了之后想尝试下在MobileNet等网络上是否有效果。
- 浏览了源码
- 完全基于TSN/TSM的源码改写的,改的内容非常少,要在mmaction2中复现应该非常容易。
- 提供了两类主干网络, resnet 和 bninception,但预训练模型只有R50的。
行为识别 - TAM: Temporal Adaptive Module for Video Recognition相关推荐
- TAM: TEMPORAL ADAPTIVE MODULE FOR VIDEO RECOGNITION ∗
论文笔记(10) TAM: TEMPORAL ADAPTIVE MODULE FOR VIDEO RECOGNITION ∗ 主要贡献 TAM 实验 TAM: TEMPORAL ADAPTIVE MO ...
- TAM: Temporal Adaptive Module for Video Recognition论文学习
Abstract 时域建模在视频动作识别任务中,对于时空结构的获取非常重要.由于各种因素,如相机移动.速度差异,视频数据在时间维度上非常复杂.为了有效获取这些运动的模式,本文提出了一个新的时域自适应模 ...
- 行为识别 - X3D: Expanding Architectures for Efficient Video Recognition
文章目录 0. 前言 1. 要解决什么问题 2. 用了什么方法 3. 效果如何 4. 还存在什么问题 0. 前言 相关资料: arxiv github,mmaction2 中也放上了 论文解读 论文基 ...
- TSM泛读【TSM: Temporal Shift Module for Efficient Video Understanding】
目录 0.前沿 1.标题 2.摘要 3.结论 4.重要图表 5.解决了什么问题 6.采用了什么方法 7.达到了什么效果 0.前沿 泛读我们主要读文章标题,摘要.结论和图表数据四个部分.需要回答用什么方 ...
- 【视频理解论文】——TSM:Temporal Shift Module for Efficient Video Understanding
TSM: Temporal Shift Module for Efficient Video Understanding(ICCV2019) 这是一篇关于视频理解的文章,主要介绍了一种可以达到3DCN ...
- TSM: Temporal Shift Module for Efficient Video Understanding
这是一篇关于视频理解的文章,主要介绍了一种可以达到3DCNN的效果的,但是保持2DCNN计算量和参数量的方法,叫做TSM(Tempora Shift Module)也就是在一簇要处理的帧之间,把相邻帧 ...
- 论文阅读 TSM: Temporal Shift Module for Efficient Video Understanding
TSM: Temporal Shift Module for Efficient Video Understanding Computer Vision and Pattern Recognition ...
- Temporal Shift Module(TSM) 部署在自己电脑上并训练自己的数据集
引言: 本小白第一次写博客,如有不妥请多多包含. 能接触到TSM还是因为毕设的原因.本小白今年本科大四,在毕设的时候选择了 "用事件相机进行人体动作的识别" 这个项目.该项目旨在应 ...
- temporal shift module(TSM)
[官方]Paddle2.1实现视频理解经典模型 - TSM - 飞桨AI Studio本项目将带大家深入理解视频理解领域经典模型TSM.从模型理论讲解入手,深入到代码实践.实践部分基于TSM模型在UC ...
最新文章
- [BUUCTF-pwn]——test_your_nc
- 《Linux From Scratch》第二部分:准备构建 第五章:构建临时文件系统- 5.2 工具链技术备注...
- python实例化是什么意思_Python中实例化class的执行顺序示例详解
- good-Windows下搭建PHP开发环境(Apache+PHP+MySQL)
- 当模型预测控制遇见机器学习
- 2017年国内开源镜像站点汇总 1
- Memcached学习---(3)Windows 下安装 Memcached
- php安装redis扩展‘checking for igbinary includes... configure: error: Cannot find igbinary.h‘解决方法
- 与时俱进的治疗策略不断提高RA无药缓解机会[EULAR2015_SAT0058]
- [渝粤教育] 中国地质大学 工程地质 复习题
- Mysql和mono_c# – 让Linq与Mysql和Mono玩得很好,有可能吗?
- 【转】Android 9 Pie 兼容性常见问题及注意事项
- nook3软件_在Nook上阅读适用于PC和便携式设备的所有电子书
- html foreach 行 间隔,颜色,javascript简单实现表格行间隔显示颜色并高亮显示
- 学习篇——微信小程序开发
- 《编程珠玑》读解 一
- 基于SSM的应急指挥系统
- Java微信公众号开发之微信公众平台账号申请注册
- 星际争霸1-PvPGN战网架设参数
- Windows10系统下电脑时间不对,怎么办?