文章目录

  • 0. 前言
  • 1. 要解决什么问题
  • 2. 用了什么方法
  • 3. 效果如何
  • 4. 还存在什么问题

0. 前言

  • 相关资料:

    • arxiv
    • github
    • 论文解读(作者本人解读,推荐)
  • 论文基本信息
    • 领域:行为识别
    • 作者单位:南京大学&商汤研究院
    • 发表时间:2020.5,ICLR 2021
  • 一句话总结:提出了一种新的block结构,在BottleNeck的非skip分支中添加了仅处理时间维度信息的自适应卷积结构。

1. 要解决什么问题

  • 深度学习领域,视频相关研究比图像相关研究少/慢一些。

    • 视频相比于图像,其主要区别在于,除了要考虑空间特征,还需要考虑时间特征。
  • 在行为识别领域,要解决的主要问题就是 高效提取视频的时空特征,这也就是本文的目标。
    • 现在提取视频特征的主流方法是使用3D卷积,但3D卷积存在针对性差、计算量高的缺陷。
    • 对3D卷积的优化主要集中在两个研究方向:
      • 基于2D卷积的时间特征提取模块。
      • 设计专门用于时间特征提取的模块(而不是向3D卷积那么粗糙的方法)。

2. 用了什么方法

  • 提出了一种新的时间自适应结构(temporal adaptive module,TAM)。

    • 这种模块的关键在于,对于不同的视频有不同的处理,adaptive temporal kernels。(这种说法很有意思)
    • 在看了下面的网络结构后发现,在TAM模块内,卷积核会改变,特征图也做了处理。
  • TAM模块结构示意图如下(这张图TAM并不直观,还是下面一张图显示的TAM直观):
  • TANet结构示意图如下:
    • local branch 用于提取短期信息,global branch用于提取长期信息。
    • 其实看源码更好。

3. 效果如何

  • 在 Kinetics-400 上达到SOTA

  • 在Something-Something上也到SOTA

4. 还存在什么问题

  • 说是在同样FLOPs下性能更好,但测试基础是ResNet。
  • 等代码开源了之后想尝试下在MobileNet等网络上是否有效果。
  • 浏览了源码
    • 完全基于TSN/TSM的源码改写的,改的内容非常少,要在mmaction2中复现应该非常容易。
    • 提供了两类主干网络, resnet 和 bninception,但预训练模型只有R50的。

行为识别 - TAM: Temporal Adaptive Module for Video Recognition相关推荐

  1. TAM: TEMPORAL ADAPTIVE MODULE FOR VIDEO RECOGNITION ∗

    论文笔记(10) TAM: TEMPORAL ADAPTIVE MODULE FOR VIDEO RECOGNITION ∗ 主要贡献 TAM 实验 TAM: TEMPORAL ADAPTIVE MO ...

  2. TAM: Temporal Adaptive Module for Video Recognition论文学习

    Abstract 时域建模在视频动作识别任务中,对于时空结构的获取非常重要.由于各种因素,如相机移动.速度差异,视频数据在时间维度上非常复杂.为了有效获取这些运动的模式,本文提出了一个新的时域自适应模 ...

  3. 行为识别 - X3D: Expanding Architectures for Efficient Video Recognition

    文章目录 0. 前言 1. 要解决什么问题 2. 用了什么方法 3. 效果如何 4. 还存在什么问题 0. 前言 相关资料: arxiv github,mmaction2 中也放上了 论文解读 论文基 ...

  4. TSM泛读【TSM: Temporal Shift Module for Efficient Video Understanding】

    目录 0.前沿 1.标题 2.摘要 3.结论 4.重要图表 5.解决了什么问题 6.采用了什么方法 7.达到了什么效果 0.前沿 泛读我们主要读文章标题,摘要.结论和图表数据四个部分.需要回答用什么方 ...

  5. 【视频理解论文】——TSM:Temporal Shift Module for Efficient Video Understanding

    TSM: Temporal Shift Module for Efficient Video Understanding(ICCV2019) 这是一篇关于视频理解的文章,主要介绍了一种可以达到3DCN ...

  6. TSM: Temporal Shift Module for Efficient Video Understanding

    这是一篇关于视频理解的文章,主要介绍了一种可以达到3DCNN的效果的,但是保持2DCNN计算量和参数量的方法,叫做TSM(Tempora Shift Module)也就是在一簇要处理的帧之间,把相邻帧 ...

  7. 论文阅读 TSM: Temporal Shift Module for Efficient Video Understanding

    TSM: Temporal Shift Module for Efficient Video Understanding Computer Vision and Pattern Recognition ...

  8. Temporal Shift Module(TSM) 部署在自己电脑上并训练自己的数据集

    引言: 本小白第一次写博客,如有不妥请多多包含. 能接触到TSM还是因为毕设的原因.本小白今年本科大四,在毕设的时候选择了 "用事件相机进行人体动作的识别" 这个项目.该项目旨在应 ...

  9. temporal shift module(TSM)

    [官方]Paddle2.1实现视频理解经典模型 - TSM - 飞桨AI Studio本项目将带大家深入理解视频理解领域经典模型TSM.从模型理论讲解入手,深入到代码实践.实践部分基于TSM模型在UC ...

最新文章

  1. [BUUCTF-pwn]——test_your_nc
  2. 《Linux From Scratch》第二部分:准备构建 第五章:构建临时文件系统- 5.2 工具链技术备注...
  3. python实例化是什么意思_Python中实例化class的执行顺序示例详解
  4. good-Windows下搭建PHP开发环境(Apache+PHP+MySQL)
  5. 当模型预测控制遇见机器学习
  6. 2017年国内开源镜像站点汇总 1
  7. Memcached学习---(3)Windows 下安装 Memcached
  8. php安装redis扩展‘checking for igbinary includes... configure: error: Cannot find igbinary.h‘解决方法
  9. 与时俱进的治疗策略不断提高RA无药缓解机会[EULAR2015_SAT0058]
  10. [渝粤教育] 中国地质大学 工程地质 复习题
  11. Mysql和mono_c# – 让Linq与Mysql和Mono玩得很好,有可能吗?
  12. 【转】Android 9 Pie 兼容性常见问题及注意事项
  13. nook3软件_在Nook上阅读适用于PC和便携式设备的所有电子书
  14. html foreach 行 间隔,颜色,javascript简单实现表格行间隔显示颜色并高亮显示
  15. 学习篇——微信小程序开发
  16. 《编程珠玑》读解 一
  17. 基于SSM的应急指挥系统
  18. Java微信公众号开发之微信公众平台账号申请注册
  19. 星际争霸1-PvPGN战网架设参数
  20. Windows10系统下电脑时间不对,怎么办?

热门文章

  1. 简单谈谈ActiveMQ的两种消费方式
  2. 汇报措辞:你懂得怎样向领导汇报吗(审阅、审批、批阅、批示、查阅)?
  3. Nginx开启GZIP压缩,提升前端访问速度
  4. 【Verilog】一、Verilog概述
  5. 如何简单粗暴的干掉2345主页
  6. python乘积函数_Python中乘法
  7. 《我拼图贼6》游戏反馈栏
  8. 面试题:请说一下HashMap的底层实现原理。
  9. 利用easyX图形库画迷宫问题的路径
  10. linux pppd源码下载_linux pppd脚本配置