论文:https://arxiv.org/abs/1811.01549

代码:https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleVideo

视频分类算法,AAAI2019的文章

我们知道,视频识别主流的算法方案大致有三,如下所示:

1、对视频进行时序抽样并分别送入CNN提取各自空间信息,得出特征序列后依次喂进LSTM获得时序信息

2、采用3DCNN对时序图片集进行建模

3、two-stream结构,上分支提取空间信息下分支提取时序信息,空间信息一般采用CNN,时序采用光流等

这三种方案都有各自的不足之处,例如方案一,最后送入LSTM的都是CNN高层信息,忽略了其底层的语义信息,并且LSTM较难收敛,容易发生梯度爆炸或者消失。方案三效果优于方案二,但是和两种计算量都较大。

该文章主体采用2DCNN,并提出了super-image的概念(其实就是时序上局部几帧图像的集合),结构如下图所示:

主干采用2D网络,比如resnet,其中输入由NxCxHxW变为Tx3NxHxW,T即提取的视频时间帧段,H和W与2D的一致,解释下这里的3N,3还是3通道的意思,N指的是视频局部时序的连续N张图像(文章称之为super-image),两个super-image之间有一定的时序间隔。super-image这个概念说白了就是一种兼顾局部和全局时序抽样策略。

网络在res3和res4,res4和res5之间各加入一个Temporal Modeling Block结构,在最后的全连接层前加入一个Temporal Xception Block结构。我们知道,网络已经把局部的N张图(super-image)送入CNN中,因此网络本身是可以学到N张图之间的时序信息,但是两个super-image之间的时序信息却没有进行相应的融合(T这个维度对应于2DCNN中的batch,batch中样本之间的信息是独立的),Temporal Modeling Block这个结构的提出就是为了解决这个问题。Temporal Modeling Block首先把特征的维度从TxCxHxW转成1xCxTxHxW,进行一次三维卷积操作(conv+bn+relu)把维度还原为TxCxHxW送入下一层。

为了进一步融合时序信息,网络在最后的FC前加了Temporal Xception Block,该结构如下图所示,类似残差结构,上分支两次卷积感受野是5,下分支一次卷积感受野是1,不同的感受野能更好的融合局部和全局的时序信息。卷积括号的含义为(#kernel, kernel size, padding, #groups)。我个人更倾向于把这种卷积结构看成一维版的深度可分离卷积,既能融合C通道的信息又能融合T通道的信息。结构最后做一次max pooling生成1xC大小的特征以输入FC层并给出分类。

最后算法在Kinetics400和Kinetics600数据集上测试指标如下

作者对特定动作的激活图做了可视化,并和TSN进行了比较,说明本篇文章算法能很好的抓住视频内的时序关联信息:

做个总结,视频识别说到底是空间信息和时序信息的提取及两者的融合,这其中还会涉及到时序信息的抽样策略。本篇文章采用了2DCNN处理时序三维信息(虽然还有小部分的3DCNN结构),和往常的思路相比,既能很好的抽取时序信息并融合空间信息,还能大大的减小计算量。

StNet: Local and Global Spatial-Temporal Modeling for Action Recognition相关推荐

  1. StNet: Local and Global spatial-temporal modeling for action regcognition

    StNet: Local and Global spatial-temporal modeling for action regcognition 摘要:静态图像理解上取得了成功,高效的视频时序以及空 ...

  2. 【论文阅读】Long-term Temporal Convolutions for Action Recognition

    [论文阅读]Long-term Temporal Convolutions for Action Recognition 这篇论文之前,几乎所有的3D卷积网络的输入视频长度都很短,例如C3D.Res3 ...

  3. 《Long-Term Temporal Convolutions for Action Recognition》 论文翻译

    翻译,论文原文来自PAMI官方网站,原文链接 翻译人: 翻译时间:2018年6月10日14:39:18 并标记了一些重点. 目录 作者 摘要 关键词 介绍 相关工作 长时期卷积 网络架构 网络输入 学 ...

  4. 论文阅读_Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition

    Abstract 人体骨架动力学为人体动作识别提供了重要信息.传统的骨架建模方法通常依赖于手工制作的部件或遍历规则,从而导致表达能力有限和泛化困难.在这项工作中,我们提出了一种新的动态骨架模型,称为时 ...

  5. Temporal Pyramid Network for Action Recognition(CVPR2020)

    Abstract 视觉节奏表征了动作的动态和时间尺度.对不同动作的这种视觉节奏进行建模有助于动作的识别.以前的工作通常通过以多种速率采样原始视频,并构建输入级帧金字塔来捕获视觉节奏,而帧金字塔通常需要 ...

  6. Temporal Segment Networks: Towards Good Practices for Deep Action Recognition(时间段网络:使用深度行为识别的良好实现)

    本文的原作者为Limin Wang等人原文地址 #摘要 深度卷积网络在静止图像中的视觉识别方面取得了巨大成功.然而,对于视频中的动作识别,优于传统方法的优势并不明显.本文旨在探索为视频中的动作识别设计 ...

  7. [TPAMI-2023] Effective Local and Global Search for Fast Long-Term Tracking

    论文阅读 [TPAMI-2023] Effective Local and Global Search for Fast Long-Term Tracking 论文搜索(studyai.com) 搜索 ...

  8. MikuMikuDance中对于Local和Global旋转方式的特殊处理

    我们的 萌梦动作编辑器对标的是国外的MikuMikuDance(以下简称MMD).这里我们在制作骨骼动画功能的时候,发现MikuMikuDance中对于不同骨骼中Local以及Global旋转方式的处 ...

  9. DELG:Unifying Deep Local and Global Features for Image Search论文代码复现

    前言 之前在研究图像检索的过程中,在网上看了一些资料,发现许多方法的检索结果并不是非常适合我的数据集,于是在翻看论文的时候看到了*<Large-Scale Image Retrieval wit ...

最新文章

  1. python学习--基础
  2. 地域和地方的区别_商标、品牌、LOGO,三者区别在哪里?
  3. 使用CGlib出现java.lang.NoClassDefFoundError: org/objectweb/asm/Type异常
  4. linux下c语言俄罗斯方块,Centos 6.2下的C语言编写俄罗斯方块游戏代码
  5. 异步/同步、阻塞/非阻塞的理解
  6. C++ Primer 5th笔记(8)chapter8 类:IO库-流的缓冲区
  7. 成功者五大因素 奸的好人-笔记
  8. CentOs基础操作指令(压缩、定时任务调度)
  9. JS中比较两个对象是否相等
  10. Find the longest route with the smallest starting point
  11. ipc-rpc-xmlrpc
  12. git add 撤销_Git系列——Git添加提交(add)和查看状态(status)
  13. 第 15 章 垃圾回收相关算法
  14. 网页设计心得HTML心得体会3000,网页制作的心得体会
  15. 联想服务器自动关机_联想电脑设置自动关机
  16. 基于STM32F103的ACS712电流传感器使用教程
  17. 水晶头(网线)的线序
  18. 华为2019网络挑战赛初赛网络方向部分模拟题及答案
  19. 计算机2010word中的页面背景在哪里,word2010里怎样填充页面背景图片
  20. 编写函数trans(str)实现字符串中数字转化为大写汉字。例如 “0123456789“转化为 “零壹贰叁肆伍陆柒捌玖“。

热门文章

  1. 怎样用html和图像制作代码,如何用HTML代码贴图
  2. 【MySQL】19-MySQL中如何创建数据库和管理数据库
  3. 瑞星2011:没有最新,只有更新
  4. 原生ajax如何跨域,封装一个原生js的ajax请求,支持IE9CORS跨域请求
  5. C++程序设计语言——一个桌面计算器示例
  6. 星锐恒通电钢琴电子琴教学控制管理系统概述
  7. 双目相机IMX219-83 +jetson nano 使用教程
  8. Apache Geode/GemFire 数据分区和路由机制浅析
  9. 无单位收入证明怎么开?
  10. 学习笔记 broswerify + watchify + beefy