C3D、Two-stream、TSN等动作识别方法简介

《Large-scale Video Classification with Convolutional Neural Networks》

核心思想：

使用2D卷积神经网络对视频帧进行分析，为了捕获temporal维度的特征，提出了3中特征融合方法，Late Fusion，Early Fusion和Slow Fusion。

为了提升训练速度，使用更低分辨率的图像进行训练。

数据预处理方法：裁剪每帧图像的中间区域，然后缩放到200 x 200大小，然后再模型训练时随机裁剪170 x 170大小进行训练。

算法结果：

《C3D: Learning Spatiotemporal Features with 3D Convolutional Networks》

开源代码：https://github.com/facebookarchive/C3D

开源代码：https://github.com/jfzhang95/pytorch-video-recognition

核心思想：

使用3D卷积神经网络进行时空特征学习，增加时间维度的卷积。使用3x3x3的卷积核大小。2D卷积与3D卷积的区别，对于一组输入图像[]，如果使用2D卷积,2D卷积核参数为[]，则对于2D卷积来说，输入的特征维度为[]，卷积之后得到的输出特征维度为[]。对于一组输入图像[]，如果使用3D卷积,3D卷积核参数为[]，输出特征维度为[]。

双流网络

《Two-Stream Convolutional Networks for Action Recognition in Videos》

光流提取：https://github.com/sniklaus/pytorch-spynet

光流提取：https://github.com/sniklaus/pytorch-pwc

开源代码：https://github.com/jeffreyyihuang/two-stream-action-recognition

核心思想：

网络有两个输入分支：

分支一：输入单张原始图片进行卷积，然后进行softmax分类

分支二：输入光流片段optical flow clip，然后对optical flow clip进行2D卷积，然后进行softmax分类。保存每帧图像在x和y轴方向的光流数据保存为光流图像的两个channel，所以对于输入长度为L的光流片段，其输入到分支二的数据维度为[2L, H, W]

输出：对两个分支的输出结果进行融合。

论文中同时验证了使用光流和使用轨迹来表示运动特征的方法，使用轨迹表示运动特征的性能一般：

论文中还验证了双向光流特征，也叫反向光流特征的性能，性能一般。

《TSN: Temporal Segment Networks: Towards Good Practices for Deep Action Recognition》

开源代码：https://github.com/yjxiong/temporal-segment-networks

核心思想：

之前的双流网络性能不好的原因是提取的光流特征不好，密集的光流特征采样不仅增加了计算的负担，还带来了融入的信息。本论文中提出了一种光流数据稀疏采样方法，此种方法分片段稀疏采样整个视频的光流数据，能够在不增加计算负担的同时，保持了整个视频的光流运动信息。

TSN网络结构：

对一段视频采集K个片段，然后分辨对每个片段进行预测，然后对预测结果进行融合。

与上一篇的双流网络采用同样的光流数据输入方式。

C3D、Two-stream、TSN等动作识别方法简介相关推荐

基于动态骨骼的动作识别方法ST-GCN
解读:基于动态骨骼的动作识别方法ST-GCN(时空图卷积网络模型) 2018年04月09日 01:14:14 我是婉君的阅读数 16076更多分类专栏: 计算机视觉论文版权声明:本文为博主原创 ...
综述：基于骨骼（skeleton）的动作识别方法
Deep learning‐based action recognition with 3D skeleton: Asurvey 1. 简介 1.1 3D Skeleton‐based Action ...
空间注意力机制sam_一种基于注意力机制的神经网络的人体动作识别方法与流程...
本发明属于计算机视觉领域,具体来说是一种基于注意力机制的神经网络的人体动作识别的方法. 背景技术: 人体动作识别,具有着非常广阔的应用前景,如人机交互,视频监控.视频理解等方面.按目前的主流方法,可主 ...
VALSE学习（十二）：视频时序建模和动作识别
VALSE2019 王利民南京大学一.基于视频的时序建模和动作识别方法当前视频行为识别主要是在三种场景: In the Lab In TV,Movies In web videos 视频动作识别 ...
Temporal Segment Networks for Action Recognition in Videos 用于动作识别的时序分割网络
Temporal Segment Networks for Action Recognition in Videos 用于动作识别的时序分割网络本文原创,欢迎转载 https://blog.csdn ...
基于骨架动作识别的时空图卷积网络
论文来自https://arxiv.org/abs/1801.07455 英语渣渣的阅读和翻译基于骨架动作识别的时空图卷积网络摘要:人体骨骼动力学为人类动作识别传达了重要信息.传统方法在骨骼建模上 ...
计算机视觉和动作检测,计算机视觉技术深度解读之视频动作识别
来源:雪球App,作者: 我是张康,(https://xueqiu.com/6964725465/135165468) 作者:极链AI研究院徐宝函视频的理解与识别是计算机视觉的基础任务之一.随着视 ...
基于骨骼的动作识别：PoseConv3D
Revisiting Skeleton-based Action Recognition解读摘要 1. 简介 2. Related Work 2.1 基于3D-CNN的rgb视频动作识别 2.2 基 ...
Action4D：人群和杂物中的在线动作识别：CVPR209论文阅读
Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读 Action4D: Online Action Recognition in the Crowd and Clutter 论文链接 ...

C3D、Two-stream、TSN等动作识别方法简介

C3D、Two-stream、TSN等动作识别方法简介相关推荐

最新文章

热门文章