视频动作识别--Towards Good Practices for Very Deep Two-Stream ConvNets

Towards Good Practices for Very Deep Two-stream ConvNets
http://yjxiong.me/others/action_recog/
https://github.com/yjxiong/caffe/tree/action_recog

本文首先指出对于静态图像分类，CNN已经取得很大进步，但是对于视频动作分类，CNN网络表现的不是很好。这里我们分析了一下原因，主要有两个:1) 使用的CNN网络 relatively shallow，没有使用 VGGNet , GoogLeNet 这些高大上的网络；2）没有足够的训练数据。这里我们提出的解决方法是：一个是使用高大上的网络VGGNet , GoogLeNet；另一个是针对训练数据过少的问题： (i) pre-training for both spatial and temporal nets, (ii) smaller learningrates, (iii) more data augmentation techniques, (iv) high drop out ratio.

2 Very Deep Two-stream ConvNets
2.1. Network architectures
这里我们分别实现了 GoogLeNet and VGGNet

very Deep Two-stream ConvNets.
The spatial net is built on a single frame image (224 × 224 × 3)，这个和图像分类网络是一致的。

The input of temporal net is 10-frame stacking of optical flow fields (224 × 224 × 20), 这个网络的滤波器需要根据输入进行修改.

2.2. Network training
这里主要介绍怎么在 UCF101 dataset 训练我们的 very deep two-stream ConvNets

首先是预训练 Pre-training for Two-stream ConvNets，预训练完之后，我们对两个网络分别使用 Smaller Learning Rate，

数据增强
More Data Augmentation Techniques. random cropping and horizontal flipping

two new data augmentation techniques：1） corner cropping strategy，2）multi-scale cropping method

High Dropout Ratio： In particular, we set 0.9 and 0.8 drop out ratios for the fully connected layers of temporal nets. For spatial nets, we set 0.9 and 0.9 drop out ratios for the fully connected layers

Multi-GPU training

3 Experiments

视频动作识别--Towards Good Practices for Very Deep Two-Stream ConvNets相关推荐

视频动作识别--Temporal Segment Networks: Towards Good Practices for Deep Action Recognition
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition ECCV2016 https://githu ...
计算机视觉和动作检测,计算机视觉技术深度解读之视频动作识别
来源:雪球App,作者: 我是张康,(https://xueqiu.com/6964725465/135165468) 作者:极链AI研究院徐宝函视频的理解与识别是计算机视觉的基础任务之一.随着视 ...
视频动作识别--Convolutional Two-Stream Network Fusion for Video Action Recognition
Convolutional Two-Stream Network Fusion for Video Action Recognition CVPR2016 http://www.robots.ox.a ...
Tensorflow C3D完成视频动作识别
本文是视频动作识别领域经典的C3D网络的简易实现,可以作为动作识别的入门.论文为<Learning Spatiotemporal Features with 3D Convolutional N ...
Facebook AI牛津提出带“轨迹注意力”的Video Transformer，在视频动作识别任务中性能SOTA！...
关注公众号,发现CV技术之美 ▊ 写在前面在视频Transformer中,时间维度通常与两个空间维度(W和H)的处理方式相同.然而,在对象或摄影机可以移动的场景中,在第t帧中的一个位置处的物体可能与 ...
视频数据集 | 视频动作识别video recognition常用数据集整理
一写在前面未经允许,不得转载,谢谢~~~ 这篇文章主要整理一下视频动作识别领域常用的数据集~~~ 大概但不严格按照时间顺序排列. 二视频分类数据集 HMDB51 来源:HMDB: a large ...
CVPR2018 | R(2+1)D结构：视频动作识别中的时空卷积深度探究
本文是C3D作者Du Tran+IDT作者Heng Wang发表在CVPR2018的新作.来自Facebook Resaerch &Dartmouth Colledge.文章主要对是动作识别 ...
短视频动作识别技术简述
1总体介绍短视频在当前多媒体环境中占据着巨大流量,有效理解视频内容对于数据分发发挥着重要作用,动作识别是视频内容理解的一个重要方向.当前图像识别技术已趋于成熟,但动作识别仍未达到理想效果,相比于图像 ...
视频动作识别--Two-Stream Convolutional Networks for Action Recognition in Videos
Two-Stream Convolutional Networks for Action Recognition in Videos NIPS2014 http://www.robots.ox.ac. ...

视频动作识别--Towards Good Practices for Very Deep Two-Stream ConvNets

视频动作识别--Towards Good Practices for Very Deep Two-Stream ConvNets相关推荐

最新文章

热门文章