Towards Good Practices for Very Deep Two-stream ConvNets
http://yjxiong.me/others/action_recog/
https://github.com/yjxiong/caffe/tree/action_recog

本文首先指出对于静态图像分类,CNN已经取得很大进步,但是对于视频动作分类,CNN网络表现的不是很好。这里我们分析了一下原因,主要有两个:1) 使用的CNN网络 relatively shallow,没有使用 VGGNet , GoogLeNet 这些高大上的网络;2)没有足够的训练数据。这里我们提出的解决方法是:一个是使用高大上的网络VGGNet , GoogLeNet;另一个是针对训练数据过少的问题: (i) pre-training for both spatial and temporal nets, (ii) smaller learningrates, (iii) more data augmentation techniques, (iv) high drop out ratio.

2 Very Deep Two-stream ConvNets
2.1. Network architectures
这里我们分别实现了 GoogLeNet and VGGNet

very Deep Two-stream ConvNets.
The spatial net is built on a single frame image (224 × 224 × 3),这个和图像分类网络是一致的。

The input of temporal net is 10-frame stacking of optical flow fields (224 × 224 × 20), 这个网络的滤波器需要根据输入进行修改.

2.2. Network training
这里主要介绍怎么在 UCF101 dataset 训练我们的 very deep two-stream ConvNets

首先是预训练 Pre-training for Two-stream ConvNets, 预训练完之后,我们对两个网络分别使用 Smaller Learning Rate,

数据增强
More Data Augmentation Techniques. random cropping and horizontal flipping

two new data augmentation techniques:1) corner cropping strategy,2)multi-scale cropping method

High Dropout Ratio: In particular, we set 0.9 and 0.8 drop out ratios for the fully connected layers of temporal nets. For spatial nets, we set 0.9 and 0.9 drop out ratios for the fully connected layers

Multi-GPU training

3 Experiments

视频动作识别--Towards Good Practices for Very Deep Two-Stream ConvNets相关推荐

  1. 视频动作识别--Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

    Temporal Segment Networks: Towards Good Practices for Deep Action Recognition ECCV2016 https://githu ...

  2. 计算机视觉和动作检测,计算机视觉技术深度解读之视频动作识别

    来源:雪球App,作者: 我是张康,(https://xueqiu.com/6964725465/135165468) 作者:极链AI研究院 徐宝函 视频的理解与识别是计算机视觉的基础任务之一.随着视 ...

  3. 视频动作识别--Convolutional Two-Stream Network Fusion for Video Action Recognition

    Convolutional Two-Stream Network Fusion for Video Action Recognition CVPR2016 http://www.robots.ox.a ...

  4. Tensorflow C3D完成视频动作识别

    本文是视频动作识别领域经典的C3D网络的简易实现,可以作为动作识别的入门.论文为<Learning Spatiotemporal Features with 3D Convolutional N ...

  5. Facebook AI牛津提出带“轨迹注意力”的Video Transformer,在视频动作识别任务中性能SOTA!...

    关注公众号,发现CV技术之美 ▊ 写在前面 在视频Transformer中,时间维度通常与两个空间维度(W和H)的处理方式相同.然而,在对象或摄影机可以移动的场景中,在第t帧中的一个位置处的物体可能与 ...

  6. 视频数据集 | 视频动作识别video recognition常用数据集整理

    一 写在前面 未经允许,不得转载,谢谢~~~ 这篇文章主要整理一下视频动作识别领域常用的数据集~~~ 大概但不严格按照时间顺序排列. 二 视频分类数据集 HMDB51 来源:HMDB: a large ...

  7. CVPR2018 | R(2+1)D结构:视频动作识别中的时空卷积深度探究

    本文 是C3D作者Du Tran+IDT作者Heng Wang发表在CVPR2018的新作.来自Facebook Resaerch &Dartmouth Colledge.文章主要对是动作识别 ...

  8. 短视频动作识别技术简述

    1总体介绍 短视频在当前多媒体环境中占据着巨大流量,有效理解视频内容对于数据分发发挥着重要作用,动作识别是视频内容理解的一个重要方向.当前图像识别技术已趋于成熟,但动作识别仍未达到理想效果,相比于图像 ...

  9. 视频动作识别--Two-Stream Convolutional Networks for Action Recognition in Videos

    Two-Stream Convolutional Networks for Action Recognition in Videos NIPS2014 http://www.robots.ox.ac. ...

最新文章

  1. 航天智慧物流创意组-技术培训二期
  2. Vivado 随笔(6) Timing Summary 相关讨论(一)
  3. java过滤器命名_java--FilenameFilter文件过滤器
  4. 随机查找数组中第i个元素(按顺序排列的)
  5. mysql删除账户后不能使用_MySQL删除普通用户
  6. Javascript 問題汇总(不定期更新)【一】
  7. [django]django模型中auto_now和auto_now_add
  8. sklearn 决策树例子_决策树--规则挖掘应用
  9. Java类型转换工具类(十六进制—bytes互转、十进制—十六进制互转,String—Double互转)
  10. Zookeeper概念学习系列之zookeeper是什么?
  11. pandas numpy处理缺失值,none与nan比较
  12. unity获得运动物体前后时刻的位置坐标pos值
  13. pert图java_甘特图和PERT图
  14. proteus仿真运行时出现的错误
  15. 什么是脏读、不可重复读、幻读? (数据库相关)
  16. 用C语言循环码,xinxilunyubianma
  17. 搜索引擎代码资源[转载]
  18. Windows 10 Conda 更换清华大学的镜像源
  19. 四叠半神话大系(bfs序+st+在线倍增+二分)(北理16校赛)
  20. 粉丝时代,明星不需要公关?

热门文章

  1. CVPR 2022 | ConvNeXt - FAIR再探纯卷积结构的极限(优于Transformer)
  2. 数据预处理之独热编码(One-Hot)
  3. R语言基础与入门实践
  4. Centos 7.5安装配置MongoDB 4.0.5
  5. Latex中的插入表格
  6. SEL | 植物通过根系分泌物招募假单孢菌协助抵抗地上部病原菌侵染
  7. 简单读懂微生物基因组的泛基因组学
  8. python使用matplotlib可视化3D柱状图(3D histogram、三维柱状图、包含三个坐标轴x、y、z)、设置zdir参数为z、改变3d图观察的角度
  9. Python使用matplotlib可视化Treemap图、treemap将分层数据显示为一组嵌套矩形,每一组都用一个矩形表示,该矩形的面积与其值成正比(Treemap)
  10. python使用matplotlib可视化雷达图(polar函数可视化雷达图、极坐标图、通过径向方向来显示数据之间的关系)