Large-scale Video Classification with Convolutional Neural Networks

核心思想:

使用2D卷积神经网络对视频帧进行分析,为了捕获temporal维度的特征,提出了3中特征融合方法,Late Fusion,Early Fusion和Slow Fusion。

为了提升训练速度,使用更低分辨率的图像进行训练。

数据预处理方法:裁剪每帧图像的中间区域,然后缩放到200 x 200大小,然后再模型训练时随机裁剪170 x 170大小进行训练。

算法结果:

C3D: Learning Spatiotemporal Features with 3D Convolutional Networks

开源代码:https://github.com/facebookarchive/C3D

开源代码:https://github.com/jfzhang95/pytorch-video-recognition

核心思想:

使用3D卷积神经网络进行时空特征学习,增加时间维度的卷积。使用3x3x3的卷积核大小。2D卷积与3D卷积的区别,对于一组输入图像[],如果使用2D卷积,2D卷积核参数为[],则对于2D卷积来说,输入的特征维度为[], 卷积之后得到的输出特征维度为[]。对于一组输入图像[],如果使用3D卷积,3D卷积核参数为[],输出特征维度为[]。


双流网络

Two-Stream Convolutional Networks for Action Recognition in Videos

光流提取:https://github.com/sniklaus/pytorch-spynet

光流提取:https://github.com/sniklaus/pytorch-pwc

开源代码:https://github.com/jeffreyyihuang/two-stream-action-recognition

核心思想:

网络有两个输入分支:

分支一:输入单张原始图片进行卷积,然后进行softmax分类

分支二:输入光流片段optical flow clip,然后对optical flow clip进行2D卷积,然后进行softmax分类。保存每帧图像在x和y轴方向的光流数据保存为光流图像的两个channel,所以对于输入长度为L的光流片段,其输入到分支二的数据维度为[2L, H, W]

输出:对两个分支的输出结果进行融合。

论文中同时验证了使用光流和使用轨迹来表示运动特征的方法,使用轨迹表示运动特征的性能一般:

论文中还验证了双向光流特征,也叫反向光流特征的性能,性能一般。

TSN: Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

开源代码:https://github.com/yjxiong/temporal-segment-networks

核心思想:

之前的双流网络性能不好的原因是提取的光流特征不好,密集的光流特征采样不仅增加了计算的负担,还带来了融入的信息。本论文中提出了一种光流数据稀疏采样方法,此种方法分片段稀疏采样整个视频的光流数据,能够在不增加计算负担的同时,保持了整个视频的光流运动信息。

TSN网络结构:

对一段视频采集K个片段,然后分辨对每个片段进行预测,然后对预测结果进行融合。

与上一篇的双流网络采用同样的光流数据输入方式。

C3D、Two-stream、TSN等动作识别方法简介相关推荐

  1. 基于动态骨骼的动作识别方法ST-GCN

    解读:基于动态骨骼的动作识别方法ST-GCN(时空图卷积网络模型) 2018年04月09日 01:14:14 我是婉君的 阅读数 16076更多 分类专栏: 计算机视觉 论文 版权声明:本文为博主原创 ...

  2. 综述:基于骨骼(skeleton)的动作识别方法

    Deep learning‐based action recognition with 3D skeleton: Asurvey 1. 简介 1.1 3D Skeleton‐based Action ...

  3. 空间注意力机制sam_一种基于注意力机制的神经网络的人体动作识别方法与流程...

    本发明属于计算机视觉领域,具体来说是一种基于注意力机制的神经网络的人体动作识别的方法. 背景技术: 人体动作识别,具有着非常广阔的应用前景,如人机交互,视频监控.视频理解等方面.按目前的主流方法,可主 ...

  4. VALSE学习(十二):视频时序建模和动作识别

    VALSE2019 王利民 南京大学 一.基于视频的时序建模和动作识别方法 当前视频行为识别主要是在三种场景: In the Lab In TV,Movies In web videos 视频动作识别 ...

  5. Temporal Segment Networks for Action Recognition in Videos 用于动作识别的时序分割网络

    Temporal Segment Networks for Action Recognition in Videos 用于动作识别的时序分割网络 本文原创,欢迎转载 https://blog.csdn ...

  6. 基于骨架动作识别的时空图卷积网络

    论文来自https://arxiv.org/abs/1801.07455 英语渣渣的阅读和翻译 基于骨架动作识别的时空图卷积网络 摘要:人体骨骼动力学为人类动作识别传达了重要信息.传统方法在骨骼建模上 ...

  7. 计算机视觉和动作检测,计算机视觉技术深度解读之视频动作识别

    来源:雪球App,作者: 我是张康,(https://xueqiu.com/6964725465/135165468) 作者:极链AI研究院 徐宝函 视频的理解与识别是计算机视觉的基础任务之一.随着视 ...

  8. 基于骨骼的动作识别:PoseConv3D

    Revisiting Skeleton-based Action Recognition解读 摘要 1. 简介 2. Related Work 2.1 基于3D-CNN的rgb视频动作识别 2.2 基 ...

  9. Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读

    Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读 Action4D: Online Action Recognition in the Crowd and Clutter 论文链接 ...

最新文章

  1. 封装的人人网客户端调用接口
  2. dategurd oracle_Oracle 时间和日期处理
  3. CSS Grid 网格布局教程
  4. html select选择事件_用 Java 拿下 HTML 分分钟写个小爬虫
  5. web端怎么做兼容性测试
  6. lwip 2.0.3 DNS 域名解析 使用
  7. 全国计算机汉字录入是什么,什么是汉字录入?
  8. Ubuntu 16.04 x64 常用软件
  9. mongo 监听指定语句
  10. 【cocos2d-x 手游研发小技巧(4)与Android混编实现换“头像图片”】
  11. mac怎么给python下载库_关于macos:在Python中安装库
  12. div标签清除float浮动样式方法
  13. updata pip 报错 TypeError: parse() got an unexpected keyword argument 'transport_encoding'
  14. Oracle Primavera P6EPPM Mobile/App 安卓移动端分享(长期更新)
  15. cdrx4自动排版步骤_coreldraw x4怎么排版 coreldraw书册杂志的排版方法 - 电脑常识 - 服务器之家...
  16. python+selenium,打开浏览器时报selenium.common.exceptions.WebDriverException: Message: 'chromedriver' execut
  17. 磁盘阵列数据恢复_raid5硬盘离线数据恢复步骤_HP-lefthand存储详解
  18. 怎么做有内容的二维码?二维码在线制作教程
  19. 论文查重会查新闻内容吗?
  20. 【计算机硬件组成】基础知识(必备)

热门文章

  1. JEPF 软件快速开发平台
  2. 论文阅读:Coarse to Fine Vertebrae Localization and Segmentation with SpatialConfiguration-Net and U-Net
  3. myql 查询树形表结果:说说、说说的评论、评论的回复
  4. tensorflow2.0学习笔记(五)
  5. 固定电话呼叫转移设置方法
  6. android代码 IMEI,Android_Android中获取IMEI码的方法,核心代码:Imei = ((TelephonyManager) - phpStudy...
  7. 2022年山东省中职组“网络安全”赛项比赛任务书-1
  8. ubuntu与主机ping不通的解决办法(主机检测不到虚拟网卡)
  9. Hive统计函数总结
  10. 如何修改论文降低重复率