C3D、Two-stream、TSN等动作识别方法简介
《Large-scale Video Classification with Convolutional Neural Networks》
核心思想:
使用2D卷积神经网络对视频帧进行分析,为了捕获temporal维度的特征,提出了3中特征融合方法,Late Fusion,Early Fusion和Slow Fusion。
为了提升训练速度,使用更低分辨率的图像进行训练。
数据预处理方法:裁剪每帧图像的中间区域,然后缩放到200 x 200大小,然后再模型训练时随机裁剪170 x 170大小进行训练。
算法结果:
《C3D: Learning Spatiotemporal Features with 3D Convolutional Networks》
开源代码:https://github.com/facebookarchive/C3D
开源代码:https://github.com/jfzhang95/pytorch-video-recognition
核心思想:
使用3D卷积神经网络进行时空特征学习,增加时间维度的卷积。使用3x3x3的卷积核大小。2D卷积与3D卷积的区别,对于一组输入图像[],如果使用2D卷积,2D卷积核参数为[],则对于2D卷积来说,输入的特征维度为[], 卷积之后得到的输出特征维度为[]。对于一组输入图像[],如果使用3D卷积,3D卷积核参数为[],输出特征维度为[]。
双流网络
《Two-Stream Convolutional Networks for Action Recognition in Videos》
光流提取:https://github.com/sniklaus/pytorch-spynet
光流提取:https://github.com/sniklaus/pytorch-pwc
开源代码:https://github.com/jeffreyyihuang/two-stream-action-recognition
核心思想:
网络有两个输入分支:
分支一:输入单张原始图片进行卷积,然后进行softmax分类
分支二:输入光流片段optical flow clip,然后对optical flow clip进行2D卷积,然后进行softmax分类。保存每帧图像在x和y轴方向的光流数据保存为光流图像的两个channel,所以对于输入长度为L的光流片段,其输入到分支二的数据维度为[2L, H, W]
输出:对两个分支的输出结果进行融合。
论文中同时验证了使用光流和使用轨迹来表示运动特征的方法,使用轨迹表示运动特征的性能一般:
论文中还验证了双向光流特征,也叫反向光流特征的性能,性能一般。
《TSN: Temporal Segment Networks: Towards Good Practices for Deep Action Recognition》
开源代码:https://github.com/yjxiong/temporal-segment-networks
核心思想:
之前的双流网络性能不好的原因是提取的光流特征不好,密集的光流特征采样不仅增加了计算的负担,还带来了融入的信息。本论文中提出了一种光流数据稀疏采样方法,此种方法分片段稀疏采样整个视频的光流数据,能够在不增加计算负担的同时,保持了整个视频的光流运动信息。
TSN网络结构:
对一段视频采集K个片段,然后分辨对每个片段进行预测,然后对预测结果进行融合。
与上一篇的双流网络采用同样的光流数据输入方式。
C3D、Two-stream、TSN等动作识别方法简介相关推荐
- 基于动态骨骼的动作识别方法ST-GCN
解读:基于动态骨骼的动作识别方法ST-GCN(时空图卷积网络模型) 2018年04月09日 01:14:14 我是婉君的 阅读数 16076更多 分类专栏: 计算机视觉 论文 版权声明:本文为博主原创 ...
- 综述:基于骨骼(skeleton)的动作识别方法
Deep learning‐based action recognition with 3D skeleton: Asurvey 1. 简介 1.1 3D Skeleton‐based Action ...
- 空间注意力机制sam_一种基于注意力机制的神经网络的人体动作识别方法与流程...
本发明属于计算机视觉领域,具体来说是一种基于注意力机制的神经网络的人体动作识别的方法. 背景技术: 人体动作识别,具有着非常广阔的应用前景,如人机交互,视频监控.视频理解等方面.按目前的主流方法,可主 ...
- VALSE学习(十二):视频时序建模和动作识别
VALSE2019 王利民 南京大学 一.基于视频的时序建模和动作识别方法 当前视频行为识别主要是在三种场景: In the Lab In TV,Movies In web videos 视频动作识别 ...
- Temporal Segment Networks for Action Recognition in Videos 用于动作识别的时序分割网络
Temporal Segment Networks for Action Recognition in Videos 用于动作识别的时序分割网络 本文原创,欢迎转载 https://blog.csdn ...
- 基于骨架动作识别的时空图卷积网络
论文来自https://arxiv.org/abs/1801.07455 英语渣渣的阅读和翻译 基于骨架动作识别的时空图卷积网络 摘要:人体骨骼动力学为人类动作识别传达了重要信息.传统方法在骨骼建模上 ...
- 计算机视觉和动作检测,计算机视觉技术深度解读之视频动作识别
来源:雪球App,作者: 我是张康,(https://xueqiu.com/6964725465/135165468) 作者:极链AI研究院 徐宝函 视频的理解与识别是计算机视觉的基础任务之一.随着视 ...
- 基于骨骼的动作识别:PoseConv3D
Revisiting Skeleton-based Action Recognition解读 摘要 1. 简介 2. Related Work 2.1 基于3D-CNN的rgb视频动作识别 2.2 基 ...
- Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读
Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读 Action4D: Online Action Recognition in the Crowd and Clutter 论文链接 ...
最新文章
- 封装的人人网客户端调用接口
- dategurd oracle_Oracle 时间和日期处理
- CSS Grid 网格布局教程
- html select选择事件_用 Java 拿下 HTML 分分钟写个小爬虫
- web端怎么做兼容性测试
- lwip 2.0.3 DNS 域名解析 使用
- 全国计算机汉字录入是什么,什么是汉字录入?
- Ubuntu 16.04 x64 常用软件
- mongo 监听指定语句
- 【cocos2d-x 手游研发小技巧(4)与Android混编实现换“头像图片”】
- mac怎么给python下载库_关于macos:在Python中安装库
- div标签清除float浮动样式方法
- updata pip 报错 TypeError: parse() got an unexpected keyword argument 'transport_encoding'
- Oracle Primavera P6EPPM Mobile/App 安卓移动端分享(长期更新)
- cdrx4自动排版步骤_coreldraw x4怎么排版 coreldraw书册杂志的排版方法 - 电脑常识 - 服务器之家...
- python+selenium,打开浏览器时报selenium.common.exceptions.WebDriverException: Message: 'chromedriver' execut
- 磁盘阵列数据恢复_raid5硬盘离线数据恢复步骤_HP-lefthand存储详解
- 怎么做有内容的二维码?二维码在线制作教程
- 论文查重会查新闻内容吗?
- 【计算机硬件组成】基础知识(必备)
热门文章
- JEPF 软件快速开发平台
- 论文阅读:Coarse to Fine Vertebrae Localization and Segmentation with SpatialConfiguration-Net and U-Net
- myql 查询树形表结果:说说、说说的评论、评论的回复
- tensorflow2.0学习笔记(五)
- 固定电话呼叫转移设置方法
- android代码 IMEI,Android_Android中获取IMEI码的方法,核心代码:Imei = ((TelephonyManager) - phpStudy...
- 2022年山东省中职组“网络安全”赛项比赛任务书-1
- ubuntu与主机ping不通的解决办法(主机检测不到虚拟网卡)
- Hive统计函数总结
- 如何修改论文降低重复率