行为识别之slowfast
简述
行为识别与目标检测很相似。如果说目标检测是对静态图片提取特征最终进行检测,那行为识别就是对视频连续的帧进行检测,检测的对象主要为人为设定好的各种行为动作。
Slowfast要提取的特征为环境特征与动作特征,环境特征即视频图片中的背景,动作特征顾名思义即视频中人物的动作。slowfast的基本思想便是:如何提取视频中的环境特征与动作特征,并对两者进行融合。
网络架构
Slowfast的网络分两部分,一部分提取环境特征,一部分提取动作特征,每一部分都是取相同间隔的帧输入网络。在一段视频中,环境特征大多并不会发生太大变化,因此该部分的网络取帧的间隔会大一些,也就是输入网络的数据会少一些;而在一段视频中人的动作是时刻都在发生变化的,所以该部分的网络取帧的间隔得小一些,也就是输入网络的数据要多一些。
我们可以知道,提取环境特征取帧的间隔较大,对环境特征的提取更多是基于单张图片,因此提取环境特征时需要较多的特征图,以提取较为详细的特征;提取动作特征时取帧间隔较小,对动作信息的提取以及动作的预测更多是基于连续的图片,而不是单张图片,因此提取动作特征时需要较少的特征图,这能够使得在保证一定精度的同时还能减少计算量。
分别提取完动作和环境的特征后,还得将动作特征给融入环境特征,这样的操作得进行好几步,最终便可实现对于行为的识别。
特征融合
环境特征与动作特征最终得到的特征图在维度上的差异可能会使得它们无法进行拼接,这里的差异主要在于输出特征图的帧数这个维度有差异,也就是图中的T维度,这个时候就需要对特征图进行处理,论文中给出了以下三种做法:
①直接reshape;②截取部分帧;③3D卷积。
论文中采取的办法是再进行一个3D卷积然后再在帧数这个维度上进行拼接。
行为识别之slowfast相关推荐
- 行为识别框架Slowfast解读
SlowFast使用了一个慢速高分辨率CNN(Slow通道)来分析视频中的静态内容(环境),同时使用一个快速低分辨率CNN(Fast通道)来分析视频中的动态内容(动作). 为了更好的提取slow分支特 ...
- 人体行为识别:SlowFast Networks for Video Recognition
参考文献:https://arxiv.org/abs/1812.03982 代码实现:https://github.com/facebookresearch/SlowFast SlowFast Net ...
- 论文盘点:ICCV 2019 Top 20,MobileNetV3居首!
ICCV 是计算机视觉领域三大顶会之一,往届都是奇数年开(与此对应ECCV 在偶数年开,CVPR 每年都开),ICCV 2019 于 2019年10月27日-11月2日召开,距今不足一年. 继盘点CV ...
- Facebook 开源 SlowFast:基于双帧速率分治轻量视频识别模型
近日,Facebook AI 宣布开源 SlowFast,一个在 CVPR 2019 上的 AVA 视频检测挑战赛中排名第一所用的模型.这一开源旨在进一步提高系统识别与分类视频内容的能力,并改善视频个 ...
- Facebook何恺明团队提出SlowFast网络,视频识别无需预训练
Facebook FAIR 何恺明团队提出了用于视频识别的SlowFast网络.该网络通过两条路径以不同的时间率(快和慢)进行视频识别.在没有预训练的情况下,在Kinetics数据集上的准确率达到了7 ...
- 动作识别0-10:mmaction2(SlowFast)-源码无死角解析(6)-模型构建总览
以下链接是个人关于mmaction2(SlowFast-动作识别) 所有见解,如有错误欢迎大家指出,我会第一时间纠正.有兴趣的朋友可以加微信:17575010159 相互讨论技术.若是帮助到了你什么, ...
- 【行为识别】TSN/TRN/TSM/SlowFast/Non-local
前言 记录视频理解领域的几篇文章吧,由于每篇值得记录的东西不多,所以合在一起. 关于开源框架,有港中文多媒体实验室的MMAction.有设备的就尽量多跑跑模型吧 视频相对于静态图像多了时间维度.静态图 ...
- Win10配置SlowFast全过程并使用slowfast进行视频行为识别检测
SlowFast在Windows10环境配置全过程并使用自己的视频进行demo检测 环境简介 1. 开始配置 2.配置demo环境 3. 测试结果 环境简介 pycharm python=3.7.11 ...
- MMIT冠军方案 | 用于行为识别的时间交错网络,商汤公开视频理解代码库
作者 | 商汤 出品 | AI科技大本营(ID:rgznai100) 本文主要介绍三个部分: 一个高效的SOTA视频特征提取网络TIN,发表于AAAI2020 ICCV19 MMIT多标签视频理解竞赛 ...
最新文章
- 重读TCP协议(3)
- linux启动时间极限优化,Linux启动时间的极限优化
- 前端面试8:渲染机制
- 转载:Linux 的系统服务及其配置(略有修改)
- 深入JavaScript与.NET Framework中的日期时间(1):基本概念与概述
- leetcode 284. Peeking Iterator | 284. 顶端迭代器(给 iterator 添加 peek 方法)
- python可视化使用_python可视化pyecharts
- 计算机网络概述的功能 组成,计算机网络的概述
- 一个防御SQL注入攻击需要注意的问题
- html代码中font是什么意思,HTML元素font标签的使用方法及作用
- 和女性交往的一些经验总结
- 解决IOS播放器KxMovie播放音频卡顿的问题
- 分析 | 高通骁龙845已发布,明年智能手机会变成什么样
- Precision、Recall、F1-score、Micro-F1、Macro-F1、Recall@K
- 双极性正弦脉冲宽度调制
- Android隐藏软键盘
- 最短路径算法正确性和操作性闲杂谈-DijkstraFloyd算法
- 计算机中的英语六级作文万能模板,六级作文通用万能模板
- 利用MTurk和Qualtrics发放问卷与数据分析,设置survey code,使用vlookup或python合并csv文件
- 使用map_server保存并使用已有地图