任务说明(截取视频行为分类)

对视频中人的行为动作进行识别,即读懂视频。

Hand gesture:集中于处理视频片段中单人的手势
Action:短时间的行为动作,场景往往是短视频片段的单人行为
Activity:持续时间较长的行为,场景往往是较长视频中的单人或多人行为
Classification:给定预先裁剪好的视频片段,预测其所属的行为类别
Detection:视频是未经过裁剪的,需要先进行人的检测 where 和行为定位(分析行为的始末时间)when,再进行行为的分类 what。

行为识别 Action Recignition 可能是 Hand gesture/Action/Activity 和 Classification/Detection 任意组合情况。但是通常所说的行为识别更偏向于对时域预先分割好的序列进行行为动作的分类,即 Trimmed Video Action Classification。

数据集(RGB)

1.UCF-101

说明:UCF101 是一个从 YouTube 收集的真实动作视频的动作识别数据集,具有 101 个动作类别。该数据集是具有 50 个动作类别的 UCF50 数据集的扩展。UCF101 拥有来自 101 个动作类别的 13320 个视频,在动作方面具有最大的多样性,并且在相机运动、物体外观和姿态、物体尺度、视点、杂乱背景、照明条件等方面存在较大变化,是迄今为止最具挑战性的数据集。由于大多数可用的动作识别数据集都不是真实的,并且是由演员表演的,UCF101 旨在通过学习和探索新的真实动作类别来鼓励对动作识别的进一步研究。101 个动作类别中的视频被分为 25 组,其中每组可以由 4-7 个动作视频组成。来自同一组的视频可能具有一些共同的特征,例如相似的背景、相似的视点等。

下载地址:UCF101 - Action Recognition Data Set

2.HMDB-51


说明:从各种来源收集的 HMDB,主要来自电影,还有一小部分来自公共数据库,如 Prelinger 档案、YouTube 和谷歌视频。数据集包含 6849 个剪辑,分为 51 个动作类别,每个类别至少包含 101 个剪辑。操作类别可分为五种类型:

1. 一般面部动作微笑、大笑、咀嚼、交谈。
2. 面部动作与物体操纵:抽烟、吃饭、喝酒。
3. 一般身体动作:侧身、拍手、攀爬、爬楼梯、跳水、摔倒在地、反手翻转、倒立、跳跃、引体向上、俯卧撑、跑步、坐下、仰卧起坐、翻筋斗、站起来、转身、走路、挥手。
4. 与物体互动的身体动作:刷头发、接球、拔剑、运球、高尔夫、击球、踢球、挑球、倒球、推东西、骑自行车、骑马、投篮、射箭、射箭、挥杆、挥杆棒球、剑练习、投掷
5. 人体互动的身体动作:击剑、拥抱、踢某人、亲吻、拳击、握手、剑击。

下载地址:HMDB: a large human motion database

3.Kinetics-700

说明:根据数据集版本,包含多达 650000 个视频片段的大规模高质量 URL 链接数据集,涵盖 400/600/700 个人类动作类。视频包括乐器演奏等人与物的互动,以及握手和拥抱等人与人的互动。每个动作类至少有 400/600/700 个视频剪辑。每个剪辑都是人类注释的一个动作类,持续约 10 秒。

下载地址:Kinetics 700-2020

4.Moments in Time(339)

说明:该数据集包括 100 万个标记为 3 秒的视频,涉及人、动物、物体或自然现象,这些视频捕捉了动态场景的要点。

下载地址:Moments in Time(339)

方法(基于深度学习的视频时空特征分析)

1.TwoStream

TwoStream 将动作识别中的特征提取分为两个分支,一个是 RGB 分支提取空间特征,另一个是光流分支提取时间上的光流特征,最后结合两种特征进行动作识别,代表性方法如 TwoStreamCNN 及其扩展,TSN,TRN 等。
TwoStreamCNN:Two-stream convolutional networks for action recognition in videos. In NIPS 2014
TSN:Temporal segment networks: Towards good practices for deep action recognition. ECCV 2016
TRN:emporal Relational Reasoning in Videos. ECCV2018
SlowFast:SlowFast Networks for Video Recognition. ICCV2019

2.C3D

3D convolution 直接将 2D 卷积扩展到 3D(添加了时间维度),直接提取包含时间和空间两方面的特征,这一类也是目前做的比较多的 topic。代表方法如开山之作 C3D 及其之后的扩展 P3D,R (2+1) D,ECO 等,最近 FAIR 提出了 SlowFast 算法,CVPR2019 上也有相关的论文(比如 MARS) 。
C3D 开篇之作:Learning spatiotemporal features with 3d convolutional networks. ICCV2015
P3D:Learning spatio-temporal representation with pseudo-3d residual networks. In ICCV2017
R(2+1)D:A Closer Look at Spatiotemporal Convolutions for Action Recognition. CVPR2018
ECO:Efficient Convolutional Network for Online Video Understanding. ECCV2018
MARS:Motion-Augmented RGB Stream for Action Recognition.CVPR2019

3.LSTM

这种方法通常使用 CNN 提取空间特征,使用 RNN(如 LSTM)提取时序特征,进行行为识别。代表方法如 CVPR2015 的 LRCN。

领域难点

1.严重依赖物体和场景

算法就越来越偏向用物体和场景来识别,始终没有切入到 “动作” 这个东西本身,而是绕开人的 bounding box 做事情

2.光流的问题:长度和语义

光流现在是视频动作里面不可或缺的信息,第一是很难去描述长时间的动作,第二光流本身的意义也不是完全明确

3.CNN特征提取问题

很擅长获取物体和场景的信息,它自己也会突出自己擅长的部分,投机取巧,把动作识别往物体和场景上压的。

行为识别(Action Recognition)初探相关推荐

  1. 记录 之 最近阅读的动作识别(action recognition)工作

    介绍: 其中C3D是3d卷积的比较有意义的开端,I3d在C3D之后做了一系列研究,包括引入双流网络,和LSTM网络,并使用已经训练好的2D图像分类模型的参数维数扩充后用做3D网络的预训练模型.S3D是 ...

  2. 深度学习-视频行为识别:论文阅读——双流网络(Two-stream convolutional networks for action recognition in videos)

    这里写目录标题 视频的行为识别 前言 背景 内容组成 主要贡献 算法介绍 网络结构 双流(two stream)网络结构 空间流卷积网络(Spatial stream ConvNet) 时间流卷积网络 ...

  3. 视频动作识别--Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

    Temporal Segment Networks: Towards Good Practices for Deep Action Recognition ECCV2016 https://githu ...

  4. 视频动作识别--Convolutional Two-Stream Network Fusion for Video Action Recognition

    Convolutional Two-Stream Network Fusion for Video Action Recognition CVPR2016 http://www.robots.ox.a ...

  5. 视频动作识别--Two-Stream Convolutional Networks for Action Recognition in Videos

    Two-Stream Convolutional Networks for Action Recognition in Videos NIPS2014 http://www.robots.ox.ac. ...

  6. 视频人员行为识别(Action Recognition)

    一. 提出背景 目标:给定一段视频,通过分析,得到里面人员的动作行为. 问题:可以定义为一个分类问题,通过对预定的样本进行分类训练,解决一个输入视频的多分类问题. 这里提出的问题是简单的图片(视频)分 ...

  7. 视频时序动作识别(video action recognition)介绍

    一.视频时序动作识别算法分类 根据网络的工作方式,可以将视频时序动作识别算法大致分为四大类: 采用2D卷积的方法 采用3D卷积的方法 双流法 引入VLAD的方法 1.1 采用2D卷积的方法 <T ...

  8. Action Recognition(行为识别)

    随着深度学习技术的发展,以及计算能力的进步(GPU等),现在基于视频的研究领域越来越受到重视.视频与图片最大的不同在于视频还包含了时序上的信息,此外需要的计算量通常也大很多.目前主要在做视频中动作定位 ...

  9. 论文解读4 STRM《Spatio-temporal Relation Modeling for Few-shot Action Recognition》少镜头动作识别 CVPR2022

    Spatio-temporal Relation Modeling for Few-shot Action Recognition 少镜头动作识别的时空关系建模 文章链接:https://arxiv. ...

最新文章

  1. Git config 查看和设置配置信息
  2. 干货!华为AutoML助力AI开发效率提升攻略
  3. 算法试题 - 找出字符流中第一个不重复的元素
  4. 共享内存中使用指针_详解c++中字符指针数组的使用
  5. 【python】pycharm启动 一直index,无法运行
  6. 再想想-----***
  7. deepnude | 福利
  8. PS网页设计教程——小贴士:在PS中创建复古的页面
  9. 《延世大学韩国语教程2》第二十课 办公室(上)
  10. C++调用 Json解析与处理库
  11. js 获取当天时间,实现展示包含今天的一周时间的方法
  12. 安装SQL server需要重启计算机,解决安装sql server 需要重启问题
  13. 马克思《数学手稿》是“民科”作品吗?
  14. Problem E: 求方程ax^2+bx+c=0的实数根
  15. 国内外主要的PHP开源CMS系统分析
  16. C/C++去小数位取整、向下取整、向上取整与四舍五入
  17. php连接mysql错误:Call to undefined function mysql_connect()
  18. Joinquant 指数10大持仓等比买入
  19. 74ls20设计半加器_模拟数字电子技术实验指导及实验室规划方案,上海求育
  20. 天天拍车:2018年度个人卖车大数据报告

热门文章

  1. Prometheus 之 Alertmanager告警抑制与静默
  2. MSSQL SERVER中出现服务器MSDTC不可用的解决方法
  3. OR-Tools:一个用于优化的开源软件 -0-简介与安装
  4. 分享 Python 教学视频,从基础到爬虫、网页、数据分析、机器学习.....
  5. 无源互调分析仪PIM Analyzer原理及应用
  6. 活动报名 | 中科院信工所陈恺:人工智能安全攻防对抗
  7. 【踩坑】iOS 状态栏没显示问题
  8. C语言 if语句详解
  9. Kiva(亚马逊)机器人介绍
  10. 故障发散-Recv-Q阻塞