↑↑↑↑↑点击上方蓝色字关注我们!



『运筹OR帷幄』原创

作者:周岩

编者按:动作识别的研究主要基于对视频数据的识别,其中主要包含动作识别(如手势识别,运动识别等),目标识别和姿态预测几个子方向。所有这些方向的研究都离不开有代表性的视频数据。不同于图像识别领域有MNIST和ImageNet等十分成熟常用的数据集,动作识别领域的数据集比较有限,而且通常所占用的硬盘空间比较大,因此在开展相关研究之前,仔细选择一个合适的数据集显得十分必要。

动作识别(Action Recognition)是最近计算机视觉领域比较火的一个Topic,近年来有越来越多的相关文章出现在CVPR、ICCV和NIPS等机器学习和计算机视觉顶会上。这里就有一个Github的repo(https://github.com/jinwchoi/awesome-action-recognition)总结和整理了动作识别领域的相关研究工作和数据资源。

动作识别的研究主要基于对视频数据的识别,其中主要包含动作识别(如手势识别,运动识别等),目标识别和姿态预测几个子方向。所有这些方向的研究都离不开有代表性的视频数据。不同于图像识别领域有MNIST和ImageNet等十分成熟常用的数据集,动作识别领域的数据集比较有限,而且通常所占用的硬盘空间比较大,因此在开展相关研究之前,仔细选择一个合适的数据集显得十分必要。

获取对自己研究合适的视频数据集可能需要花大量的带宽资源和硬盘资源下载,本文就动作识别领域目前有的公开数据集进行了深入研究,详细了介绍了一下各个数据集的特点,读者可以在本文的帮助下,根据自身的需要选择合适的数据集下载。

1、经典数据集

  • KTH(http://www.nada.kth.se/cvap/actions/):

经典的动作识别数据集,也是目前文章中使用率较高的数据集之一。数据集一共包含2391组数据,其中包含6个动作,每个动作由25个人物在4个不同的场景下完成,因此一共有600个视频序列,每个视频又可以分割成4个子序列。KTH数据集的动作比较规范,同时采用固定镜头,数量对于目前的模型训练来说也比较丰富,所以对应单纯进行动作识别的任务可以说是非常好用的数据集了。同时,KTH在GitHub的处理的开源程序有很多,可以随时根据自己的需要进行参考。

  • Weizmann(http://www.wisdom.weizmann.ac.il/~vision/SpaceTimeActions.html):

另一组比较经典的数据集,数据同样是固定镜头下的10个典型动作的视频,同时数据集提供了一些带有其他物体的动作作为干扰,可以测试模型的鲁棒性。

官方同时提供了去除背景的程序,但是数据集的数据量比较少的90组常规数据和21组鲁棒测试数据,对于目前的模型训练来说显得有些不足,不过对于本来就需要用小数据的模型比如迁移学习或者One-short Learning来说或许是适合的数据集。

  • Inria XMAS(http://4drepository.inrialpes.fr/public/viewgroup/6):

    这组数据主要提供了同一个动作在多组镜头角度下的视频数据,可以说是简单的动态背景。数据集提供了11名演员每人3次的13个日常动作,演员们自由选择位置和方向。这个数据集的下载比较特殊,需要通过wget来下载。

  • UCF sports action dataset( https://www.crcv.ucf.edu/data/UCF_Sports_Action.php):

一个主要关于运动的数据集,这个数据集也是质量比较高的数据集,主要为13个常规的运动动作。但是美中不足的同样是每种数据的数量都比较少,不过这个数据集出了一些后续的数据集比如UCF-50(http://crcv.ucf.edu/data/UCF50.php)和UCF-101(http://crcv.ucf.edu/data/UCF101.php)等。

  • Hollywood human action dataset.(https://www.di.ens.fr/~laptev/actions/):

根据好莱坞电影镜头剪辑出来的数据集,这个数据集包含475个视频,数据量上有一定的保证,但是这个数据集有个特点就是电影镜头往往不是单一的动作,而且很多动作同时混合在一起,同时背景由于镜头切换会有非连续的情况出现,或许这样的情况会对模型的训练造成影响。另外这组数据还在后续提供了更大数据量的数据集:https://www.di.ens.fr/~laptev/actions/hollywood2/。

总结:以上就是对经典数据集的介绍,经典数据集的数据量普遍比较少,而且场景也相对简单,而且提出的时间通常在2000前后,视频的分辨率也普遍偏低,更详细的介绍可以参考2014年的一篇综述文章:A survey on vision-based human action recognition。

2、中等规模的数据集

  • HMDB(http://serre-lab.clps.brown.edu/resource/hmdb-a-large-human-motion-database/#Downloads):

这个数据集一共有51个类别,平均每个类别有100-200组数据。从数据量和类别上来看可以看到是具有比较丰富的数据的,但是这个数据集也是由一些电影镜头和日常的摄像机拍摄的视频为主,所以背景相对复杂,同样有动态镜头和切换镜头的视频。因此这个数据集更适合目标识别和目标检测。

  • SVW(http://cvlab.cse.msu.edu/project-svw.html ):这个数据集的特点是适合多种形式的任务,可以作为目标检测也可以作为动作识别。目前这个数据官方提供了matlab程序来分割视频(不过亲身实践后发现程序有一些bug需要调试),数据集一共包含30个种类的数据,经过分割后会有更多的类别可供动作识别来用。这个数据的背景也有一些是移动状态下的,但是总体来说对于识别是中等规模数据集中比较合适的。

总结:中等规模的数据集普遍具有相对与经典数据集更多的数据量,而且在类别上也更多,这也体现了随着计算规模的发展,可以建立的预测模型越来越复杂,可以处理更复杂的任务。

3、适用于深度学习的大规模数据集

  • ActivityNet(https://github.com/activitynet):Google在2016年出品的数据集,数据的来源主要是Youtube,带有很强的深度学习背景,数据量很大,需要通过官方提供的程序自行下载,官网提供的数据仅为数据的Youtube地址。由于数据主要来源于Youtube,所以这个数据集相对更复杂,更适合目标检测。但是通过动作检测提取后的数据更适合动作识别数据集。

  • 20BN-jester(https://20bn.com/datasets/jester/v1#download):手势识别数据集,视频的背景比较固定,动作也更单纯,所以更适合直接应用与动作识别。同时,数据量和类别也很充足,更值得一提的是,数据是以jpeg存储的,所以在读取数据时甚至可以不通过OpenCV这样的框架就可以处理数据。另外,网站还提供了基于物体的动作识别,这两组数据对于实际的应用场景会更有意义。

  • NTU RGB+D(http://rose1.ntu.edu.sg/datasets/actionrecognition.asp):

该数据集提供了丰富的数据量,并且视频的背景相对固定,很适合进行动作识别,同时数据的特点是同时提供了RGB,深度和骨骼视频。数据集的全部数据高达1.3TB,并且后续有更丰富的数据集提供("NTU RGB+D 120"),但是这个数据的下载需要通过网站申请账号,但是一天之内会有回复(仔细填写一般都可以通过)。

总结:大规模数据集的特点主要是数据量比较大,类别也更多,并且网站上普遍不能提供直接的下载,而是通过提供类似爬虫程序的方式下载。这类数据主要以近3-5年出现的数据集为主数据的大小普遍在GB甚至TB级,需要用深度模型和更强算力的机器来建立模型处理。

4、特定场景的数据集

以上都是一些比较有名的开源数据集,常常用来做算法的benchmark。那么针对一些实际的应用场景,我们往往还需要一些特殊的数据集。这样的小众数据集有很多,我们不一一来收集做介绍,这里只是举例介绍其中的一个。

Distracted Driver Detection是一个司机状态检测数据集,包含10个状态,共22425张图 。大小4G。(数据文末回复关键词可见)

数据集地址:

https//www.kaggle.com/c/state-farm-distracted-driver-detection/data

每年很多的交通事故的发生都是因为司机没有专注于自动驾驶,因此一个好的辅助驾驶系统不仅要关注车外的情况,也要时刻关注车内驾驶员的情况。

这一个数据集来自kaggle平台,包含了10种状态,如下:

c0:safe driving

c1:texting-right

c2:talking on the phone-right

c3:texting-left

c4:talking on the phone-left

c5:operating the ratio

c6:drinking

c7:reaching behind

c8:hair and makeup

c9:talking on passenger

一些样本如下,每一类约2000多张图像,共22425张图。

  

最后总结:

这篇文章主要对动作识别领域的一部分数据集做了一些基本的介绍和探讨,很多数据也没有实际的处理和应用,所以并不够深入,但是也希望这篇文章能起到一个抛砖引玉的作用,更详细的介绍可以直接去数据集的官网阅读说明并下载研究。如何组织好自己的数据为算法提供支撑是做研究的关键一步,最后小编希望大家可以通过这些数据做出更精彩的成果。

文章申明

文章作者:周岩

责任编辑:周岩,贯军

微信编辑:葡萄

文章由『运筹OR帷幄』原创发布

备注:公众号菜单包含了整理了一本AI小抄非常适合在通勤路上用学习

往期精彩回顾那些年做的学术公益-你不是一个人在战斗适合初学者入门人工智能的路线及资料下载机器学习在线手册深度学习在线手册AI基础下载(第一部分)备注:加入本站微信群或者qq群,请回复“加群”加入知识星球(4500+用户,ID:92416895),请回复“知识星球”

喜欢文章,点个在看

推荐一些动作识别数据集相关推荐

  1. 四个动作识别数据集的简介

    1.UT-Interaction数据集 包含6类人与人交互的视频:挥手,指向,拥抱,推,踢和用拳猛击.总共有20个视频序列的长度约为1分钟.每个视频每个交互至少包含一次执行,为每个视频平均提供8次人类 ...

  2. NTU RGB+D动作识别数据集

    GitHub:基于3D骨架数据的双流卷积网络动作识别算法 数据集下载:3D骨架数据(60+60)类 NTU RGB + D动作识别数据集由56,880个动作样本组成,包含每个样本的RGB视频,深度图序 ...

  3. 数据推荐 | 人体行为识别数据集

    人体行为识别任务旨在通过对人体姿态进行分析,识别出人体的具体动作,为人体行为预测.突发事件处理.智能健身.智能看护等领域提供技术支持. 人体行为识别数据标注方式 人体行为数据通用的标注方式包括人体关键 ...

  4. 人类动作识别数据集AVA

    原文地址:https://research.googleblog.com/2017/10/announcing-ava-finely-labeled-video.html 视频人类动作识别是计算机视觉 ...

  5. 骨骼的动作识别数据集_[骨架动作识别]数据集

    NTU-RGBD CVPR2016 总共大约有56000个视频,60类动作,50类是单人动作,10类是双人交互动作.每个人捕捉了25个关节点.数据集有两种分割方式,cross subject 和cro ...

  6. 谷歌发布人类动作识别数据集AVA,精确标注多人动作

    选自Google Research 机器之心编译 参与:路雪 视频人类动作识别是计算机视觉领域中的一个基础问题,但也具备较大的挑战性.现有的数据集不包含多人不同动作的复杂场景标注数据,今日谷歌发布了精 ...

  7. [骨架动作识别]数据集

    NTU-RGBD CVPR2016 总共大约有56000个视频,60类动作,50类是单人动作,10类是双人交互动作.每个人捕捉了25个关节点.数据集有两种分割方式,cross subject 和cro ...

  8. 骨骼的动作识别数据集_基于骨骼数据的人体行为识别

    基于骨骼数据的人体行为识别 摘要 人体动作姿态识别是计算机视觉研究领域中最具挑战的研究方向,是当前的研究热点. 对人体动作姿态进行自动识别将带来一种全新的交互方式, 通过身体语言即人体的姿态和动 作来 ...

  9. 视频数据集 | 视频动作识别video recognition常用数据集整理

    一 写在前面 未经允许,不得转载,谢谢~~~ 这篇文章主要整理一下视频动作识别领域常用的数据集~~~ 大概但不严格按照时间顺序排列. 二 视频分类数据集 HMDB51 来源:HMDB: a large ...

最新文章

  1. Unity完全学习教程-从初学者到C#中的RPG游戏开发
  2. 关于android分辨率和使用iphone版切图
  3. mysql 数据范围总结
  4. 摩拜联合微信全国免押金骑行 这样的CP组合可以多来一点
  5. Java多线程,实现卖电影票的业务
  6. 计算机在线平方,完全平方数批量判断在线计算器_三贝计算网_23bei.com
  7. 大学哪些专业要学python_非计算机专业的大学生是否有必要学习Python编程
  8. oracle 10g/11g 命令对照,日志文件夹对照
  9. win8经典开始菜单计算机,Win8.1/win8开始菜单工具大盘点
  10. 「搬文工」Mac Finder 右键快速新建、复制、移动文件工具
  11. echo输出大花括号 php_PHP的echo输出内容过多会很慢
  12. python如何实现单例模式_用Python实现设计模式——单例模式
  13. 计算机程序配置不正确 请联系我们,电脑应用程序配置不正确怎么办
  14. 微信 分享领券 php,微信卡券货架显示已领取
  15. 更改itunes备份路径【windows备份iphone数据】
  16. WebRTC源码下载与编译
  17. 2021计算机考研科目时间表,2021计算机考研科目408有哪些?
  18. C++ STL容器详解
  19. 将iPhone照片导出、iCloud照片备份到电脑的方法
  20. 夏普中国否认出售电视业务:中国市场是核心阵地

热门文章

  1. 使用装饰器配置路由的
  2. Letters Removing CodeForces - 899F (线段树维护序列)
  3. 移动端不利用HTML5和echarts开发一样可以实现大数据展示及炫酷统计系统(产品技术综合)...
  4. 【MAVEN】如何在Eclipse中创建MAVEN项目
  5. vc6.0转vs2005中字符串的问题
  6. Hibernate中常用对象、方法、属性的理解
  7. A watermeten 《Before an Exam》
  8. wall poj 1113
  9. CodeSmith使用笔记
  10. apache php隐藏头信息的方法,科技常识:nginx/apache/php隐藏http头部版本信息的实现方法...