视频数据集 | 视频动作识别video recognition常用数据集整理

一写在前面
未经允许，不得转载，谢谢~~~
这篇文章主要整理一下视频动作识别领域常用的数据集~~~
大概但不严格按照时间顺序排列。
二视频分类数据集

HMDB51

来源：HMDB: a large human motion database

类型：Action recognition
年份：2011
论文：paper

数据：51种动作类别，6,766个视频片段；
train_info: {video, class}
其他信息：动作又分为面部动作（smile，laugh，chew，talk）；有其他东西配合的面部动作（smoke，eat，drink）；常见的肢体动作（climb，dive，jump）；有其他东西配合的肢体动作（brush hair，catch，draw sword）；人类交互之间的肢体动作（hug，kiss，shake hands）。

HMDB51之前还有很多视频数据集，但是再早一些的基本都不怎么用到了。
2. UCF101

来源： UCF101

类型：Action recognition,sports
年份：2012
论文: paper

数据：101种动作类别，13,320个视频片段；
train_info ：{ video，class}
其他信息: 有兴趣的话看看这个吧~视频数据集UCF101的处理与加载（未使用深度学习框架）

ASLAN

来源：ASLAN:The Action Similarity Labeling dataset

类型：Action recognition, Action Similarity Labeling
年份：2012
论文：paper

数据：432种动作类别，3,697个视频片段；
train_info ：{The id of the first sample，The id of the second sample，The pair label (0/1)，The action label of the first sample，The action label of the second sample}
其他信息: 从1571个视频url中抽取出这3697个视频片段，所以视频的长短不一，有71个小于大于10s的, 187个小于1s的。主要用于判定相似/不相似;

Sports-1M

来源： Sports-1M

类型：Action recognition,sports
年份：2014
论文: paper

数据：487种动作类别，1,100,000个视频片段；
train_info ：

{
“stitle”: “Improving Sprint Start Technique”,
“label487”: [ 205 ],
“thumbnail”: “https://i1.ytimg.com/vi/Drdm1WsRQwA/hqdefault.jpg”,
“width”: 640,
“duration”: 86,
“height”: 360,
“id”: “Drdm1WsRQwA”,
“source487”: “train”
},

FCVID

来源： FCVID

类型：Action recognition,Human activities, scene and objects
年份：2015
论文: paper

数据：239种动作类别，91,223个视频片段；
train_info ：{ video,class}

ActivityNet

来源 ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding

类型：Action recognition,Human activities
年份：2015
论文：paper

数据：包含activityNet-100和activityNet-200两个版本，具体包含的视频信息点击官网直接进去看就好了；
train_info ：

{
5n7NCViB5TU: {
annotations: [
{
label: “Discus throw”, segment: [24.25018, 38.08036]
},
{
label: “Discus throw”, segment: [97.00073, 106.284]
}
],
duration: 121.44,
resolution: “320x240”,
subset: “training”,
url: “https://www.youtube.com/watch?v=5n7NCViB5TU”
}
}

其他信息: 可以关注一直ActivityNet相关的比赛系列。

Youtube-8M

来源：Youtube-8M

类型：Action recognition
年份：2016
论文: paper

数据：4716 种动作类别，8,000,000个视频片段; 2018年最新在原来的版本上移除了一些低质量的视频后的数据集为3862个动作类别，5,600,000个视频片段。
train_info ：{ video，class1，class2…}
其他信息: Youtube-8M是一个多标签分类的数据集。

Charades

来源：Charades

类型：Action recognition, Human activities
年份：2016
论文：paper

数据：157种动作类别，9,848个视频片段； 27847 Free-text descriptions, action intervals, classes of interacted objects
train_info ：video-level：{video vector}，frame-level{id framenumber vector}
其他信息: 既包含video-level的分类，又包含frame-level的分类（localizaition）。且这里也不是简单的单标签，而是用vector表示了在各个类上的一个概率分布情况。

Kinectics:

来源：Kinetics:including a diverse range of human focused actionss

类型：Action recognition
年份：2017
论文：paper

数据：600种动作类别，500,000个视频片段；
train_info: {video, class}
其他信息: 包括多样多样的人类行为，每个视频在10s左右，用单个class标注；整个数据集又分成Kinetics-600和Kinectics-400两个。

来源：AVA

类型：Action recognition, Atomic visual actions
年份：2017
论文：paper

数据：80个原子视觉动作和时空注释，210,000种动作类别，57,600个视频片段；
train_info ：AVA actions: {video_id, middle_frame_timestamp, person_box, action_id, person_id }
其他信息: 注释的视频都是15分钟长的电影视频，除了AVA actions还有一个AVA Spoken Activity Datasets是基于语音信息的。

VLOG

来源：VLOG: From Lifestyle VLOGs to Everyday Interactions:

类型：Action recognition
年份：2017
论文：paper

数据：114，000个视频片段；
train_info ：数据文件下载不了~~

HACS(包含了原来的 SLAC )

来源：HACS:Human Action Clips and Segments Dataset

类型：Action recognition, Action Temporal Localization
年份：2017
论文：paper

数据： 200种动作类别，520,000个视频片段；
train_info ：HACS CLIPS：{classname,youtube_id,subset,start,end,label} ， HACS SEGMENTS直接看例子吧：

    "--0edUL8zmA": {"annotations": [{"label": "Dodgeball","segment": [ 5.4,11.6 ]},{"label": "Dodgeball","segment": [ 12.6, 88.16]}],"duration": "92.166667","subset": "training","url": "https://www.youtube.com/watch?v=--0edUL8zmA"}

其他信息: HACS CLIPS动作识别数据集包含: 1.55M 2-second clips on 504K videos，动作分段数据集包含: 140K complete segments on 50K videos; HACS SEGMENTS动作分割数据集变成了一个新的时序定位Temporal Localization benchmark。

20BN-SOMETHING-SOMETHING

来源 : 20BN-SOMETHING-SOMETHING

类型：Action recognition,Human activities
年份：2017
论文: paper

数据：174种动作类别，108,499个视频片段，新的版本动作不变，视频片段已经增加到220,847个；
train_info ：

{“id”:“190776”,“label”:“dropping compass tool onto box”,“template”:“Dropping [something] onto [something]”,“placeholders”:[“compass tool”,“box”]}

其他信息: 这个数据集主要关注动作之间的联系，例如：‘Putting something on a surface，Moving something down’

Moments in Time

来源：Moments in Time: A large-scale dataset for recognizing and understanding action in videos

类型：Action recognition
年份：2017
论文：paper

数据：339种动作类别，1,000,000个视频片段；
train_info ：{video，class}
其他信息: 100万时长为3秒的视频片段，包括人、动物、物体或自然现象。专注动作本身，例如opening，张开嘴巴，开门，开花都属于opening这个动作本身。

作者：与阳光共进早餐
链接：https://www.jianshu.com/p/a4cc71126796
來源：简书
简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。

视频数据集 | 视频动作识别video recognition常用数据集整理相关推荐

基于C3D网络的视频分析与动作识别
卷积神经网络(CNN)被广泛应用于计算机视觉中,包括分类.检测.分割等任务.这些任务一般都是针对图像进行的,使用的是二维卷积(即卷积核的维度为二维).而对于基于视频分析的问题,2D convoluti ...
详细的视频追踪检测分类、监控追踪常用数据集
大量的视频和路面实况. http://imagelab.ing.unimore.it/visor/ 3D Photography Dataset http://www-cvr.ai.uiuc.edu/ ...
人体动作识别、预测常用骨架数据集小结
目录 NTU RGB D 60 数据集简介评估方式 SYSU 3D HOI 数据集简介评估约定数据分析 CMU 其他说明 NTU RGB D 60 数据集简介包含了由微软Kinect v2从三 ...
视频追踪检测分类、监控追踪常用数据集
大量的视频和路面实况. http://imagelab.ing.unimore.it/visor/ 3D Photography Dataset http://www-cvr.ai.uiuc.edu/ ...
视频超分、图像超分常用数据集Vimeo90K的下载及处理
vimeo90k数据集下载链接: http://toflow.csail.mit.edu/ 下载时点击最下方的训练集测试集一起下载即可,共计82G.数据集中已经划分了训练集和测试集,并给出了划分的tx ...
用tsm动作识别训练自己的数据集
1.准备数据类似ucf101数据集格式 1.1生成class.txt train.txt test.txt #makelabel.py import os #图片数据集路径 baseDir = &q ...
记录之最近阅读的动作识别(action recognition)工作
介绍: 其中C3D是3d卷积的比较有意义的开端,I3d在C3D之后做了一系列研究,包括引入双流网络,和LSTM网络,并使用已经训练好的2D图像分类模型的参数维数扩充后用做3D网络的预训练模型.S3D是 ...
CVPR2019 | 论文之行为/动作识别、手势识别、时序动作检测及视频相关
CVPR2019 | 论文之行为/动作识别.手势识别.时序动作检测及视频相关行为/动作识别.手势识别 1.An Attention Enhanced Graph Convolutional LSTM ...
动作识别、检测、分割、解析相关数据集介绍
文章目录动作识别 UCF101(UCF101 Human Actions dataset) Kinetics (Kinetics Human Action Video Dataset) 动作检测 / ...

视频数据集 | 视频动作识别video recognition常用数据集整理

视频数据集 | 视频动作识别video recognition常用数据集整理相关推荐

最新文章

热门文章