深度学习视频数据集（动作识别）：UCF-101

UCF-101

官网：https://www.crcv.ucf.edu/research/data-sets/ucf101/

网盘：链接：https://pan.baidu.com/s/1RsJuykWyUlQ4_c1TwqxR_Q
提取码：909g

官方解释

UCF101是一个现实动作视频的动作识别数据集，收集自YouTube，提供了来自101个动作类别的13320个视频。

该数据集是UCF50数据集的扩展，UCF50数据集有50个动作类别。

UCF101在动作方面提供了最大的多样性，并且在摄像机运动、对象外观和姿态、对象规模、视点、杂乱的背景、照明条件等方面有很大的变化。

101个动作类别中的视频被分成25组，每组可以包含一个动作的4-7个视频。同一组的视频可能有一些共同的特点，比如相似的背景，相似的观点等等。

包括5大类动作：

人与物体交互
单纯的肢体动作
人与人交互
演奏乐器
体育运动

这些类别有：

化眼妆、涂唇膏、射箭、婴儿爬行、平衡木、乐队游行、棒球、打篮球、扣篮、卧推、骑自行车、台球、吹干头发、吹蜡烛、下蹲、保龄球、拳击、出气筒、蛙泳、刷牙、挺举、悬崖跳水、保龄球、板球、潜水、打鼓、击剑、曲棍球、体操、飞盘、爬泳、高尔夫挥杆、理发、扔链球、锤击、倒立俯卧撑…

注意:在训练和测试时，将属于同一组的视频分开是非常重要的。由于一组视频是由单个的长视频获得的，因此在训练和测试集中共享同一组的视频会获得较高的性能。

101个动作：

总时长与平均时长：

时长频次：

Summary

数据集名称：UCF-101（2012）
总视频数：13,320个视频
总时长：27个小时
视频来源：YouTube采集
视频类别：101 种
主要包括5大类动作：人与物体交互，单纯的肢体动作，人与人交互，演奏乐器，体育运动
每个类别（文件夹）分为25组，每组4~7个短视频，每个视频时长不等

Notice

解压后就是分类数据集的标准目录格式，二级目录名为人类活动类别，二级目录下就是对应的视频数据。

每个短视频时长不等（零到十几秒都有），大小320*240，帧率不固定，一般为25帧或29帧，一个视频中只包含一类人类行为。

预处理时需要将UCF101中的视频保持结构不变逐帧分解为图像。

相同的活动下，有不同的视频是截取自同一个长视频的片段，即视频中的人物和背景等特征基本相似。

1中的视频保持结构不变逐帧分解为图像。

相同的活动下，有不同的视频是截取自同一个长视频的片段，即视频中的人物和背景等特征基本相似。

因此为了避免此类视频被分别划分到train和test集合引起训练效果不合实际而精度过高，UCF提供了标准的train和test集合检索文件，有三种数据集划分方案，C3D论文中选择的方案是第三种。