2D与3D人体姿态估计数据集（统计）

图像级2D单人数据集
- Leeds Sports Pose (LSP) Dataset
- Frames Labeled in Cinema (FLIC) Dataset
- MPII Dataset
图像级2D多人数据集
- Microsoft Common Objects in COntext (MSCOCO) Dataset
- AI-Challenger Dataset
- CrowdPose Dataset
视频级2D单人数据集
- J-HMDB Dataset
- Penn Action Dataset
视频级2D多人数据集
- PoseTrack Dataset
- Human-in-Events (HiEve) Dataset
3D单人数据集
- Human3.6M
- HumanEva-I
- MPI-INF-3DHP
- MoVi
- SURREAL Dataset
- AMASS
3D多人数据集
- 3DPW
- CMU Panoptic Dataset
- Joint Track Auto (JTA) Dataset

相关数据集的快速发展促进了基于深度学习的姿态估计方法的发展。公共数据集为不同的方法提供了培训来源和公平的比较。考虑到数据集的规模和姿势和场景的多样性，在本文中，主要介绍了近年来的代表性数据集。它们中大多数都是高质量和大规模的数据集，在不同的拍摄场景中都有良好的注释。

图像级2D单人数据集

Leeds Sports Pose (LSP) Dataset

Leeds Sports Pose (LSP) Dataset(LSP)是从Flickr使用八项运动活动（田径、羽毛球、棒球、体操、跑酷、足球、网球和排球）的标签收集的。该数据集包含2000张图像，其中1000张图像用于训练，其余1000张图像用于测试。每个人都由全身的14个关键点进行标记。与那些新发布的数据集相比，LSP的规模相对较小。它是对单人姿态估计方法的初始性能评估。

S. Johnson and M. Everingham, “Clustered pose and nonlinear appearance models for human pose estimation.” in BMVC, 2010.

Frames Labeled in Cinema (FLIC) Dataset

Frames Labeled in Cinema (FLIC) Dataset包含从好莱坞电影中收集的5003张图像。他们每在30部电影的第十帧上运行一次人体探测器[L. Bourdev等人的研究]。最初，2万名候选人是由众包市场亚马逊机械土耳其有10个上半身关键点。患者被遮挡或严重非额叶的图像被滤掉。最后，选择了1016张图像作为测试集。

B. Sapp and B. Taskar, “Modec: Multimodal decomposable models for human pose estimation,” in CVPR, 2013.
L. Bourdev and J. Malik, “Poselets: Body part detectors trained using 3d human pose annotations,” in ICCV, 2009.

MPII Dataset

MPII数据集是一个大型数据集，包含丰富的活动和多样性捕获环境。它是从YouTube上跨越491个不同活动的3913个视频中收集出来的。从收集的视频中提取24,920帧。这些注释是由亚马逊机械土耳其人(AMT)上的内部工人进行的。注释包括16个关键点的二维位置，完整的三维躯干和头部方向，关键点的遮挡标签，和活动标签。相邻的视频帧也可用于运动信息。最后，标记人数为40522人，其中28821人用于培训，11701人用于检测。MPII数据集已被广泛应用于姿态估计和其他姿态相关的任务。表中的内容。四、展示了在MPII测试集上评估的最新方法。由于该姿势相对容易，所以检测到的二维关键点的精度较高而且性能也接近饱和度。

M. Andriluka, L. Pishchulin, P. Gehler, and B. Schiele, “2d human pose estimation: New benchmark and state of the art analysis,” in CVPR, 2014.

图像级2D多人数据集

Microsoft Common Objects in COntext (MSCOCO) Dataset

Microsoft Common Objects in COntext (MSCOCO)数据集包含用于对象检测、泛视分割和关键点检测的注释。这些图片收集的来自谷歌、必应和Flickr等网站。这些注释由Amazon’s Mechanical Turk (AMT)上的工作人员执行。该数据集包含超过20万张图像和25万人的实例。与数据集一起，自2016年以来，COCO关键点检测的挑战每年都在举行。该数据集有两个版本。区别在于训练和验证集的分割。在2017年的最新版本中，训练/val图像分割是118K/5K，而不是之前的83K/41K。测试集包含20K个图像，注释由官方测试服务器保存。此外，还发布了12万张未标记图像，它们遵循与标记图像相同的类分布。它们可以用于半监督的学习。对于关键点检测，17个关键点与可见性标签、边界框和身体分割区域一起被标记。COCO数据集一直是一个被广泛使用的评估基准，并作为动作识别和人的ReID等姿势相关任务的辅助数据。表V中的相关内容显示了最先进的方法在COCO测试集中的性能。RSN[Y. Cai等人的研究]实现了78.6mAP，显示了自上而下的方法的优越性。随着网络骨干网和关键分组方法的改进，自下而上的方法迅速发展。HigherHRNet [B.-W. Cheng等人的研究]获得70.5mAP。自下而上的方法可能有可能实现与自上而下的方法类似的性能。

T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollár, and C.-L. Zitnick, “Microsoft coco: Common objects in context,” in ECCV, 2014.
Y. Cai, Z. Wang, Z. Luo, B. Yin, A. Du, H. Wang, X. Zhang, X. Zhou, E. Zhou, and J. Sun, “Learning delicate local representations for multi-person pose estimation,” in ECCV, 2020.
B.-W. Cheng, B. Xiao, J.-D. Wang, H.-H. Shi, T.-S. Huang, and L. Zhang, “Higherhrnet: Scale-aware representation learning for bottom-up human pose estimation,” in CVPR, 2020.

AI-Challenger Dataset

AI-Challenger Dataset，也被称为人类骨骼系统关键点检测数据集 Keypoint Detection Dataset (HKD)，包含300K高分辨率图像用于关键点检测和中国字幕，以及81,658张用于零镜头识别的图像。大规模的数据集有多个人和不同的姿势。每个人都贴有一个边界框和14个关键点。整个数据集分别分为训练集、验证集、测试A集、测试B集和210K、30K、30K、30K图像。由于其大规模、高分辨率和场景丰富，人工智能挑战者数据集已被广泛用作2D/3D姿态估计网络训练和姿态相关任务的辅助数据集。

J.-H. Wu, H. Zheng, B. Zhao, Y.-X. Li, B.-M. Yan, R. Liang, W.-J. Wang, S.-P. Zhou, G.-S. Lin, and Y.-W. Fu, “AI Challenger: A largescale dataset for going deeper in image understanding,” arXiv preprint arXiv:1711.06475, 2017.

CrowdPose Dataset

CrowdPose Dataset旨在更好地评估拥挤场景中的人体姿态估计方法。通过测量人群指数，从MSCOCO (person subset)、MPII和AI Challenger处收集图像。定义的人群指数是用来评估图像的拥挤程度的。通过人群指数对30K图像进行分析，最后选择20K高质量图像。接下来，14个关键点和全身边界框被注释为大约8万人。培训、验证和测试子集都按比例划分为5：1：4。由于在人群场景中对人的边界框或关键点的检测相对较困难，因此 CrowdPose Dataset 在多人姿态估计社区中仍然具有挑战性。

J.-F. Li, C. Wang, H. Zhu, Y.-H. Mao, H.-S. Fang, and C.-W. Lu, “Crowdpose: Efficient crowded scenes pose estimation and a new benchmark,” in CVPR, 2019.

视频级2D单人数据集

J-HMDB Dataset

J-HMDB数据集[H. Jhuang等人的研究]是联合注释HMDB的缩写，是HMDB51数据库[H. Kuehne等人的研究]的一个子集，包含51个人类行为的5100个片段。J-HMDB数据集包含928个包含21个动作类别的片段。每个动作类包含36-55个片段。每个剪辑包括15-40帧。31,838张图片通过Amazon Mechanical Turk上的2D puppet model[S. Zuffi and M.-J. Black的研究]进行了注释。多达15个可见的身体关键点被标记，连同the scale, viewpoint, segmentation, puppet mask, and puppet flow。训练和测试图像数量的比率大约为7：3。J-HMDB数据集被广泛应用于视频姿态估计和动作识别任务。

H. Jhuang, J. G. S. Zuffi, C. Schmid, and M.-J. Black, “Towards understanding action recognition,” in ICCV, 2013.
H. Kuehne, H.-H. Jhuang, E. Garrote, T. Poggio, and T. Serre, “Hmdb: a large video database for human motion recognition,” in ICCV, 2011.
S. Zuffi and M.-J. Black, “Puppet flow,” International Journal of Computer Vision, vol. 101, no. 3, pp. 437–458, 2013.

Penn Action Dataset

Penn Action Dataset[W.-Y. Zhang等人的研究]是另一个无约束的视频数据集，包含2326个视频涵盖15个动作的片段。训练集和测试集都有1,163个视频片段。该数据集包含各种类内参与者的演员外观、动作执行率、视点、时空分辨率和复杂的自然背景。注释是通过部署在Amazon Mechanical Turk上的半自动视频注释工具进行的。每个人都注释有13个具有2D坐标、可见性和摄像机视点的关键点。

W.-Y. Zhang, M.-L. Zhu, and K.-G. Derpanis, “From actemes to action: A strongly-supervised representation for detailed action understanding,” in ICCV, 2013.

视频级2D多人数据集

PoseTrack Dataset

PoseTrack Dataset[U. Iqbal等人和M. Andriluka等人的研究]是第一个大规模的多人姿态估计和跟踪数据集。它从MPII Multi-Person Pose dataset[M. Andriluka等人的研究]的未标记视频中收集。它有两个版本，即PoseTrack2017和PoseTrack2018。PoseTrack2017包含550个视频，分别分为292、50和208个视频，用于培训、验证和测试。总共23000帧被标注有153615个姿势标签。PoseTrack2018是它的扩展版。它包含593个训练视频，170个验证视频和375个测试视频。对于训练集中的每个视频，中间注释30帧。对于验证集和测试集，会对中间的30帧以及每四帧进行注释。标签包含15个2D关键点、一个唯一的人ID和每个人的头部边界框。跟踪是具有挑战性的，因为视频包含各种姿势外观和尺度变化，以及身体部分遮挡和截断。它已被广泛应用于评估多人姿态估计和跟踪算法的基准。
下表中的相关内容介绍了PoseTrack2017测试集中的代表性方法的性能。多步自上而下方法比自下而上方法具有优越的性能，而后者更有效率。姿态估计任务只依赖于关键点预测的准确性，而姿态跟踪也需要一个可靠的、鲁棒的数据关联方案。随着姿态估计和数据关联的发展，姿态跟踪有潜力以更高的效率实现更好的性能。

U. Iqbal, A. Milan, and J. Gall, “Posetrack: Joint multi-person pose estimation and tracking,” in CVPR, 2017.
M. Andriluka, U. Iqbal, E. Insafutdinov, L. Pishchulin, A. Milan, J. Gall, and B. Schiele, “Posetrack: A benchmark for human pose estimation and tracking,” in CVPR, 2018.
M. Andriluka, L. Pishchulin, P. Gehler, and B. Schiele, “2d human pose estimation: New benchmark and state of the art analysis,” in CVPR, 2014.

Human-in-Events (HiEve) Dataset

Human-in-Events (HiEve) Dataset[W.-Y. Lin等人的研究]是一个大型的基于视频的数据集，用于真实事件，特别是针对人群和复杂事件。它包含2D姿势、动作、轨迹跟踪和姿势跟踪。该数据集从9个真实场景中收集，包含49820帧，注释为1302481个边界框、2687个轨迹ID、56643个动作（14个动作类别）和1099357个人2D姿势。2D姿势的标签包含14个关键点，并过滤掉沉重的遮挡和小的边界框（小于500像素）。HiEve数据集是迄今为止最大规模的以人为中心的数据集，它将在人类行为分析的许多任务中非常有用。

W.-Y. Lin, H.-B. Liu, S.-Z. Liu, Y.-X. Y. Li, G.-J. Qi, R. Qian, T. Wang, N. Sebe, N. Xu, and H.-K. Xiong, “Human in events: A large-scale benchmark for human-centric video analysis in complex events,” arXiv preprint arXiv:2005.04490, 2020.

3D单人数据集

Human3.6M

Human3.6M是使用最广泛的多视图单人三维人体姿态基准。该数据集使用4个RGB摄像机、1个飞行时间传感器和10台运动摄像机在4米×3米的室内空间中捕获。它包含了360万个3D人体姿势和15个场景中的相应视频(50FPS)，比如讨论、坐在椅子上、拍照等。特别是，三维位置和关键点的角度都是可用的。目前，由于隐私问题，只有7个受试者的数据可用。为了评估，视频通常被每5/64帧向下采样，以消除冗余。方法通常根据两种常用的协议进行评估以进行比较。第一项方案是对5个受试者（S1、S5、S6、S7、S8）进行训练，并对受试者S9和S11进行测试。第二个方案共享相同的训练/测试集，但只评估在正面视图中捕获的图像。

C. Ionescu, D. Papava, V. Olaru, and C. Sminchisescu, “Human3.6M: Large scale datasets and predictive methods for 3D human sensing in natural environments,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 36, no. 7, pp. 1325–1339, 2014.

HumanEva-I

HumanEva-I是一个从3台60Hz摄像机视角拍摄的单人3D姿势数据集。它包含4个主题来执行6个动作。相关方法通常评估由3个参与者S1、S2、S3执行的3个动作、散步、慢跑和拳击。

L. Sigal, A.-O. Balan, and M.-J. Black, “HumanEva: Synchronized video and motion capture dataset and baseline algorithm for evaluation of articulated human motion,” International Journal of Computer Vision, vol. 87, no. 1-2, p. 4, 2010.

MPI-INF-3DHP

MPI-INF-3DHP拍摄在14相机工作室使用商业无标记运动捕捉设备获取地面真相三维姿势。它包含8个演员，表演8个活动。RGB视频从广泛的角度录制。从所有14台相机中都可以捕捉到超过130万像素的帧。除了一个人的室内视频外，他们还提供MATLAB代码，通过混合分段的前景人类外观来生成一个多人数据集MuCo-3DHP。通过提供的身体部分分割，研究人员还可以使用额外的纹理数据来交换衣服和背景。

D. Mehta, H. Rhodin, D. Casas, P. Fua, O. Sotnychenko, W.-P. Xu, and C. Theobalt, “Monocular 3d human pose estimation in the wild using improved cnn supervision,” in 3DV, 2017.

MoVi

MoVi是一个带有3DMoCap注释的大型单人视频数据集。与Human3.6M和MPIINF-3DHP不同，它包含了更多的受试者（60名女性和30名男性）。每个人执行20个预定义的动作和一个自我选择的动作。与运动捕捉同步的视频从正面和侧面两个角度拍摄的。除了三维姿态注释和照相机参数外，MoVi还提供了通过MoSh++获得的SMPL参数。

S. Ghorbani, K. Mahdaviani, A. Thaler, K. Kording, D. J. Cook, G. Blohm, and N.-F. Troje, “MoVi: A large multipurpose motion and video dataset,” arXiv preprint arXiv:2003.01888, 2020.

SURREAL Dataset

SURREAL Dataset是一个大型的合成数据集，通过在背景图像上渲染纹理SMPL模型。SMPL模型由大量的三维运动捕获数据驱动。然而，身体的纹理是有限的和低分辨率的，这使得渲染的二维图像是不现实的。

G. Varol, J. Romero, X. Martin, N. Mahmood, M.-J. Black, I. Laptev, and C. Schmid, “Learning from synthetic humans,” in CVPR, 2017.

AMASS

AMASS是一个大规模的运动捕获(MoCap)数据集。它通过MoSh++将15个MoCap数据集转换为SMPL参数，将这些数据集统一起来。它包含了超过40个小时的运动数据，跨越300多个受试者，和超过110K个运动。通过监督估计的姿态或运动的合理性，积累被广泛用于建立一个先验的人类运动空间。

N. Mahmood, N. Ghorbani, N.-F. Troje, G. Pons-Moll, and M.-J. Black, “Amass: Archive of motion capture as surface shapes,” in ICCV, 2019.

3D多人数据集

3DPW

3DPW 是一个单视图的多人野外3D人体姿势数据集，包含60个视频序列（24个训练、24个测试和12个验证）的丰富活动，如攀岩、高尔夫、在海滩上放松等。这些视频可以在各种场景中拍摄，如森林、街道、操场、购物中心等。尽管场景很复杂，但他们还是利用IMU获得了准确的三维姿态。特别是，3DPW包含了大量的三维注释，包括二维/三维姿态注释、三维身体扫描和SMPL参数。然而，在一些拥挤的场景中(例如。在街道上)，3DPW只提供目标人的标签，忽略了路过的行人。通常，整个数据集用于评估，没有任何fine-tuning。

CMU Panoptic Dataset

CMU Panoptic Dataset是一个大规模的多视图和多人三维姿态数据集。目前，它包含65个序列和150万个3D骨架。他们建造了一个令人印象深刻的360度运动捕捉的穹顶，其中包括480台VGA相机(25FPS)、31台高清相机(30FPS)、10台Kinect2传感器(30FPS)和5个DLP投影仪。特别是，它包含了多人的社会场景。多人三维姿态估计方法通常会提取部分数据进行评估。Zanfir等人，和Jiang等人，选择4个社交活动（争吵、黑手党、最后通牒和披萨）中的2个子序列（从高清摄像头16和30中的9600帧）以进行评估。

H. Joo, H. Liu, L. Tan, L. Gui, B. Nabbe, I. Matthews, T. Kanade, S. Nobuhara, and Y. Sheikh, “Panoptic studio: A massively multiview system for social motion capture,” in ICCV, 2015.
H. Joo, T. Simon, X.-L. Li, H. Liu, L. Tan, L. Gui, S. Banerjee, T.-S. Godisart, B. Nabbe, I. Matthews, T. Kanade, S. Nobuhara, and Y. Sheikh, “Panoptic studio: A massively multiview system for social interaction capture,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017.

Joint Track Auto (JTA) Dataset

Joint Track Auto (JTA) Dataset是一个用于多人三维姿态评估的逼真的合成数据集。JTA是使用著名的电子游戏《Grand Theft Auto 5》生成的，它包含了512段行人在城市场景中行走的高清视频。每个视频有30秒长，录制为30帧每秒。

2D与3D人体姿态估计数据集（统计）相关推荐

特效大片背后的多视角 3D 人体姿态估计技术
目录 0 背景 1 主要算法 1.1 基于匹配和三角化重建的算法 1.2 基于空间体素化的算法 1.3 基于图卷积网络的算法 1.4 基于 Transformer 的算法 2 常用数据集 2.1 Ca ...
深度学习3D 人体姿态估计面临的问题和挑战
在 3D 人体姿态估计中,学者们致力于研究基于单目 RGB 视频的 3D 人体姿态估计,这是因为目前单目 RGB 摄像头应用广泛.价格低廉,在人们日常使用的手机.电脑均配备有摄像头,因此该技术有着广大 ...
2D/3D人体姿态估计（2D/3D Human Pose Estimation）
1. 基本概念算法改进入口网络设计特征流损失函数数据集的重要性:只要有一个好的.针对性的数据集,问题都可以解决过集成新一代AutoML技术,可降低算法试错成本人体姿态估计(Human P ...
网络摄像头+net_今日 Paper | 神经网络结构搜索；视觉目标；人物识别；视频3D人体姿态估计等...
目录基于进化算法和权值共享的神经网络结构搜索检测视频中关注的视觉目标包含状态信息的弱监督学习方法进行人物识别基于解剖学感知的视频3D人体姿态估计 RandLA-Net:一种新型的大规模点云语义 ...
PoseFormer：首个纯基于Transformer的 3D 人体姿态估计网络，性能达到 SOTA
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达本文分享一篇 52CV 粉丝的论文『3D Human Pose Estimation with Spa ...
ECCV 2020 论文大盘点-3D人体姿态估计篇
本文盘点ECCV 2020 中所有与3D姿态估计(3D Human Pose Estimation)相关的论文,总计 14 篇,其中一篇Oral 论文,7 篇已经或者将开源代码. 下载包含这些论文的 ...
3D人体姿态估计论文汇总（CVPR/ECCV/ACCV/AAAI）
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者:Vegetabird | 来源:知乎 https://zhuanlan.zhihu.com/p/ ...
视频中的3D人体姿态估计(3D human pose estimation in vide)--------Facebook research: VideoPose3D
视频中的3D人体姿态估计(3D human pose estimation in video) 解读Facebook AI Research in CVPR2019: <3D human pos ...
姿态估计之3D 人体姿态估计 - 总结（1）【转】
参考 3D 人体姿态估计简述 - 知乎 3D人体姿态估计(介绍及论文归纳) [2021-CVPR]Graph Stacked Hourglass Networks for 3D Human Pose ...

2D与3D人体姿态估计数据集（统计）

2D与3D人体姿态估计数据集（统计）

图像级2D单人数据集

Leeds Sports Pose (LSP) Dataset

Frames Labeled in Cinema (FLIC) Dataset

MPII Dataset

图像级2D多人数据集

Microsoft Common Objects in COntext (MSCOCO) Dataset

AI-Challenger Dataset

CrowdPose Dataset

视频级2D单人数据集

J-HMDB Dataset

Penn Action Dataset

视频级2D多人数据集

PoseTrack Dataset

Human-in-Events (HiEve) Dataset

3D单人数据集

Human3.6M

HumanEva-I

MPI-INF-3DHP

MoVi

SURREAL Dataset

AMASS

3D多人数据集

3DPW

CMU Panoptic Dataset

Joint Track Auto (JTA) Dataset

2D与3D人体姿态估计数据集（统计）相关推荐

最新文章

热门文章