3D手势姿态估计综述

本文通过对大量有代表性的论文研究，提出一种基于输入数据模式的新分类法，即RGB、深度或多模态信息。最后，我们展示了在最流行的RGB和基于深度的数据集上的结果，并讨论了这一快速增长领域的潜在研究方向。

1. Introduction

在实施无标记手姿势估计方法时，最重要的挑战如下：

高清晰度 ：人类的手有超过20个自由度（DOF）[20]，因此，需要很多参数才能正确地建模手的复杂性以及手指的运动
遮挡：在进行手势时，同一只手的手指可能会被对方、其他身体部位或物体强烈遮挡。这可能会导致隐藏的手部或在同一位置错误推断不同的手指。
低分辨率：手的大小，更不用说手指了，在RGB图像或深度图中占据了一个小区域，如果它不是注意力的焦点，或者相机和手之间有一定的距离。此外，相机技术的限制（例如镜头分辨率、深度感应能力）可能会导致数据不准确，从而进一步阻碍手姿势估计方法的结果。
注释数据：创建带注释的三维数据是一项成本高昂且耗时的任务。为了捕捉精确的3D数据，需要一个昂贵的基于标记的运动捕捉系统或一个大型多视图摄像机设置[21]。
手和手指的快速运动：通常情况下，手部运动是高度非单调的，包括非常快的运动、突然停止和其他身体部位无法满足的关节旋转。目前，大多数传统的深度和RGB相机可以支持每秒30到60帧（fps），但仍然无法捕捉手部运动的速度，导致帧模糊或不相关的连续帧。

与现有的仅关注基于深度的方法[39,40]的综述不同，在本文中，我们对最近基于DNN的3D手姿势估计方法进行了全面研究，考虑了基于深度、基于RGB和多模态的方法。更具体地说，贡献点可以总结如下：

提供关于3D手姿势估计的现代深度学习方法的全面概述，以及针对上下文的早期机器学习方法的简要概述。对于每项工作，描述了所提出的方法和网络结构。
提出一种新的分类法，以更好地分类和呈现基于深度学习的三维手姿势估计方法。更具体地说，本文使用了以下三种方法：基于RGB的方法、基于深度的方法和多模式方法。
展示了研究界使用的最重要的数据集，以及每个数据集的最新结果
从数据集和模型架构方面得出结论并提出未来可能的方向。

本文中提到的文章主要来源于：IEEEXplore, Springer(link), arxiv .org, and the Google scholar
论文选择的筛选标准是：（a）涉及3D手姿势估计的文献作品（2D方法除外），（b）基于单视图摄像机设置的文献作品（多视图摄像机设置除外），（c）2014年至2020年7月出版的最新深度学习方法，（d）使用独立的无视觉标记输入的方法（即没有专用设备，如手套、标记器或专用传感设备），（e）在著名和高度实验的数据集上实现最先进结果的作品，如帝国理工学院视觉实验室（ICVL）[41]，纽约大学手姿势数据集[42]，渲染手姿势数据集（RHD）[43]、立体手姿势跟踪基准（STB）[44]和HANDS 2017[45]。

2. Previous Categorizations and Early Machine Learning Methods

3D hand pose estimation的方法主要分成两类，这部分在上篇综述阅读中也已经展示过，主要分为基于回归的方法和基于检测的方法。

基于回归的方法： 直接输出所预测的手势的各关节点坐标，基于回归的算法基于从训练数据中提取的输入特征预测输出值，建模目标姿势和输入图像之间的依赖关系

基于检测的方法： 输出手部各个关节点的概率密度图，具体来说，这些方法使用体积热图来形成关节位置预测，并且应用 a r c m a x arcmax arcmax函数来获取各个关节点的坐标。

由于2.2部分的早期手势姿态估计方法不是我想看的内容，我就直接跳过了

3. Deep Learning Methods

按照输入数据的不同对手势姿态估计的方法进行分类：( a ) depth-based, ( b ) RGB-based, and ( c )multimodal approaches。
每个类别又被进一步划分为更多的子类别。基于深度的方法根据它们是直接使用二维深度贴图还是处理它们以提取三维数据表示（例如点云或三维体素表示）进行分组。基于RGB的方法根据它们是直接回归三维手关节位置还是关节热图，还是使用预定义的手模型进行分类。描述多模态方法的最后一个类别根据评估过程中所需的输入模态分为单模态和多模态评估方法。

为了提高这项工作的可理解性，有必要介绍手模型。通常，手模型会对可行姿势和可能的关节旋转施加几何先验。通常，手部模型被用来进一步细化预测的姿势，从而将神经网络的预测约束到人类可能的手部姿势。这些模型可以由作者明确开发，也可以使用现有的手模型。

最近，一种可微的三角化手模型被引入，即MANO手模型[82]，并得到了广泛的关注。手由可微函数 M ( β , θ ) M(β,θ) M(β,θ)生成，其中β是形状参数，θ是姿势参数。完整的功能定义为：
M ( β , θ ) = W ( T ( β , θ ) , J ( β ) , θ , ω ) M(\beta,\theta)=W(T(\beta,\theta),J(\beta),\theta,\omega) M(β,θ)=W(T(β,θ),J(β),θ,ω)
其中，W是一个线性混合蒙皮函数（LBS），应用于带有16个关节J的装配模板手部网格T。参数W表示混合权重。默认情况下，MANO-hand模型的可微性使其与基于DNN的方法一起使用非常方便；因此，最近采用手模型的深度学习3D手姿势估计方法利用了MANO模型。

3.1 Depth-Based Approaches

直接使用2D的深度信息图
处理2D信息图获取3D的表示，例如点云或者3D体素表示。

3.1.1 2D Depth Map Utilization

Oberweger, M.; Wohlhart, P .; Lepetit, V . Hands deep in deep learning for hand pose estimation. arXiv 2015, arXiv:1502.06807.
Oberweger, M.; Lepetit, V . Deepprior++: Improving fast and accurate 3d hand pose estimation.In Proceedings of the IEEE International Conference on Computer Vision Workshops, V enice, Italy ,22–29 October 2017; pp. 585–594.

Oberweger等人[1]研究了不同的CNN网络结构，以找到最有效的网络结构，并引入了一个姿势先验模块，称为DeepPrior，它实际上是一个瓶颈线性层，神经元数量明显少于关节总数（<<3 J）(关节总数)。瓶颈层的权重由应用于3D手姿势数据的PCA初始化。在DeepPrior++[2]中，同一作者通过三种方式扩展了DeepPrior:（a）他们将ResNet体系结构整合到网络中，（b）他们在训练期间引入了额外的数据增强，以及（c）他们通过引入CNN检测细化网络改进了手部检测子任务。

Zhou, Y .; Lu, J.; Du, K.; Lin, X.; Sun, Y .; Ma, X. Hbe: Hand branch ensemble network for real-time 3d hand pose estimation. In Proceedings of the 15th European Conference on Computer Vision (ECCV),Munich, Germany , 8–14 September 2018; pp. 501–516.

Zhou等人[3]建议额外考虑每个手指的功能和重要性。他们设计了一个名为“手部分支合奏”（HBE）的深度CNN网络，它有三个分支：一个用于拇指，一个用于食指，最后一个用于表达其余手指。每个分支的特征被融合在一起，并通过类似的瓶颈层投影到低维表示，然后进一步处理，以便直接回归三维关节位置。

Rad, M.; Oberweger, M.; Lepetit, V . Feature mapping for learning fast and accurate 3d pose inference from synthetic images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City , UT, USA, 18–23 June 2018; pp. 4663–4672.

Rad等人[85]提出了一种在合成深度图像和真实深度图像之间应用域转移的方法。更具体地说，作者在真实图像上渲染3D姿势，以创建相应的合成图像，并使用网络将提取的真实图像特征映射到合成图像的特征空间。因此，他们训练了一个网络来最小化映射特征和合成特征之间的距离，并训练了一个解码器来推断3D姿势。

Du, K.; Lin, X.; Sun, Y .; Ma, X. Crossinfonet: Multi-task information sharing based hand pose estimation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Long Beach, CA, USA,15–20 June 2019; pp. 9896–9905.

约束最终预测的手姿势的另一种方法是使用中间热图来引导3D手关节的回归。Du等人[5]将手部姿势估计任务分解为两个子任务，手掌姿势估计和手指姿势估计，以及在从输入2D深度图中提取特征期间让热力图作为约束，以保证更高的准确率。

看不下去了。。。。。。

论文阅读——A Comprehensive Study on Deep Learning-Based 3D Hand Pose Estimation Methods综述阅读2相关推荐

论文详读：LEMNA: Explaining Deep Learning based Security Applications
我以我ppt的内容顺序介绍一下这篇论文,希望有错误的地方大家可以帮我指出嘻嘻 1.论文出处论文名:LEMNA: Explaining Deep Learning based Security App ...
【论文阅读】A Comprehensive Study on Cross-View Gait Based Human Identification with Deep CNNs
A Comprehensive Study on Cross-View Gait Based Human Identification with Deep CNNs 摘要 Intro Related ...
论文笔记【A Comprehensive Study of Deep Video Action Recognition】
论文链接:A Comprehensive Study of Deep Video Action Recognition 目录 A Comprehensive Study of Deep Video A ...
A Comprehensive Study of Deep Video Action Recognition 论文笔记
A Comprehensive Study of Deep Video Action Recognition 论文链接: https://arxiv.org/abs/2012.06567 一. Pro ...
Deep Learning for 3D Point Clouds: A Survey 论文阅读
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 Abstract:在点云深度学习中,主要包含的任务有:3D形状分类.3D目标检测和跟踪.3D点云分割. ...
A Survey on Deep Learning Techniques for Stereo-based Depth Estimation论文阅读
第一次校正,改正了一些错误和生硬的翻译(像机器翻译一样).一定会有一些笔误.翻译不准确甚至错误的地方.还望批评指正. 1. 摘要估计RGB图片的深度一直以来都是棘手的问题,计算机视觉.图形学.机器学 ...
论文翻译：2021_语音增强模型压缩_Towards model compression for deep learning based speech enhancement...
论文地址:面向基于深度学习的语音增强模型压缩论文代码:没开源,鼓励大家去向作者要呀,作者是中国人,在语音增强领域深耕多年引用格式:Tan K, Wang D L. Towards model c ...
综述：基于深度学习的文本分类 --《Deep Learning Based Text Classification: A Comprehensive Review》总结(一)
文章目录综述:基于深度学习的文本分类 <Deep Learning Based Text Classification: A Comprehensive Review>论文总结(一) 总 ...
综述论文翻译：A Review on Deep Learning Techniques Applied to Semantic Segmentation
综述论文翻译:A Review on Deep Learning Techniques Applied to Semantic Segmentation 近期主要在学习语义分割相关方法,计划将arXi ...

论文阅读——A Comprehensive Study on Deep Learning-Based 3D Hand Pose Estimation Methods综述阅读2