论文阅读|Embodied Hands: Modeling and Capturing Hands and Bodies Together

人类将手和身体一起移动以交流和解决任务。捕获和复制这种协调活动对于逼真的虚拟角色至关重要。令人惊讶的是，大多数方法分别处理3D建模和身体和手部跟踪。在这里，我们模拟了手和身体相互作用的模型，并将其拟合到全身4D序列。在3D模式下扫描或捕获整个身体时，手很小，通常会被部分遮挡，因此其形状和姿势很难恢复。为了应对低分辨率，遮挡和噪声，我们开发了一种称为MANO（具有清晰和非刚性变形的手动模型）的新模型。 MANO是从31种对象的各种姿势的1000次高分辨率3D扫描中学到的。该模型是逼真的，低尺寸的，可以捕获姿势引起的非刚性形状变化，与标准图形包兼容，并且可以适合任何人的手。 MANO提供了从手部姿势到姿势混合形状校正的紧凑映射以及姿势协同作用的线性流形。我们将MANO附加到标准的参数化3D身体形状模型（SMPL），从而获得完全铰接的身体和手模型（SMPL + H）。我们通过拟合4D扫描仪捕获的对象的复杂，自然的活动来说明SMPL + H。该装配是全自动的，可生成全身模型，通过详细的手部动作自然运动，并获得全身性能记录中前所未有的真实感。这些模型和数据可免费用于研究目的，网址为：http://mano.is.tue.mpg.de。

1 Introduction

身体和手实际上是密不可分的。尽管如此，建模身体和手的研究还是分开进行的。在学习逼真的全身3D统计形状模型方面取得了重大进展，但是这些模型通常只有有限的或没有关节活动性。同样，在使用深度传感器和视频序列跟踪手方面也进行了大量工作，但是这些手的建模和跟踪与身体隔离。我们认为，手和身体在一起对于沟通很重要，如果不对手和身体进行联合分析，就不可能对我们的行为，情感和意图有完整的了解。对虚拟现实和增强现实的兴趣的增长，增加了对将现实身体和动作结合在一起的角色和化身的需求。在这里，我们开发了一种新方法来捕获手和身体的4D运动。

导致手与身体分离的因素有很多。SCAPE等完整的人体模型[Anguelov等。 2005年]是从紧握拳头的对象中学到的，而最近的模型如SMPL [Loper等。 2015]假设张开，刚硬的手。动画时，两者看上去都不现实。此类3D人体模型是通过对整个身体进行3D扫描而创建的。在大多数人体扫描仪的分辨率下，手很小，手指难以分辨，从而在手指之间产生噪音和“织带”。另外，身体和自身的手闭塞常常导致明显的数据丢失。因此，为了获得足够的分辨率和不受限制的运动，大多数视觉手部跟踪工作都集中在使用RGB-D序列单独捕获手，可能与前臂一起捕获。

我们做出了一些贡献，大致可以分为两类：学习新的手模型，以及一起跟踪手和身体。

首先，我们收集一个新的数据库，其中包含多达51个姿势的31个对象的详细手部扫描。我们捕获男女的左手和右手，使用各种各样的姿势，并捕获与对象交互的手。

其次，我们使用这些数据建立类似于SMPL人体模型的统计手形模型[Loper等。 [2015年]，我们称其为MANO带有铰接（Articulated）和非刚性变形（non-rigid）的手动模型。像SMPL一样，模型将几何变化因素分解为对象身份固有的变化和姿势造成的变化。训练模型以最大程度地减少训练集中的顶点误差。姿势空间使用线性混合蒙皮以简化操作，并具有可从扫描中自动学习的校正混合形状。 MANO是从SMPL手形拓扑创建的，具有与SMPL中相似的组件：模板形状，运动树，形状和姿势混合形状，混合权重和联合回归器。

但是，手的关节与全身有很大的不同;手包含大量关节受限的关节。因此，MANO在几个方面与SMPL不同。像SMPL一样，MANO使用与姿势有关的校正混合形状。与SMPL不同，在[Mohr and Gleicher2003]引入局部蒙皮混合权重的示例之后，我们通过惩罚校正对测地线远的关节的依赖性来鼓励校正姿势混合形状是局部的。此外，整个手部空间的高维度使之适合于嘈杂，低分辨率的人体扫描，计算量大，而且容易出现局部最小值。因此，我们通过从数据集中计算姿势参数的线性嵌入来减少姿势空间的维数。我们相信这是基于此类高质量手数据的首次此类分析。生成的MANO模型重量轻，易于制作动画，并与现有的图形软件兼容。

第三，我们将MANO与SMPL身体模型相结合，以提供一个新的手和身体相互作用的组合模型（SMPL + H）。在这里，我们从SMPL模型中获取手的形状空间，该模型捕获了手和身体形态之间的相关性。为此，我们添加了MANO关节，运动树，混合权重和姿势混合形状。

第四，我们解决了在动态中捕获全身和手的问题。为此，我们采用了4D人体扫描系统，该系统以每秒60帧的速度捕获完整的3D人体形状。在扫描仪的分辨率下，手可能会非常嘈杂且分辨率低，有时会完全消失。为了恢复手势，我们修改了4Cap，一种用于DYNA的时间网格配准算法[Pons-Moll等。 2015]，包括一个简单的速度先验，可以防止在完全没有数据的情况下突然出现手部运动。通过这种方式，我们将SMPL + H拟合至全身4D序列，以恢复身体的固有形状及其变化的姿势，包括手指关节。

为了说明模型和方法，我们将SMPL + H拟合到各种具有快速运动的复杂序列。图1显示了一些示例，在补充视频中可以找到更多示例。除了恢复模型参数外，我们还允许对齐的顶点移动以更好地适合扫描（偏离模型表面会带来损失），从而增加其真实性和细节水平。最终的模型和对齐方式看起来比使用SMPL的模型和对齐方式自然得多。

总而言之，我们提出了一种新的手形和姿势模型，该模型是从数据中学习的，与现有图形系统兼容，低尺寸，逼真且与SMPL人体模型兼容。通过将MANO与SMPL结合使用，我们可以高度真实地共同捕获身体和手部动作，并处理丢失和嘈杂的数据。这开启了有关身体和手部动作相关的研究，达到了以前不可能实现的细节水平。 MANO模型和SMPL + H可用于研究[MANO web]，以及训练MANO和测试数据集进行评估所需的对齐网格。

3 Model

考虑到用身体捕捉双手的困难，我们主张在创建灵巧的全身模型时采用两阶段方法。首先，我们隔离收集了大量的手部扫描，这些扫描是通过专门配置为捕获手腕位置固定的手的扫描仪获得的。这使我们能够捕捉到手部变形的细微差别。然后，我们使用迭代过程训练手模型，该迭代过程使用模型使模板与扫描对齐，并从注册的扫描（registered scan）中学习模型。在第二阶段，我们将此手模型与整个身体集成在一起，以获得一个单一的，灵巧的和完全铰接的身体模型。

MANO基于SMPL [Loper等。 2015]，并且与全身SMPL模型兼容。为了促进手部模型与全身模型的集成，我们将全身模型中的手部顶点作为模板。 SMPL模型M的一般公式，取自原始论文[Loperet al。 [2015年]，如下：

其中将蒙皮函数 $W$ （在我们的示例中为LBS）应用于形状为 $T_{P}$ 的铰接索具体网格，关节位置 $J$ 定义了运动树，姿态 $\overrightarrow{\theta }$ ，形状 $\overrightarrow{\beta }$ 和混合权重 $W$ .

与标准LBS模型不同，对于SMPL模型，posed和skinned的mesh $T_{P}$ 是手的姿势和形状的函数。形状混合形状功能 $B_{S}$ 允许在手的情况下，基本形状随身份而变化。姿势混合形状函数BP捕获网格的变形，这些变形是关节弯曲的函数。传统的LBS模型过于光滑，并且在关节处遭受“塌陷”。对于MANO，我们学习纠正这些伪影的校正混合形状，从而使手指看起来更自然弯曲。

具体来说，姿势和形状混合形状定义为一组变形的线性组合，即顶点偏移：

这里 $P_{n}$ 是姿势混合形状，K是手模型中的关节数。这些不是直接由手旋转控制，而是由旋转矩阵的元素控制，如SMPL。 $R_{n}\left ( \overrightarrow{\theta } \right )$ 索引到级联旋转矩阵元素的向量的第n个元素， $\overrightarrow{\theta ^{*}}$ 是零位姿。

如图4所示，使用主成分分析（PCA）从一组已注册的手形（registered hand shapes）（归零姿态）计算出形状混合形状。因此，这里的βn是线性系数，向量 $S_{n}$ 是PCA的主成分我们将在下面学习以低维形状为基础的组件。

关节位置 $J\left ( \overrightarrow{\beta } \right )$ 也取决于形状参数。像SMPL一样，这些是从网格顶点中获取的稀疏线性回归矩阵J。我们向读者推荐[Loper等。 2015]。

在学习模型参数 $\left ( S,P,W,J,\overline{T} \right )$ 之前，我们首先需要对许多人进行多种姿势的手动扫描，然后我们需要将模板网格注册(registered)到这些位置以进行对应。我们在下面描述这些步骤。

3.1 Hand Data

我们的手部数据是通过3dMDhand系统[3dMDhand 2017]捕获的（图3，3dMD LLC，亚特兰大）。该系统由五个扫描单元组成，每个扫描单元包含一个分辨率为2448×2048的彩色相机，两个分辨率为1624×1236的灰度相机以及两个为灰度图像提供照明的散斑投影仪。扫描的分辨率约为50,000个顶点，包括纹理贴图，并且根据制造商提供的精度为0.2毫米均方根（RMS）误差。\

使用此系统，我们从左手和右手总共收集了31个对象的数据，为我们提供了2018年的扫描总数。我们镜像左手扫描以显示为右手。镜像使我们能够训练单个一致的手模型。稍后，我们将学习的右手模型镜像回来，以创建左手模型。

捕获的每个对象都执行三种类型的姿势：一组联合探查姿势，Feix等人的掌握分类法中的31个姿势。 [2016]，以及一些混合姿势。图5中展示了一组完整地姿势。每个对象都根据其可用性执行协议的子集。

对于每次扫描，我们手动删除与手臂和倒立支架相对应的几何形状。每次扫描大约需要30秒。然后，我们将使用颜色信息自动将涉及对象抓取的姿势中的对象进行分割，因为它们被涂成绿色。更具体地说，如果在8位RGB空间中G> max（R，20），则将顶点简单地分类为目标顶点，其中G和R分别是绿色和红色通道的值。这样一来，手的扫描就会抓住有大量孔洞的物体。

3.2 Registration

建立手部模型的下一步是为所有手部扫描注册或对齐模板，使它们相互对应。注册嘈杂的手部扫描数据的过程具有挑战性。网格对齐通常是一个具有挑战性的问题，但是由于高度的自相似结构（手指）以及高度的自我和对象遮挡，手尤其困难。尽管先前的一些工作使用地标来简化注册，但我们这样做并不是因为注册大量扫描时不切实际。相反，我们通过手动管理注册来引导模型的创建。具体来说，我们从一个粗略的手形模型开始，用它来记录我们所有的扫描，手动管理好扫描，学习改进的模型，然后重复。这逐渐改善了路线和模型。

我们将匹配过程视为一个优化问题，在此过程中，相对于匹配顶点位置，我们将扫描和已匹配网格V之间的距离最小化，同时根据模型保持可能的匹配。我们在这里没有提供完整的细节，因为该方法与以前的工作类似[Hirshberg等。 2012; Loper等。 2015]，以及手动策展。具体来说，我们将最小化

能量由四个主要成分组成：数据（或几何）项 $E_{g}$ ，耦合项Ec，姿态先验Eθ和形状先验Eβ。数据项 $E_{g}$ 表示扫描S上的顶点s与配准V的表面之间的点到平面距离，并用Geman-McClure误差函数ρ，[Geman and McClure 1987]。

耦合项Ec鼓励配准的网格V与模型M相似，我们也优化了模型M的参数 $\overrightarrow{\beta }$ ， $\overrightarrow{\theta }$ 。在这里，我们根据模型边缘与已匹配网格之间的差异来定义相似性。边缘由函数D给出，函数D只是线性映射。通过直接优化配准中的顶点，我们可以超越模型的限制并获得更多忠实的配准（faithful registration），而耦合项使配准保守地接近模型。

形状先验项Eβ惩罚了优化形状参数与CAESAR数据集中手形分布之间的Mahalanobis距离[Robinette等。 2002]。我们的形状空间是正交的，因为它是执行未定位配准的PCA的结果。我们根据所解释的方差√cov的平方根缩放其基向量，这要求系数 $\overrightarrow{\beta }$ 通过其逆来缩放，从而有效地对其进行标准化。结果[Brereton 2015]，马哈拉诺比斯距离可以方便地计算为形状参数 $\overrightarrow{\beta }$ 的范数

对于姿势先验Eθ，我们为每个姿势定义特定的先验（因为给定协议已知它们）。我们用先验来初始化它，以惩罚与中性姿势的偏差，然后对每个姿势用高斯先验进行细化。

5-Eq中的目标是高度非凸的。为了优化它，我们使用了拟似牛顿最小二乘优化器dogleg。使用OpenDR自动微分计算梯度[Loper and Black 2014]。

我们对注册和模型构建的整个过程进行两次迭代，最后进行一次直观检查，以定义良好注册的网格的训练数据库。经过检查，2018年扫描的1554份注册被视为成功，并包含在已发布的数据集中。每次扫描仅需要大约1-2秒的检查时间，这是一项简单的二进制标记任务。对于配准，如上所述，在第一次迭代中，我们使用初始姿态先验，而在第二次迭代中，我们使用姿态特定的高斯先验。在使用4个线程的3.7 GHz四核Intel Xeon E5计算机上，注册每帧大约需要30秒，其中只有最近点搜索是多线程的。

图6显示了来自一个对象的各种手动扫描以及相应的对齐网格。图7显示了来自不同主体的相同手势（相对平坦）的各种手形。这些图使人感觉到对齐网格中的详细程度。

3.3 Hand Model

我们的目标是学习SMPL风格的手模型的参数，使其适合registration。我们从与[Loperet al。 2015]。迭代优化模型参数（S，P，W，J，T），以保持其余部分不变。像SMPL一样，个性化模板 $\widehat{T_{i}}$ 用于优化与姿势相关的分量 $\left ( P,W \right )$ ，并且使用PCA执行的线性分解将填充形状空间S和模板T。但是，我们修改了SMPL中的许多组件以考虑手和身体之间的差异。

MANO包含15个关节以及全局定位。与身体中的大多数关节不同，许多手关节在解剖学上仅限于一个自由度，而我们的模型出于简单性考虑将它们视为球形关节。因此，有效地设置了手势。由于SMPL模型中的大多数参数都属于与姿势相关的混合形状 $B_{P}$ （随关节数量线性增长），因此对于像手之类的高关节物体， $B_{P}$ 的正则化对于避免过度拟合非常重要。这种过度拟合的影响之一是，当模型按照[Loper等人，2002年]所述的程序训练时，获得的姿势相关变形的局部性。 2015]。

因此，我们对模型进行了重新设计，使其具有更强的正则化能力，从而促进了影响姿势的关节局部的基于姿势的混合形状 $B_{P}$ 。由于依赖于姿势的混合形状将姿势旋转元素映射到顶点位移，因此，实现这一目标的一种自然方法是通过惩罚顶点位移对旋转中心较远的关节的依赖关系。更具体地讲，我们用取决于输入关节和输出顶点之间距离的成本来代替与SMPL中所有姿势混合形状元素相关的恒定成本λP（等式14 [Loper et al。2015]）。

其中Dgeo∈RN是特定顶点ti与模板meshT中其余顶点之间的测地距离，而Jj∈RN表示关节j的联合回归矩阵。 ΛP为每对输入关节和输出顶点确定一个成本。由于每个输入关节跨越对应于其旋转矩阵的9个标量输入，并且每个输出顶点对应于3个标量，因此在用P计算乘积之前，将ΛP中的每个元素扩展为3×9块。点数未定义；因此，我们用测地距离的加权平均值代替它。如补充视频所示，这种新的正则化方案会导致更多局部和正则化的姿态相关变形。

其次，我们模型的零姿势表示平坦的手（如在CAESAR数据集[Robinette等，2002]中，与SMPL兼容），它与我们数据集中的平均姿势相去甚远（见图10）。由于模型的优化顺序，零位和均值位之间的差异所引起的变形导致模板不自然。更具体地，使用没有姿势混合形状BP的模型执行个性化模板T i的初始优化，该模型随后被优化。然后，模板吸收零位和平均位姿之间的与位姿有关的校正，从而导致关节弯曲得不自然（请参见图8中的第一行）。因此，模板优化不应该考虑极端姿势的配准，直到姿势相关的变形合理地起作用为止。通过根据我们认为它们可能受到与姿势相关的混合形状潜在影响的程度，对在优化Tˆi中使用的配准进行加权来表示这一点。

式中，Rn代表与姿态轴角θθ或静止姿态θ∗对应的旋转矩阵的级联元素，而∥·theF代表Frobenius模。我们选择使用旋转轴差的Frobenius范数，因为它具有清晰的欧几里得解释，同时它还是旋转不变的，并且没有周期性问题，这与其他表示形式（例如角度差）相反。双重平方的使用是一种简单的启发式方法，可对来自静止姿势的偏差进行严重惩罚。当姿态相关的混合形状为零时，等式（11）的权重仅应用于Tˆi优化的第一次迭代中，并从本质上惩罚与激活强姿态混合形状的其余姿态的偏差。

第三，我们通过根据左右数据（镜像）创建单个右手模型来利用左右手的对称性。然后，我们镜像生成的模型以获得左手模型。这使我们实际上可以将训练数据量增加一倍，从而有助于限制过度拟合。镜像的详细信息包含在补充材料中

最后，关于SMPL的另一个区别是，在初始注册之后，我们不将CAESAR数据用于形状空间。相反，我们使用来自姿势主体的中性姿势来计算形状空间。图7显示了一些示例。原因是由于姿势，遮挡和用于创建数据集的技术的组合，CAESAR注册具有一定的系统偏差。

随着训练程序的这些变化，我们现在按照[Loper et al。 2015]。在使用8个线程的一台3.7 GHz四核Intel Xeon E5计算机上，此步骤大约需要42个小时。我们模型的学习组成部分（例如与姿势相关的校正混合形状）对于校正线性混合蒙皮的错误并捕获手指的自然弯曲至关重要;请参见图9。

手姿势嵌入。为了使模型适用于扫描配准，我们将尝试公开一组参数，以有效地解释最常见的手部姿势。由于神经科学研究表明，大多数手部姿势差异都存在于低维流形上[Santello等。 1998]，我们将通过一组映射低维流形的系数对每个手部姿势进行参数化。此流形的唯一要求是可区分的，以便在我们的优化框架内应用链规则。为了简化起见，我们选择了用PCA在数据集中的姿态上以轴角表示形式（在将所有轴角映射到范围（⇐π，π]之后）获得的线性映射。在图10中可以看到空间。对于高质量数据，可以使用许多PC来实现高精度；但是对于嘈杂的数据，在精度（许多PC）和鲁棒性（少量PC）之间进行权衡需要一个PC对于我们的数据，我们观察到每只手有6个分量足以模拟最常见的手部姿势，捕获了约81％的训练姿势方差（请参见实验）。

3.4 SMPL+H: Model integration

与以前的手动模型不同，我们的目标是获得可以注册到全身扫描的集成灵巧全身模型。因此，我们需要将左右手模型与完整的SMPL身体模型集成在一起。基本的集成非常简单：与手指关节有关的模型成分（混合权重，与姿势有关的变形和关节退化）均来自经过训练的MANO模型，而与身体其余部位有关的成分则来自全身SMPL模型，包括手腕。为了捕获身体和手部形状之间的相关性，我们使用了全身模型中的形状空间[Loper等。 2015; Robinette等。 2002]确定手的形状。

与SMPL模型类似，此主体+手模型与动画包和游戏引擎完全兼容，并且其简单性使其可以快速简便地使用。但是，要完全表达手部要付出一定的代价：姿势空间的尺寸增加了两倍以上。这是适得其反的，因为大多数姿势自由度都专用于身体的一小块区域，在该区域中通常数据是嘈杂的或丢失的。因此，我们没有对手部姿势空间的完整维度建模，而是对每只手使用上述的6维线性嵌入。然后，SMPL的运动学结构无需手即可拥有66个自由度，SMPL + H则具有78个。

论文阅读|Embodied Hands: Modeling and Capturing Hands and Bodies Together相关推荐

论文阅读：Probabilistic Modeling of Semantic Ambiguity for Scene Graph Generation(CVPR21)
传统的判别模型(针对predicate种类)如c所示,对于同一对物体总是倾向于产生相同的predicate.但是视觉关系往往是语义模糊的 ,比如: (1)person-holding-umbrella ...
论文阅读课3-GraphRel: Modeling Text as Relational Graphs for(实体关系联合抽取，重叠关系，关系之间的关系，自动提取特征）
文章目录 abstract 1.Introduction 2.相关工作 3.回顾GCN 4.方法 4.1第一阶段 4.1.1 Bi-LSTM 4.1.2 Bi_GCN 4.1.3 实体关系抽取 4.2 ...
【论文阅读】Slot-Gated Modeling for Joint Slot Filling and Intent Prediction
文章目录论文部分 Abstract Introduction Proposed Approach 实验部分论文部分 Abstract 根据slot和intent之间的关系,提出了一种slot ga ...
[论文阅读] (07) RAID2020 Cyber Threat Intelligence Modeling Based on Heterogeneous GCN
<娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...
谣言检测相关论文阅读笔记：Towards Multi-Modal Sarcasm Detection via Hierarchical Congruity Modeling
Towards Multi-Modal Sarcasm Detection via Hierarchical Congruity Modeling with Knowledge Enhancement ...
【论文阅读】Modeling the world from internet photo collections
Modeling the world from internet photo collections论文阅读 1.摘要 2.介绍 3.先前技术(历史介绍) 4.重建过程 4.1 关键点的检测和匹配 4 ...
【论文阅读】Decision Transformer: Reinforcement Learning via Sequence Modeling
[论文阅读]Decision Transformer: Reinforcement Learning via Sequence Modeling 1 本文解决了什么问题? 本文将强化学习抽象为一个序列 ...
Long Short-Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling论文阅读
<Long Short-Term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling& ...
论文阅读笔记: Modeling Relational Data with Graph Convolutional Networks
arXiv:1703.06103v4 文章目录 1.Introduction 2.神经关系建模(Neural relational modeling) 2.1 关系图卷积网络(Relational g ...
【论文阅读】Learning Traffic as Images: A Deep Convolutional ... [将交通作为图像学习: 用于大规模交通网络速度预测的深度卷积神经网络]（1）
[论文阅读]Learning Traffic as Images: A Deep Convolutional Neural Network for Large-Scale Transportation ...

论文阅读|Embodied Hands: Modeling and Capturing Hands and Bodies Together

论文阅读|Embodied Hands: Modeling and Capturing Hands and Bodies Together相关推荐

最新文章

热门文章