3d卷积神经网络_HSNets：使用卷积神经网络从2D轮廓预测3D人体模型

文章摘要

本文使用人体二进制轮廓或阴影图像进行3D人体建模。利用参数化的人体模型，训练卷积神经网络(CNN)来学习从输入到形状参数的全局映射，这些参数用于在中性姿势下重构人体模型。同时还利用两个相互正交的轮廓图像来改善单个轮廓图像的预测效果。并在数千个真实数据上进行了评估，与同期方法相比，明显优于基于全局拟合的方法，并且速度比基于局部拟合的方法快几个数量级。

1. 引言

人体建模是计算机视觉中一个重要的问题，同时期的建模方法一方面依赖于特殊的算法并且需要手工制作特征；另一方面，大多数算法在实际应用中具有过高的时间复杂度。实践表明，神经网络在许多问题(例如分类、分割、姿势估计和形状分类)上表现优异。然而，在当时尚未考虑将该技术应用于人体建模。在应用方面，本文契合当下医疗和个人服装测量以及虚拟试衣相结合的趋势。

本文提出了一种准确、自动且非常快速的方法，利用卷积神经网络(CNN)来预测人体的3D模型，从而避免了手工制作特征和姿势的限制，同时在虚拟试衣和人体尺寸测量方面进行应用。本文分析了四种可能的情况作为网络的输入(a)将人的单个二进制轮廓缩放到固定大小，以防丢失相机校准信息；(b)将人的阴影图像缩放到固定大小，因为阴影会保留与轮廓互补的信息；(c)假定已知相机参数的正面轮廓；(d)假定已知相机参数的正面、侧面轮廓。本文假设人们穿着紧身衣服，并以允许轻微姿势变化的中立姿势站立，利用大约AlexNet大小的CNN ，学习了从输入到形状参数(20个)的全局映射。这些参数用于重建人体模型。此外，本文还展示了如何结合两个轮廓的人体视图来改善单个视图的预测。并通过计算人体尺寸值来评估模型。

2.方法

2.1 方法概述

本文的目标是从人体轮廓或阴影图像中准确估计3D人体模型。更具体地说，本文想利用CNN学习从2D图像到3D模型的形状参数的全局映射。本文将输入图像分为两类：轮廓图像和阴影图像。

如图1所示，本文将人体3D模型作为监督学习的一个实例。具体来说，本文解决了一个回归问题。使用基于SCAPE的统计人形模型生成数据，利用人体模型形变参数，重建3D人体模型。为了学习从数据到参数的全局映射，本文从头开始训练CNN，以发现从图像特征到人体模型参数映射最快、最有效的方式。

图1. 将四种输入类型之一(缩放到固定高度的正面轮廓，阴影图像，一个或两个未缩放的轮廓)馈入人体形状网络(HS-Net)，以学习全局映射并预测人体模型参数，可用于重建人体模型。

2.2 人体模型

本文选择SCAPE人体模型。它是一个低维参数模型。SCAPE定义为一组12894个可形变的网格三角形，形变是由三角形的旋转、伸缩等参数控制的，分为姿态和体型形变参数。

更具体的说，形变包括关节旋转、姿势引起的非刚性变形和人体体型的变形。本文尝试估计人体体型形变参数。通过在相同姿势下堆叠不同人体的网格三角形变形来学习人体体型的变形空间，然后应用PCA。数据集包含大约5000个不同的人体模型，模板人体模型是所有人体模型的平均值，通过在每个人体模型上计算出每个三角形相对于模版模型的变形后，应用PCA来提取最大形变空间。经计算知，20个参数足以描述95％以上的形变。

本文对估计关节旋转的形变不感兴趣。由于本文的人体模型统一为中立的站立姿势，因此不需要估计姿势引起的变形。假设人体的形状不会因所考虑的姿势范围而显著变化，因此本文将姿势变形与体型变形解耦。

2.3 学习全局映射

本文将全局映射视为一个从2D图像到形状参数的回归问题。并从头开始训练类似于AlexNet的CNN。关于输入图像的数量，分为两种情况：一张正面视图图像，以及正面和侧面两张图像。

一张图像：正面视图图像可以以三种形式出现。首先，当摄像机校准未知时，以中性姿势将图像二进制人体轮廓缩放到固定高度。其次，如果相机参数是已知的，输入是轮廓大小和高度变化的固定大小的图像。本文最后考虑使用阴影图像与缩放轮廓互补一起作为输入。本文在Lambertian假设下使用阴影渲染图像。所有上述方法的输入大小均设置为264×192像素。

两张图像：本文还选择同时使用两个轮廓，即正面和侧面轮廓。假设已知的摄像机参数，这种情况的困难是如何在卷积网络中组合多个图像输入。本文提供和评估了三种不同的组合方法。第一种方法采用的模型架构与一张图像的情况非常相似，但输入图像沿通道维度进行堆叠，请参见图2。然后将这两个通道图像馈入网络进行训练。对于第二种方法，该体系结构与先前的情况不同，在两组卷积层之后添加了一个图像合并层，然后是完全连接的层，其中使用串联操作进行合并。第三种方法与第二种方法的区别在于，合并层在每个维度上执行Max操作。这三种方法都是对单视图案例的改进，其中最大合并操作是最好的。

图2.二张图像的输入架构。(a)将两个轮廓输入为两个通道。(b)将每个轮廓输入到两个单独的卷积层(CL)块中，然后通过合并层(c)将CL的输出连接在一起，但合并时执行Max操作。

3.实验

为了评估所重建模型的可靠性，必须进严格的定量实验，尤其是对人体各个重要身体部位的测量。本文对预测的人体模型进行评估，该模型是通过对CAESAR数据集的真实人进行扫描然后拟合模型参数而获得的，除了非常接近真实人的体型外，在此数据集上执行评估还能十分容易地测量身体的各个部位。这些模型非常逼真，可以看到手臂，腿甚至肩膀的不同开口。在本文的实验中，采用与图3(右上)相同的测量部位。为了进行评估，本文在16个人体尺寸测量中使用了1500个模型和4个真实的人。

图3. 不同输入类型的所有测量的平均误差。3个测试模型的姿势略有变化。

3.1 模型训练与参数设置

本文根据正视图和侧视图以及在Maya3的朗伯假设下生成的阴影图像生成轮廓。在进行预处理时，图像均居中，归一化为[0,1]间隔并固定为264×192像素分辨率。本文使用95000张图像进行训练，使用5000张图像进行验证。并对1500个真实的人类样本进行了测试。根据实验，训练通常会在15至25个轮次之间收敛。本文对RMSprop，Adagrad和Adadelta优化器进行了实验。观察到RMSprop(初始学习率为0.001)和Adadelta(衰减率为0.95)的收敛速度比Adagrad快，并且测试误差较小。因此，所有的实验结果均使用Adadelta训练的模型。对于两个视图，本文使用了一个视图中性能最佳的网络配置，但是对体系结构进行了修改以适应输入，本文在这里还区分了三种情况：HS-2-Net-CH用于将两个输入图像作为单个图像的两个通道传入；HS-2-Net-MM用于将两个输入分别训练为不同的单通道图像并应用合并层；HS-2-Net-MC应用Max合并操作。

3.2 定量实验

本文在测试模型上进行了16个尺寸的3D测量，对于直线测量，本文计算两个极端顶点之间的欧几里得距离，而对于椭圆形，则在模型表面上计算周长。对于每次测量，计算估计值与真实值之间的差，并列出测得身体尺寸的平均误差和在误差值上计算出的标准偏差(见表1)。

表1.各种输入和所介绍的训练方式以及最新方法(最后三列)的尺寸测量结果的误差比较。误差表示为平均值±标准差。

3.3 噪声的影响

由于轮廓提取算法还存在缺陷，本文评估了模型在噪声影响下的鲁棒性。通过使用各种半径的滤镜随机腐蚀或扩大轮廓在边框处的轮廓来对轮廓施加噪点，并对其进行1、3、5、7、9像素的评估。并绘制了多种尺寸(A-P)测量的误差，并在图4中显示了半径为1、5和9像素的嘈杂轮廓的示例。该方法在合理的噪声半径内可以获得与无噪声情况类似的性能，这意味着对噪声的鲁棒性。

图4. 施加噪声时尺寸(A-P)测量的误差图。3个轮廓，其噪声参数分别为1、5和9。

3.4 定性结果

本文展示了HS-1-Net-S获得的人体模型的结果，该轮廓取自图5中真实人物的图像。采用中性姿势站立，但是请注意手臂和腿部的变化。本文的方法设法重建准确的形状，即轻微的姿势变化不会影预测的鲁棒性。

图5. 4个真实对象在轻微变化的姿势下的模型重建。(左)输入图像(中)提取的轮廓(右)重建的模型。

4.讨论与总结

本文提出了一种新颖的技术，利用CNN准确地从轮廓或阴影图像中预测人体3D模型，并试图找到2D图像到3D模型形变参数的全局映射。本文对成千上万的人体和真实的人进行了广泛的评估。还通过综合实验证明，如果存在阴影信息，则可以获得更好的预测结果。由于缺乏真实数据，因此难以评估其在真实人上的性能。尽管轮廓提取不是本文的瓶颈，但由于对统一背景的假设，本文还是评估了在不同级别的噪声影响下的性能，并表明本文的方法在合理的假设下对轮廓噪声具有鲁棒性。本文进一步假设人类穿着紧身衣。将所提方法应用于穿着其他衣服的人会使误差增大。本文方法的局限性在于，在当前的训练中，它无法处理与中性姿势明显不同且包含自遮挡的姿势。这可以通过生成更大的训练集(包括更多突出的姿势)来解决此问题，这超出了本文的范围。