Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric CNN Regression 论文阅读

Abstract
1.Introduction
- 1.1. Main contributions
2.Closely related work
3.Method
- 3.1.Dataset
- 3.2. Proposed volumetric representation
- 3.3. Volumetric Regression Networks
- 3.4. Training
4. Results
5. Importance of spatial alignment
6. Ablation studies（对比试验/控制变量）
7. Conclusions
参考文献

基于CNN直接体积回归的单幅图像大姿态3D人脸重建

论文原文：https://arxiv.org/abs/1703.07834

Abstract

3D人脸重建是一个非常困难的基础计算机视觉问题。当前的系统通常假设多个面部图像(有时来自同一对象)作为输入，并且必须解决许多方法上的挑战，如在大的面部姿态、表情和不均匀照明之间建立密集的对应关系。一般来说，这些方法需要复杂且低效的pipelines来建立和拟合模型。在这项工作中，我们计划通过在由2D图像和3D面部模型或扫描组成的合适的数据集上训练卷积神经网络（CNN）来解决这些限制。我们的CNN仅使用单个2D面部图像，不需要精确对齐，也不需要在图像之间建立密集的对应关系，适用于任意面部姿势和表情，可用于重建整个3D面部几何图形(包括面部的不可见部分)，绕过3D可变形模型的构建(在训练期间)和拟合(在测试期间)。我们通过一个简单的CNN架构实现这一点，该架构对单个2D图像的3D面部几何体的体积表示进行直接回归。我们还展示了如何将面部关键点（landmark）定位的相关任务结合到所提出的框架中，并帮助提高重建质量，特别是对于大姿态和面部表情的情况。代码和模型将在http://aaronsplace.co.uk提供。

1.Introduction

三维人脸重建是从2D图像中恢复三维人脸几何形状的问题。尽管经过多年的研究，它仍然是视觉和图形学研究中的一个未解决的问题。根据设置和所做的假设，它有许多变体以及多种解决方法。这项工作仅使用单个图像进行3D人脸重建。在这种设定下，问题被认为还远未解决。在本文中，我们计划使用卷积神经网络（CNN）通过直接学习从像素到3D坐标的映射来解决这个问题，据我们所知这是第一次使用这种方法。除了简单之外，我们的方法还适用于从网络上下载的完全无约束性图像，包括任意姿势、面部表情和有遮挡的面部图像，如图1所示。

图1:使用VRN引导的一些研究结果，涵盖了完整的姿势范围，包括夸张的表情。

动机。 无论基础假定条件是什么，算法的输入和输出是什么，3D人脸重建通常需要复杂的pipeline以及解决模型构建(在训练期间)和模型拟合(在测试期间)的非凸困难优化问题。在以下段落中，我们提供了5种主要方法的示例:

在3D可变形模型(3DMM) [2，20]中，最常见的方法是从单个图像(以及其他图像)预测完整的3D面部结构，训练包括针对密集图像对应关系的迭代流程，这个很容易失败。此外，测试需要仔细的初始化，来解决一个困难的高度非凸优化问题，这是一个很慢的过程。
文献[10]的工作是从单个图像进行2.5D重建的一种常见方法，它制定并解决了一个经过仔细初始化的(仅对于正面图像)非凸优化问题，以交替方式恢复光照，深度和反照率，其中每个子问题本身都是一个困难的优化问题。
在文献[11]中，提出了一种最近非常常见的用来从近正面图像创建中性对象特定的2.5D模型的方法，它的迭代过程需要定位面部标志点、正面化、解决光度立体问题、局部表面法线估计以及最终形状积分。
在文献[23]中，为每个视频帧重建高度详细的2.5D面部形状的最先进的pipeline需要先计算（离线）某个人的平均形状和照明子空间，而测试是一个迭代过程，需要复杂的姿态估计算法、模型和视频帧之间的3D流计算，最后通过解决从阴影到形状的优化问题来进行形状细化。
最近，文献[21]的最先进的方法是从一组个人照片中产生平均(中性)3D人脸，首先进行地标检测，之后使用稀疏点集拟合3DMM，然后解决类似于[11]中的优化问题，再进行表面法线估计，最后通过解决另一个能量最小化问题进行表面重建。

简化上述工作中涉及的技术挑战是本文的主要动机。

1.1. Main contributions

我们描述了一种非常简单的方法，该方法通过使用一种新型的3D面部几何形状体积表示和合适的CNN架构来绕过3D面部重建中遇到的许多困难，CNN架构被训练成直接从2D面部图像回归到相应的3D体积。我们的方法概述如图4所示。总之，我们的贡献是:

给定一个由2D图像和3D人脸扫描组成的数据集，我们研究CNN是否可以以端到端的方式直接学习从图像像素到完整3D人脸结构几何体(包括不可见的人脸部分)的映射。事实上，我们证明了这个问题的答案是肯定的。
我们证明了CNN在只处理单个2D面部图像，不需要精确对齐，也不需要在图像之间建立密集的对应关系，可用于任意面部姿势和表情，并可用于绕过3DMM的构建(在训练期间)和拟合(在测试期间)来重建整个3D面部几何图形。
我们通过一个简单的CNN架构实现了这一目标，该架构完成了从单个2D图像到3D人脸几何形状的体积表示的直接回归。并没有使用3DMM拟合。我们的方法仅使用2D图像作为提出的CNN架构的输入。
我们展示了如何将3D面部标志定位的相关任务结合到所提出的框架中，以及是如果有助于提高重建质量的，特别是对于大姿态和面部表情的情况。
我们汇报了对网络上受约束性和完全不受约束性的图像（controlled and completely unconstrained images）（理解为非自然光条件下和自然光条件下） 进行大量实验的结果，证明我们的方法在单图像3D人脸重建方面比先前的工作有很大的优势。

2.Closely related work

本节回顾了3D人脸重建、基于CNN的深度估计以及使用CNN进行3D表示建模密切相关的工作。

3D人脸重建。 有关3D人脸重建的完整文献综述超出了本文的范围；我们只关注，我们的方法做了最小的假设，即它只需要一个单一的2D图像来重建完整的3D面部结构，并且可以在任意姿势和表情的情况下工作。在单一图像设置下，与我们的方法最相关的工作是基于3DMM拟合[2，20，28，9，8]和[13]的工作，该工作完成联合面部重建和对准，但是重建的是中性正脸。
文献[20]描述了一种使用非线性最小二乘优化(Levenberg-Marquardt)的基于多特征的3DMM拟合方法，该方法只要进行适当的初始化即可产生良好的精度。与非线性优化相反，近来的研究提倡使用CNN回归来估计3DMM参数的更新。在[9]中，3DMM参数分六步估计，每一步使用不同的CNN。值得注意的是，[9]估计了稀疏的一组地标上的3DMM参数，即[9]的目的是3D人脸对准而不是人脸重建。[28]的方法目前被认为是3DMM拟合的最新技术。它是基于单个CNN，它迭代地使用2D图像和在先前迭代中生成的基于3D的表示作为输入来估计模型参数。最后，在[8]中提出了一种最新的基于级联回归地标的3DMM拟合方法。
我们的方法在以下方面不同于上述方法:

我们的方法是直接的。它不估计3DMM参数，事实上，它完全绕过了3DMM的拟合。相反，我们的方法直接产生面部几何图形的3D体积表示。
由于这一根本差异，我们的方法在所使用的CNN架构方面也大不相同：我们使用的是一种能够在体素水平上进行空间预测的方法，不是像[28，9]那样整体预测3DMM参数的网络。
我们的方法能够对来自网络的完全无约束性的面部图像产生重建结果，这些图片覆盖了包括任意面部表情和遮挡的面部姿态的全部范围。当与最先进的CNN方法[28]的3DMM拟合进行比较时，我们完成了很大的性能改进。

与基于阴影的形状的方法[10，23]相比，我们的方法无法捕捉如此精细的细节。然而，我们认为这主要是与使用的数据集有关的问题，而不是与方法有关的问题。给定像[10，23]产生的训练数据，那么我们相信我们的方法也有能力学习更精细的面部细节。

基于CNN的深度估计。 我们的工作收到了文献[5，6]的启发，他们的工作展示了可以使用单个图像作为输入直接训练CNN从像素回归到深度值。我们的工作在三个重要方面与[5，6]不同：首先，我们专注于面部（即可变形对象），而[5，6]关注的是主要包含刚性物体的一般场景。其次，[5，6]学习了从2D图像到2D深度图的映射，而我们证明了人们实际上可以学习从2D到包括面部不可见部分在内的完整3D面部结构的映射。第三，[5，6]使用多尺度方法来处理从低分辨率到高分辨率的图像。相反，我们以固定比例处理人脸（假设这是由人脸检测器提供的），但是我们基于最先进的bottom-up top-down模块[15]构建了CNN，该模块可以进行分析和结合不同分辨率的CNN特征，最终在体素级别做出预测。

3D重建工作的最新进展。 据我们所知只有一项研究是通过CNN进行体积回归的。[4]的研究是用LSTM从一个或多个图像中回归多个对象类的3D结构。这和我们的研究至少有两个方面的不同。首先，我们通过回归与图像空间对齐的体积，将重建视为语义分割问题。其次，我们在一个步骤中仅从一个图像开始工作，回归出192×192×200的大得多的体积，与[4]中使用的32 × 32 × 32相反。[26]的工作将输入的3D形状分解成形状图元，这些图元连同一组参数可用于重新组装给定的形状。给定输入形状，[26]的目标是回归形状原始参数，这是通过CNN实现的。[16]的方法扩展了热图回归[24，18]的经典工作，提出了一种4D表示，用于回归稀疏3D标志点的位置，用于人体姿态估计。与[16]不同，我们证明3D体积表示对于学习密集的3D面部几何特别有效。就3DMM拟合而言，最近的工作包括[19]，该工作使用类似于[28]的CNN来产生粗糙的面部几何形状，但还包括用于细化面部几何形状的第二网络和用于连接两个网络的新颖渲染层。另一个最近的工作是[25]，它使用一个非常深的CNN进行3DMM拟合。

3.Method

本节介绍了研究的框架，包括计划数据如何展示。

3.1.Dataset

我们的目标是从2D图像回归完整的3D面部结构。为此，我们的方法需要一个由2D图像和三维面部扫描组成的合适的数据集。因为我们的目标是将该方法应用于来自网络的完全无约束性图像，所以我们选择了[28]的数据集来形成我们的训练和测试集。
该数据集是通过使用[20]的多特征拟合方法，将由Basel[17] and FaceWarehouse [3]的模型的组合构建的3DMM拟合到300W数据集中[22]的无约束图像而生成的，数据集经过了仔细的初始化并通过使用稀疏的关键点约束解决方案。

然后，人脸轮廓被用于将每幅图像渲染到10-15个不同的位置，汇聚出一个称为300W-LP的三维数据集中(超过60000张2D人脸图像和3D网格)。请注意，因为每个网格都是由一个3DMM生成的，所以所有生成的网格的顶点都是密集对应的；然而，这不是我们方法的先决条件，如果可用，也可以使用未注册的原始面部扫描(例如BU-4DFE数据集[27])。

3.2. Proposed volumetric representation

我们的目标是通过CNN回归从2D图像相应的预测每个面部扫描的3D顶点的坐标。正如许多工作所指出的那样（例如，参见[24，18]），使用标准L2 loss对作为向量的所有3D点进行直接回归可能会导致学习困难，因为必须预测每个3D顶点的单个正确值。此外，这种方法需要将所有扫描都内插到固定尺寸的向量上，这是我们的方法不需要的预处理步骤。需要注意的是，当使用CNN回归模型参数（如3DMM参数）而不是实际顶点时，会遇到类似的学习问题。在这种情况下，在使用马氏距离（Mahalanobis distance）或通常采用某种归一化方法时必须要特别注意对权重参数进行适当处理，例如参见[28]。在第4节中，我们将我们的方法的性能与类似方法的性能进行比较[28]。

为了缓解上述学习问题，我们打算将3D人脸重建问题重新构造为2D到3D图像分割中的一种：特别是，我们将3D空间离散化为体素{w，h，d}，将每个3D人脸扫描转换为3D二进制体积V_whd,并为3D面部扫描包围的所有点赋1，否则赋0。也就是说，如果体素{w，h，d}属于人脸的3D体积表示，则V_whd是体素{w，h，d}的ground truth并且等于1，反之则等于0。（即它属于背景）。其转换如图2所示。需要注意的是，该过程会创建一个与2D图像完全对齐的体积。第5节更详细地分析了空间对齐的重要性。图3显示了随机选取一个面部扫描作为体积大小的函数的离散化所导致的误差。鉴于最先进的方法[21，13]的误差只有几个毫米，我们得出的结论是，192 × 192 × 200的离散化产生的误差可以忽略不计。

图2:体素化过程创建了与2D图像对齐的3D人脸网格的体积表示。
图3:由于体素化引入的误差，以体积密度函数的方式呈现。

在给定体积面部表示的前提下，回归面部扫描所有顶点的3D坐标的问题就被简化为3D二进制体积分割的问题。我们将使用来自语义图像分割[[14]及其扩展[[15]的最新CNN架构来处理这个问题，如下一小节所述。

3.3. Volumetric Regression Networks

在本节中，我们描述了计划的体积回归网络，并探索了以下小节中详细描述的几种架构变化：
体积回归网络(VRN)。 我们希望学习从2D面部图像到其对应的3D体积的映射f:I→Vf:I→Vf:I→V。在给定2D图像和构建体积的训练集的条件下，我们使用CNN学习该映射。我们用于3D分割的CNN架构基于[15]的“沙漏网络结构（hourglass network）”，它是使用了跳跃连接（skip connections）[7]和残差学习（residual learning）[14]的全卷积网络的扩展。我们的体积架构由两个沙漏模块组成，这些模块堆叠在一起且无需中间监督。输入是RGB图像，输出是192 × 192 × 200个实数值的体积。这种结构如图4a所示。可以观察到，网络具有编码/解码结构，其中首先使用一组卷积层来计算固定维度的特征表示。该表示被进一步处理回到空间域，重建输入图像和输出体积之间的空间对应关系。不同分辨率的特征被分层组合以进行每个像素预测。第二个沙漏用于完善精细化这个输出，并且具有与第一个沙漏相同的结构。
我们使用sigmoid交叉熵损失函数（sigmoid cross entropy loss function）来训练体积回归网络:l1=∑w=1W∑h=1H∑d=1D[Vwhdlog⁡V^whd+（1−Vwhd）log⁡(1−V^whd)],(1)l_1 = \sum_{w=1}^W\sum_{h=1}^H\sum_{d=1}^D[V_{whd}\log \hat V_{whd}+（1-V_{whd}）\log(1-\hat V_{whd})], (1) l1=w=1∑Wh=1∑Hd=1∑D[VwhdlogV^whd+（1−Vwhd）log(1−V^whd)],(1)
其中V^whd\hat V_{whd}V^whd是回归体积的体素{w，h，d}处的相应sigmoid输出。

在测试时，输入一幅2D图像，网络会回归一个3D体积，从该3D体积恢复外部3D面部网格。我们发现，相比在像素级别进行hard (binary) predictions，我们发现soft sigmoid输出对于进一步处理更为有效。两种表示形式都显示在图5中，其中显然可以使结果更平滑。最后，从3D体积中，可以通过生成体积的等值面来形成网格。如果需要，可以使用迭代最近点（ICP）找到该可变长度网格和固定网格之间的对应关系。

（a）提出的语音回归网络（VRN）接受RGB输入作为输入，并直接使3D体积回归，从而完全绕过3DMM的拟合。每个矩形都是256个要素的残差模块。
（b）提出的VRN引导架构首先检测3D关键点的2D投影，并将其与原始图像堆叠在一起。该堆被馈送到重建网络中，在该网络中直接完成体积回归。

（c）提出的VRN -多任务体系结构回归了3D面部体积和一组稀疏面部关键点。
（以上）图4:体积回归的三种架构概述:体积回归网络(VRN)，VRN引导和VRN多任务。

图5:进行 hard (binary) vs soft(real)预测之间的比较。后者产生更平滑的结果。

VRN-多任务。（VRN - Multitask） 我们还提出了一个多任务VRN，如图4c所示，它由三个沙漏模块组成。第一个沙漏提供了之后两个分沙漏的特征。该分支的第一个将68个iBUG关键点[22]回归为2D高斯曲线，每个都位于单独的通道上。就像前面提到的非引导体积回归方法一样，此叉子的第二个沙漏直接回归3D面部结构的体积。该多任务网络的目标是学习更可靠的功能，这些功能更适合于两个任务分开执行。

VRN引导（VRN - Guided）。我们认为首先执行更简单的面部分析任务应该更有利于重建；尤其是，我们提出了一种由面部关键点引导的体积回归的架构。为此，我们训练了一个堆叠沙漏网络，它在训练和推理过程中接受关键点的指导。该网络具有与非引导体积回归方法类似的体系结构，但是该体系结构的输入是由68个通道堆叠的RGB图像，每个通道包含以68个关键点中的每一个为中心的高斯分布(σ = 1，大约6个像素的直径)。这种堆叠的表示和架构在图4b中示出。在训练中，我们使用ground truth关键点，而在测试中，我们使用堆叠沙漏网络训练面部关键点定位。我们称这个网络为VRN引导。

图6:使用我们的VRN引导方法生成的AFLW2000-3D数据集的一些视觉效果。

3.4. Training

每个体系结构都是使用RMSProp进行端到端训练的，初始学习率为10−410^{-4}10−4，40个时期（epoch）（1个时期等于使用训练集中的全部样本训练一次）后降至10−510^{-5}10−5。在训练过程中，对每个输入样本(人脸图像)及其对应的目标(3D体积)应用随机增强:应用平面内旋转r∈[−45∘，...,45∘]r\in[-45^\circ，...,45^\circ]r∈[−45∘，...,45∘]，平移量tz,ty∈[−15,...,15]t_z,t_y\in[-15,...,15]tz,ty∈[−15,...,15]，缩放比例s∈[0.85,..,1.15]s\in[0.85,..,1.15]s∈[0.85,..,1.15]。在20%的样本中，输入和目标水平翻转。最后，在每个RGB通道上用一些颜色缩放来调整输入样本。
在VRN引导的情况下，关键点检测模块被训练为回归高斯分布，其标准偏差约为3个像素(σ = 1)。

4. Results

我们仅在3个不同的数据库上进行了跨数据库实验，即AFLC 2000-3D、BU-4DFE和Florence，展示了所有提出的网络(VRN、VRN -多任务和VRN -引导)的性能，以及两种目前最先进的方法，即3DDFA (3D Dense Face Alignment)(3D人脸对齐)[28]和EOS [8]的性能。这两种方法都用的是3DMM拟合(3DDFA使用了CNN)，而VRN完全绕过了这个过程。

表1：就NME而言，AFLW2000-3D，BU4DFE和Florence的重建精度。越低越好。
（NME : normalised mean error : 归一化的，参考长度的坐标偏差衡量指标，用来评判人脸关键点回归质量的重要指数）

我们的结果可以在表1、图7和图8中找到。在图6中可以看到使用VRN引导处理AFLW2000-3D数据库中一些具有挑战性的图片生成的视觉效果。在补充材料中可以找到失败案例的例子，以及VRN和VRN引导之间的直观比较。从这些结果中，我们可以得出以下结论:

体积回归网络（VRN）在所有数据集上的表现都大大优于3DDFA和EOS，这证明了直接回归3D面部结构对于CNN学习而言是一个更容易的问题。
所有VRN在面部姿势，表情和遮挡的不同情况中均表现良好。而且，不同数据集之间也没有明显的性能差异（ALFW2000-3D似乎要困难一些）。
性能最好的VRN是由检测到的关键点引导的VRN（VRN-引导），但是以更高的计算复杂性为代价：VRN-Guided使用另一个堆叠的沙漏网络进行关键点定位。
VRN - Multitask并不总是比普通的VRN表现得特别好（事实上，在BU-4DFE上它的表现更差），不能证明网络复杂性的增加和效果成正比。似乎最好是将训练网络专注于手头的任务。

关于我们的实验的详细信息如下：
数据集。（a）AFLW2000-3D: 由于我们的目标是在完全无约束性的图像上测试我们的网络，因此我们首先在AFLW2000-3D [28]数据集上进行了实验，该数据集包含来自AFLW的前2000张图像的3D面部网格[12]。（b） BU-4DFE: 我们还对BU-4DFE渲染的图像进行了实验[27]。我们对“快乐”和“惊讶”表情的每个参与者围绕x轴旋转-20°到20°内的3个角度进行渲染。对于每个x轴旋转，还渲染了围绕z轴旋转-80°到80°内的7个角度。随机增加了照明方向和颜色的显著变化，使图像的处理更具挑战性。 （c）Florence: 最后，我们对 Florence[1]数据集的渲染图像进行了实验。面部图像以与BU-4DFE相似的方式进行渲染，但参数略有不同：每个脸部以20个不同的姿势进行渲染，间距为-15、20或25°，并且每五个之间均等间隔旋转-80和80°。

图7:ALFW2000-3D数据集在自然场景情况下的图片(左)和BU-4DFE数据集渲染出的图片(右)基于NME的表现。比较了提出的体积回归网络（VRN）、EOS和3DDFA。

图8:Florence数据集中大姿态非自然光图片基于NME的表现。比较了提出的体积回归网络（VRN）、EOS和3DDFA。

错误指标。 为了衡量每张脸重建的准确性，我们使用归一化平均误差（NME），其定义为由外部3D眼间距离归一化的预测和ground truth重建之间的平均每顶点欧几里德距离:NME=1N∑k=1N∣∣xk−yk∣∣2d,(2)NME=\frac{1}{N}\sum_{k=1}^N\frac{||x_k-y_k||_2}{d}, (2)NME=N1k=1∑Nd∣∣xk−yk∣∣2,(2)
其中N是每个面部网格的顶点数，d是3D眼间距离，xk,ykx_k,y_kxk,yk是ground truth和预测的网格的顶点数。该误差仅在面部网格有大约19，000个顶点的面部区域上计算。需要注意的是，当ground truth和预测网格之间没有点对应关系时，将使用ICP，但仅用于建立对应关系，即不使用刚性对齐。如果使用刚性对齐，我们发现，对于所有方法，误差都减小了，但结果是性能的相对差异保持不变。为完整起见，我们将这些结果包含在补充材料中。
与最新技术的比较。 我们将VRN与公开提供代码的最新3D重建方法进行了比较。这些方法包括3DDFA [28]和EOS [8] 的最新方法。（对于EOS，我们使用了较大的正则化参数λ= 5000，我们发现它对大多数图像提供最佳性能。该方法使用2D关键点作为输入，因此，出于公平比较的目的，为此训练了用于2D关键点检测的堆叠沙漏。我们的测试是使用EOS v0.12进行的。）

5. Importance of spatial alignment

[4]中描述的3D重建方法使用LSTM从一个或多个图像中还原了固定方向的3D体积。这与我们拍摄单个图像并回归空间对齐体积的方法不同，我们认为这种方法更容易学习。为了探索忽略空间对齐的后果，我们训练了VRN的变形，该变体回归面部的正面，即[4]中固定方向的面部。（我们还尝试使用[4]中样本的代码用我们自己的体积训练网络。不幸的是，我们无法使网络学习任何东西。）
尽管此网络可生成合理的面孔，但它只能粗略的捕获表情，所有面孔的形状似乎几乎保持相同。这在图9中非常明显。数字比较在图7（左）中显示为VRN未对齐。我们相信，这进一步证实了当以这种方式执行3D重建时，空间对齐至关重要。

图9:没有对齐的VRN结果(第二列)，以及VRN引导的正面输出(第三列)。

6. Ablation studies（对比试验/控制变量）

在这一节中，我们展示了了旨在进一步阐明所提出的网络性能的实验结果。对于所有展示的实验，我们使用了表现最好的VRN引导。
姿势的影响。 为了测量姿态对重建误差的影响，我们使用所有Florence[1]非自然光图片测量了不同y轴角度下的NME。如图10所示，我们的方法的性能随着姿态的增加而降低。这是意料之中的，因为可见的面部较少，这使得对不可见部分的评估很困难。考虑到这些姿势，我们认为我们的误差仍然很低。

图10:根据Florence数据集上的NME，姿态对重建精度的影响。使用的是VRN引导。

表情的影响。 在3D人脸重建中，某些表情通常被认为很难准确再现。为了测量面部表情对表现的影响，我们从BU-4DFE中渲染了不同表情的正面图像(因为Florence只展示了一个中性表情)，并测量了每个表情的表现。这种极端的面部表情通常不会出现在训练集中，然而如图11所示，不同表情之间的表现差异非常小。

图11:在BU-4DFE数据集上，以NME为指标面部表情对重建精度的影响。使用的是VRN引导。

高斯σ对指导的影响。 我们训练了一个VRN引导，但是这次，VRN引导的面部关键点检测器网络回归更大的高斯分布(σ = 2，而不是正常的σ = 1)。 3D重建的性能下降可忽略不计，这表明只要高斯具有合理的规模，指导总是会有所帮助。

7. Conclusions

我们提出了使用CNN直接体积回归从单个2D图像进行3D面部重建的方法。为此，我们提出并详尽评估了三种不同的网络以进行体积回归，展示的结果表明，提出的网络在整个面部姿势范围内表现良好，并且可以处理面部表情和遮挡。我们还将网络性能与基于3DMM拟合的最新技术进行了比较，该方法报告了在三个不同数据集上的巨大性能改进。未来的工作可能包括改善细节并从网格的等值面建立固定的对应关系。

参考文献

[1] A. D. ”Bagdanov, I. Masi, and A. Del Bimbo. The florence 2d/3d hybrid face datset. In Proc. of ACM Multimedia Int.l Workshop on Multimedia access to 3D Human Objects(MA3HO11). ACM, ACM Press, December 2011.
[2] V . Blanz and T. V etter. A morphable model for the synthesis of 3d faces. In Computer graphics and interactive techniques, 1999.
[3] C. Cao, Y . Weng, S. Zhou, Y . Tong, and K. Zhou. Facewarehouse: A 3d facial expression database for visual computing.IEEE TVCG, 20(3), 2014.
[4] C. B. Choy, D. Xu, J. Gwak, K. Chen, and S. Savarese. 3dr2n2: A unified approach for single and multi-view 3d object reconstruction. arXiv preprint arXiv:1604.00449, 2016.
[5] D. Eigen and R. Fergus. Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture. In ICCV, 2015.
[6] D. Eigen, C. Puhrsch, and R. Fergus. Depth map prediction from a single image using a multi-scale deep network. In NIPS, 2014.
[7] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. 2016.
[8] P . Huber, G. Hu, R. Tena, P . Mortazavian, W. P . Koppen,W. Christmas, M. Rätsch, and J. Kittler. A multiresolution 3d morphable face model and fitting framework.
[9] A. Jourabloo and X. Liu. Large-pose face alignment via cnn-based dense 3d model fitting. In CVPR, 2016.
[10] I. Kemelmacher-Shlizerman and R. Basri. 3d face reconstruction from a single image using a single reference face shape. IEEE TPAMI, 33(2):394–405, 2011.
[11] I. Kemelmacher-Shlizerman and S. M. Seitz. Face reconstruction in the wild. In ICCV, 2011.
[12] M. Koestinger, P . Wohlhart, P . M. Roth, and H. Bischof. Annotated facial landmarks in the wild: A large-scale, realworld database for facial landmark localization. In First IEEE International Workshop on Benchmarking Facial Image Analysis Technologies, 2011.
[13] F. Liu, D. Zeng, Q. Zhao, and X. Liu. Joint face alignment and 3d face reconstruction. In ECCV, 2016.
[14] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015.
[15] A. Newell, K. Yang, and J. Deng. Stacked hourglass networks for human pose estimation. In ECCV, 2016.
[16] G. Pavlakos, X. Zhou, K. G. Derpanis, and K. Daniilidis.Coarse-to-fine volumetric prediction for single-image 3d human pose. arXiv preprint arXiv:1611.07828, 2016.
[17] P . Paysan, R. Knothe, B. Amberg, S. Romdhani, and T. V etter. A 3d face model for pose and illumination invariant face recognition. In A VSS, 2009.
[18] T. Pfister, J. Charles, and A. Zisserman. Flowing convnets for human pose estimation in videos. In ICCV, 2015.
[19] E. Richardson, M. Sela, R. Or-El, and R. Kimmel. Learning detailed face reconstruction from a single image. arXiv preprint arXiv:1611.05053, 2016.
[20] S. Romdhani and T. V etter. Estimating 3d shape and texture using pixel intensity, edges, specular highlights, texture constraints and a prior. In CVPR, 2005.
[21] J. Roth, Y . Tong, and X. Liu. Adaptive 3d face reconstruction from unconstrained photo collections. In CVPR, 2016.
[22] C. Sagonas, G. Tzimiropoulos, S. Zafeiriou, and M. Pantic.A semi-automatic methodology for facial landmark annotation. In CVPR-W, 2013.
[23] S. Suwajanakorn, I. Kemelmacher-Shlizerman, and S. M.Seitz. Total moving face reconstruction. In ECCV, 2014.
[24] J. Tompson, R. Goroshin, A. Jain, Y . LeCun, and C. Bregler.Efficient object localization using convolutional networks. In CVPR, 2015.
[25] A. T. Tran, T. Hassner, I. Masi, and G. Medioni. Regressing robust and discriminative 3d morphable models with a very deep neural network. arXiv preprint arXiv:1612.04904,
2016.
[26] S. Tulsiani, H. Su, L. J. Guibas, A. A. Efros, and J. Malik.Learning shape abstractions by assembling volumetric primitives. arXiv preprint arXiv:1612.00404, 2016.
[27] L. Yin, X. Chen, Y . Sun, T. Worm, and M. Reale. A high-resolution 3d dynamic facial expression database. In Automatic Face & Gesture Recognition, 2008. FG’08. 8th IEEE International Conference on, pages 1–6. IEEE, 2008.
[28] X. Zhu, Z. Lei, X. Liu, H. Shi, and S. Z. Li. Face alignment across large poses: A 3d solution. 2016.

论文阅读（1）Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric CNN Regression相关推荐

Large Pose 3D Face Reconstruction 文章理解
Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric 文章的一点点理解梳理写在前面因为我比较弱,在 ...
论文阅读（2）3D Human Body Reconstruction from a Single Image via Volumetric Regression
3D Human Body Reconstruction from a Single Image via Volumetric Regression 论文阅读 Abstract 1 Introduct ...
【论文阅读】A Point Set Generation Network for 3D Object Reconstruction from a Single Image
论文题目: A Point Set Generation Network for 3D Object Reconstruction from a Single Image (由单张图像进行三维物体重建 ...
行为识别论文阅读（2）——3D Human Sensing, Action and Emotion Recognition in Robot Assisted Therapy of Children
行为识别论文阅读(2)--3D Human Sensing, Action and Emotion Recognition in Robot Assisted Therapy of Children ...
【论文阅读】Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
[论文阅读]Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet? 之前提出的3D卷积网络的深度都很浅,因为当时 ...
论文阅读 [TPAMI-2022] Disentangling Monocular 3D Object Detection: From Single to Multi-Class Recognitio
论文阅读 [TPAMI-2022] Disentangling Monocular 3D Object Detection: From Single to Multi-Class Recognitio ...
《论文阅读》Deep Unsupervised 3D SfM Face Reconstruction Based on Massive Landmark Bundle Adjustment
留个笔记自用 Deep Unsupervised 3D SfM Face Reconstruction Based on Massive Landmark Bundle Adjustment 做什么 ...
论文阅读笔记--Aesthetics-Driven Stereoscopic 3-D Image Recomposition With Depth Adaptation-2018
论文阅读笔记:美学引导的带有深度适应的立体3D图像重构 I.介绍 II.相关工作 A.单目(2D)图像处理 1)美学驱动的重构(Recomposition) 2)图像分割与抠图(Segment and ...
论文阅读：Inferring the 3D Standing Spine Posture from 2D Radiographs
Inferring the 3D Standing Spine Posture from 2D Radiographs 从2D x光片推断三维站立的脊柱姿势前提:这篇论文网络细节不是很明确,作者将论 ...
《A Point Set Generation Network for 3D Object Reconstruction from a Single Image》论文笔记_2D图像生成3D点云
摘要通过深度神经网络生成3D数据已在研究界引起了越来越多的关注. 现存的大多数作品都采用常规表示法,例如体积网格或图像收集: 但是,这些表示法掩盖了3D形状在几何变换下的自然不变性,并且还遭受许多其 ...

论文阅读（1）Large Pose 3D Face Reconstruction from a Single Image via Direct Volumetric CNN Regression