3D人脸重建硕博论文阅读

基于人脸单视图的3D人脸重建方法研究（华南理工）

摘要

基于人脸正视图来开展 3D 人脸重建。在选择人脸正面图像后，采用主动形状模型（Active Shape Model，ASM）算法进行人脸对齐，从而检测出图像中的人脸特征点。
接着修改 Facegen 导出的模型作为基准 3D 人脸模型，并建立特征点与模型顶点之间的映射关系。根据这个映射关系，使用径向基函数（Radial Basis Function，RBF）插值算法进行插值，进而将基准 3D 人脸模型形变为个性化的 3D 人脸模型。
为了重建具有较强真实感的 3D 人脸，本文接着采用了 OpenGL 纹理映射技术对 3D 人脸模型进行纹理贴图。
采用位置图（Position Map）表示 3D 人脸模型，并结合神经网络实现了基于复杂姿态人脸图像的 3D 人脸重建。
该神经网络首先对人脸图像进行下采样提取特征图，随后将特征图用于上采样生成位置图。在神经网络中，下采样模块由残差块（ Residual Block ）堆叠而成，上采样模块则由本文提出的直连上采样块（Shortcut-upsampling Block）组成。
提出了动态权重损失函数，以促进神经网络进一步收敛。

绪论

人脸特征点（眼睛鼻子嘴角等）检测的准确度等价于人脸对齐的准确度。
参数化人脸模型的本质上是通过调整参数来实现平均人脸形状的线性变化。因此，许多 3D 人脸重建方法的目标都是确定模型参数。

参数化3D人脸模型

历史变迁过程：
Candide -> 3DMM -> Basel Face Model -> FaceWarehouse(提供3D人脸表情数据集和表情模型) -> Surrey Face Model(SFM: 3D人脸拟合库 eos) -> LSFM(目前精度最高的3D人脸模型)
Facegen是一款人头生成软件。 MT3DMM可以更好的匹配亚洲人脸的数据分布

人脸对齐与3D人脸重建

人脸特征点检测的算法：主动形状模型(ASM)算法 -> 主动外观(AAM)模型 -> 3000FPS算法
3000FPS算法为每个特征点创建了一个随机森林，随机森林会输出局部二值特征（Local Binary Features），级联所有特征点对应的局部二值特征就组成了全局二值特征。
训练好的全局二值特征、回归矩阵则可以和输入的 2D 人脸图像、初始人脸形状进行计算，从而输出形状增量，最终确定所有人脸特征点的位置。
2014年使用基于回归树(Ensemble of Regression Trees ERT)的人脸特征点检测算法。然后就发展为使用CNN来完成人脸的对齐（使用三层卷积网络来确定5个特征点的位置，输入的是三个图像，将眼睛鼻子嘴巴这样化成三部分）。接下来就是由粗到细的自动编码网络(CFAN: 定位的特征点能达到68个)
然后就是多任务的深度神经网络，该网络在实现人脸特征点检测任务时，把头部姿态预测、性别分类、人脸表情识别、年龄预测等多个任务作为约束，实现了更好的人脸对齐效果
Xiangyu Zhu 等人在 2016 年提出的 3D 密集人脸对齐(3D Dense Face Alignment，
3DDFA) 中指出，在其之前的大部分算法都无法对偏转角度超过 45°的人脸进行对
齐。为了解决这个问题，他们采用了 3DMM 模型，并对齐了模型中的所有顶点。由于
对齐的顶点足够多，因此这项工作被称为 3D 密集人脸对齐，而这在实际上就已经完成
了对 3D 人脸形状和位置的重建。
3DDFA 的另一大贡献是其合成的 300W across Large Poses（300W-LP）数据集。在
300W-LP 中，每张 2D 人脸图像都对应一个拟合的 3D 人脸模型，这个优良特性使得此后诸多基于人脸单视图的 3D 人脸重建工作都会考虑到该数据集。由于 300W-LP 数据集中的 3D 人脸模型都是通过算法合成的，因此 300W-LP 数据集的精度无法与那些人工扫描的 3D 人脸数据集精度相媲美。但是具有大规模 3D 扫描人脸的数据集十分稀少，而相比于采用 3DMM 模拟 3D 人脸并投影在二维平面中生成 2D 人脸图像的数据集，300W-LP 数据集无疑会更加具有可靠性，因为该数据集的 2D 人脸图像是在真实世界中采集得到。
可用于进行2D以及3D人脸对齐的网络Face Alignment Network(FAN) 。其能够实现高精度的人脸对齐。利用当前人脸模型的特征点与特征点真值之间的差值，迭代地更新 3D 人脸模型，从而实现3D 人脸重建。
基于模型的 3D 人脸重建方法往往会丢失很多细节。为了解决这个问题，有的研究者则提出了无模型的 3D 人脸重建方法，如：体积回归网络（Volumetric Regression Network，VRN）以及位置图回归网络（Position Map Regression Network，PRN）
这两者本质上的工作都是直接回归 3D 人脸模型顶点的位置，从而摆脱 3DMM 的限制。VRN 采用卷积神经网络回归体积表示（Volumetric Representation）的 3D 人脸几何体。PRN 则采用卷积神经网络回归位置图表示的 3D 人脸模型。
VRN 在网络模型大小以及人脸重建效果上比PRN都有较大的提升。PRN 对 VRN 的优势很大程度上来自于位置图，因为位置图能够简洁明了地表示 3D 人脸模型，并且保留更多的空间信息。

3D人脸重建的方法

概览

首先通过人脸对齐来定位人脸正视图中的 2D 人脸特征点，然后根据这些特征点形变基准 3D 人脸模型，最后对形变后的 3D 人脸模型进行纹理映射，从而实现了基于人脸正视图的 3D 人脸重建。

数据集

XM2VTS数据集：XM2VTS 中每个样本的人脸正面照都被标记了 68 个标志性的面部特征，这些特征勾勒出人脸的形状

ASM算法

算法步骤如下：
（1）对齐所有用于训练的数据样本；
（2）利用对齐后的数据样本，通过 PCA 方法为人脸形状建立全局形状模型；
（3）使用样本中特征点的局部灰度信息为每个特征点位置都建立局部特征模型；
（4）采用当前全局形状模型的参数计算全局形状，然后将全局形状置于人脸图像
上，并利用局部特征模型搜索全局形状中各个特征点的新位置；
（5）调整全局形状模型参数，使得全局形状的特征点位置与搜索的特征点新位置
之间偏差最小，从而确定新的全局形状；
（6）重复步骤（4）和步骤（5），在全局形状的特征点位置与搜索的特征点位置偏差满足需求后，结束 ASM 算法流程。

ASM 算法基本无法处理偏转角度过大的人脸

3D人脸模型形变

采用检测的人脸特征点形变基准 3D人脸模型，从而得到个性化的 3D人脸模型。该形变过程需要建立特征点与 3D 人脸模型顶点之间的映射关系，并且采用适当的插值算法对人脸模型网格中未与特征点建立映射关系的顶点进行插值

特征点与人脸模型之间的映射

建立特征点与3D人脸模型顶点之间的映射关系。采用适当的插值算法对人脸模型中未与特征点建立映射关系的顶点进行插值。
径向基函数（RBF）插值算法

纹理映射

采用openGL的纹理映射技术来为人脸模型贴上纹理
在纹理映射的过程中可能重复以及缩放纹理，使得像素发生邻取样而生成了块状图，导致纹理映射结果不够平滑。因此本文在纹理对象绑定后设置了双线性过滤器，以避免这一问题的出现。该过滤器会获取待计算像素邻近的 4 个像素颜色，并以它们的均值作为待计算像素的值
设置 OpenGL 的相机参数。OpenGL 渲染可以视为相机对物体的拍照过程，其渲染结果就相当于照片。因此需要设置相机在世界坐标系中的位置坐标、相机视线的方向、相机本身的方向（垂直于相机视线）。此外，还需设置相机的内在参数，包括相机的可视角度、相机拍摄目标的宽高之比、相机可观测到的物体最近处截面与相机的距离、相机可观测到的物体最远处截面与相机的距离

基于复杂姿态人脸图像的3D人脸重建算法

300W-LP数据集是使用位置图表示的。
将3D人脸模型的纹理映射到2D平面上形成纹理空间，那么模型的每个顶点都会映射到纹理空间中的固定位置。此时使用模型顶点在笛卡尔坐标系中的坐标值 (x, y, z) 替换其在纹理图中映射位置的颜色通道(r, g,b)值。那么该纹理图就包含了模型顶点在空间中的位置，因此它被称为位置图。