论文大讲堂-2014-IJCV-A Comprehensive Survey to Face Hallucination

0.0 背景介绍

这里的话是西安电子科技大学+沈阳的东北大学一起完成的。

作者背景介绍：

Nannan Wang：Xidian University · School of Telecommunications Engineering - Associate Professor
Skills and Expertise：
Face Sketch-Photo Synthesis
Face Hallucination
Face Recognition

Xinbo Gao：2000–2001年在香港中文大学讯息工程系汤晓鸥教授的Multimedia Lab从事多媒体信息检索领域的博士后研究。
Heterogenerous Image Reconstruction
Machine Learning
Image Quality Assessment
Intelligent Image Perception
Remote Sensing Image Processing & Analysis
Networking and Communications on HAPS

Wei Liu： Northeastern University
Image Quality Assessment

Gao和Liu的交集主要是之前在Tang Xiao ou实验室共事。

这篇文章的话类型是综述，通过对于业界现在主要已经有的流行方法进行介绍并且展望。

综述是指就某一时间内，作者针对某一专题，对大量原始研究论文中的数据、资料和主要观点进行归纳整理、分析提炼而写成的论文。

0.1 摘要

这篇文章简单的介绍人脸超分辨率技术的发展。这里的话face hallucination包括了人脸超分辨率处理和面部结构-照片接合技术。实际上，这两种方法的话在推理一个目标人脸图像上有着相同的目标：通过输入的低分辨率的人脸图像通过一定的方法推理出一个目标的（高分辨率）人脸图像。由于现在图片推理在现在的验证系统，监控系统，执法部分，安全控制和娱乐智能系统中的重要作用，人脸的超分辨率在最近几年越来越引起大家的重视。现有的人脸超分辨率方法可以被分成4个大类：1、贝叶斯推理方法；2、子空间学习法；3、贝叶斯推断和子空间学习法的结合；4、稀疏表示法。除了在相关图像质量上获得更好一些的参数，人脸超分辨率处理在处理复杂情况的时候，会有它自身的成功率限制。这个论文提供了整体的一个简单介绍，同时展示了未来可能的研究方向。

1.1 介绍

人脸图片和其他的生物体图像（指纹，视网膜，虹膜）相比，可以不侵犯别人隐私的情况下，变得更方便、更自然和更直接。因此，现在越来越多的基于人脸图像的应用被大范围的研究推广。其中的应用包括：人脸检测，人脸对其，人脸追踪，人脸建模和人脸识别。这里的话，我们还有其他的现实世界的应用，比如forensic art，电子消费者关系管理和美容术。

脸部图像本身的自由属性和不可控的整体图像的外部情况（比如说一个特性的目标故意的泄露了他的身份）最后适合进行面部图像处理和识别出特性任务的图片并不是那么好获得的。但是在实际生活中，我们很容易的从在线监控视频中提取低分辨率的人脸图像，同时我们也可以很容易的获得艺术家画的人脸草图。这里的话，我们的人脸超分辨率技术就可以用在增强低分辨率的图像，并且对于草图到照片，照片到草图的这种操作打下了基础。

这里的话，有一个广泛的共识：人脸的超分辨率操作可以被用来从输入的拥有不同的形式的原始人脸图像上生成可能的清晰图像。这里的湖不同形式的原始图像可能在分辨率，图片风格，或者图片的模式上存在不同。在这篇文章中，人脸的超分辨率既指代着人脸的超分辨率处理，也指代着人脸素描的合成。

这里的话，我们通常知道的人脸的超分辨率识别的话主要知道的是通过输入的拥有不同的外部特征的人脸原始图片来生成猜测的目标图片。这篇文章中，我们把人脸超分辨率和人脸草图到照片合成的方法认为是FH一个大类的原因是：因为这两种方法拥有相同的数学模型。数学模型就是通过把原始图像中的某一部分对应映射到另外一个图像中的对应部位。这里的话我们下面简要的再介绍一下这种方法。

低分辨率的图像在实际的应用，比如说人脸的识别和高分辨率现实中带来了很多的限制。这里的话我们想要使用超分辨率处理技术，从低分辨率的图像中估计出高分辨率的图像。这里的话，我们可以把可能的超分辨率方法去分成两个种类：基于重建的方法和基于学习的放啊。基于承建的方法是从一系列的模糊了的缩小了的低分辨率图像来重建一张高分辨率的图像。这种方法的话在提升放大倍数方面存在着很大的问题。

近些年来，基于学习的方法出现了，同时在很多的低级别的计算机视觉任务中取得了很有竞争力的成绩。这里的话就包括图像幻感，图像的类比（风格转换），图像的拼合，卡通形象的合成以及材质合成。

基于学习的方法主要是通过查找高分辨率图像和低分辨率图像相关的成对的映射关系，从而从低分辨率的样本中推测出对应的高分辨率图像。这里的话，和基于重建的方法相比，基于学习的方法可以做到更高的放大倍数，同时也可以拥有更好的视觉效果，特别是在单图像超分辨率的应用上。这里也是我们使用FSR算法的主要原因。这种方法的应用可以使用在更下需要特殊先腌制似的方法世行：人体皮肤颜色，人脸面部的强结构和性别信息。这些方法的话可以在提升未来的预测结果中进一步的进行研究。

这里的话我们在搜索犯罪嫌疑的过程中，我们可能得不到犯罪嫌疑人的照片的，因此我们最好的替代办法是通过目击证人告诉侧写师画出来的犯罪嫌疑人的画像来查找犯罪嫌疑人。但是因为嫌疑人的话先在真实的人脸照片在几何和材质上都有着极大的不同，我们单单使用这一幅图像想要来找到一个犯罪嫌疑人的话是非常困难的。这里的话我们就希望能够减小嫌疑人画像和照片之间的视觉差距。这里的话我们有两种方法来达到整体的目标：从草图到照片的转换，或者是照片到草图的转换。这里的话我们把这两个操作统称为FSPS。这里的话我们需要注意的是FSPS算法并没有仅仅约束在人脸识别上，同时在数字娱乐上也有着很多的用途。

这里的话，我们我们的基于学习的FSR（人脸超分辨率）和FSPS（人脸照片草图转换）操作得哈是通过从相关的输入愿图像恢复出高分辨率的图像，这里的话训练图像首先需要成对排泄，则里的话主要采用一系列的机器学习的方法，比如（低分辨率和高分辨率的图片对，草图真实图片对）。

在我们的学习阶段，基于学习的人脸超分和人脸草图-照片转换过程都是通过训练图像和在参考域上面的目标输出图像相互对应，从而通过我们学习的映射关系来预测出我们的输出目标图像。

这里的话，表格1表示出FSPS和FSR方法的大致框架，从这个表格中我们可以看出FSR（人脸超分辨率）和FSPS（人脸-草图转换）这两种技术之间的不同，目前最大的不同的话适合人脸超分辨率操作的话是不要求最后的图像和输入元图像做相互转化的，但是FSPS方法的话是需要做到可以进行逆向操作的。

这里的话，我们的学习域上面的映射关系上倒是相似的。这里的话，结构合成和照片合成的话都是对成的，同时的话这个对称的。这里的话对称指代的是：我们在草图和照片之间进行变换的时候，两个不同的方法通过在算法中的相互角色进行交换就可以了。

因此，一个人脸草图-照片相互转换的过程中，这里面的草图-照片模型可可以直接参考基于学习的人脸超分辨率模型。仅仅只需要改变训练数据就可以了。在这篇文章中，我们就不特别的对于人脸超分辨率和人脸草图-照片转换算法进行分类了。

在这里的图1的话，使用机器学习方法对于训练图像集进行映射的话，对于人脸超分算法实在是要求过于苛刻了。因为人脸超分过程中映射关系的不确定性，有的时候是非常明确的——比如直接一个函数实验输入到输出的映射；有的时候是非常不明确的，比如说有的时候映射关系的话是隐藏在模型中，同时也依靠的很多方法来重建输出的模型。这里的话，基于很多应用到了模型结构的方法，人脸超分的方法可以被分类成4个类别：贝叶斯推测框架，子空间学习框架，贝叶斯推测混合法和子空间学习法以及稀疏表示法。这里的话，人脸超分辨率技术中四个大的分类中可能可以进一步的分成更详细的分类。

在第一张表格中，我们总结了这篇文章常用的表示方式。同时的话这篇文章的其他部分也是这样子组织的。这里的话，我们在第二部分中主要介绍贝叶斯预测框架，在第三部分中主要介绍自空间学习法；在第4部分中主要表示了基于子空间学习的方法；在第5步分钟主要介绍了在人脸超分辨率中的稀疏编码方法。

这里的话我们在第6步分钟主要对于这四个分类进行了比较。最后的话在第七部分我们展望了一下这个方面的后续的发展趋势，同时的话对于整个部分做了总结。

1.2 贝叶斯推理框架

贝叶斯推断利用证据来更新竞争概率模型的不确定性状态。这里的话，我们在贝叶斯推理中很重要的一个点就是贝叶斯定理： P ( A ∣ B ) = P ( b ∣ a ) P ( A ) P ( B ) P(A|B) = \frac{P(b|a)P(A)}{P(B)} P(A∣B)=P(B)P(b∣a)P(A)，这里的话，A、B分别代表的事件空间中的两个不同的是一件。这里的话，我们分别把 I i n I_{in} Iin和 I o u t I_{out} Iout作为人脸超分中的输入（观察值）和输出（等待预测的人脸）。这里的话，我们在进行人脸超分辨率的时候，这里的后验概率是这样的：

I o u t ∗ = a r g m a x I o u t P ( I o u t ∣ I i n ) = a r g m a x I o u t P ( I i n ∣ I o u t ) P ( I o u t ) I_{out}^* = {argmax}_{I_{out}} P(I_{out}|I_{in}) = {argmax}_{I_{out}}P(I_{in}|I_{out})P(I_{out}) Iout∗=argmaxIoutP(Iout∣Iin)=argmaxIoutP(Iin∣Iout)P(Iout)

这里的话，尽管我们的输入 I i n I_{in} Iin是一个观测值一直在变化的，但是 P ( I i n ) P(I_{in}) P(Iin)是一个常数，同时的话可以在上面的公式中被忽略。上面公式中的 P ( I o u t ) P(I_{out}) P(Iout)是一个已知的先验概率。这里的话先验概率是从训练的图片集中间学习得到的。这里的话$P(I_{in}|I_{out})也是代表着可能性。这里的话如果每一个像素都进行相同的处理的话，我们可以认为分布是高斯形式的。

这里的话，在这个大的框架下，我们的不同方法的话仅仅是 P ( I i n ) P(I_{in}) P(Iin)和 P ( I i n ∣ I o u t ) P(I_{in}|I_{out}) P(Iin∣Iout)采用不同的具体形式而已。我们在下面的图表将要展示人脸草图合成操作中使用贝叶斯推测网络框架的例子。

这里的话，在实际的场景中，我们使用分区掩码来进行图片的分割，把一幅大的图片分割成小块。同时的话，由Tang和Wang提出的整体方法Holistic methods是把整个合成了的草图看作一个整体，因此，分区掩码可能退化为相同的变换，实际上整个图像保持为自身。

1.3 基于梯度的数据建模先验

Baker和Kanade最早提出了第一个人脸超分算法。这里的话他们把人脸超分辨率处理的结果看作是预测一个高斯金字塔的最小值操作。

这里的话我个人觉得有必要讨论一下高斯金字塔的概念：

一个图像金字塔是一系列图像的集合

所有图像来源于同一张原始图像 - 通过梯次向下采样获得，直到达到某个终止条件才停止采样。

有两种类型的图像金字塔常常出现在文献和应用中:

高斯金字塔(Gaussian pyramid): 用来向下采样；

拉普拉斯金字塔(Laplacian pyramid): 用来从金字塔低层图像重建上层未采样图像。

这里的话，金字塔，顾名思义：想想金字塔为一层一层的图像，层级越高，图像越小。

每一层都按从下到上的次序编号，层级 ( i + 1 ) (i+1) (i+1) (表示为 G i + 1 G_{i+1} Gi+1 尺寸小于层级 i ( G i ) i (G_{i}) i(Gi))。

为了获取层级为 ( i + 1 ) (i+1) (i+1) 的金字塔图像，我们采用如下方法:

将 G i G_{i} Gi 与高斯内核卷积:

1 16 [ 1 4 6 4 1 4 16 24 16 4 6 24 36 24 6 4 16 24 16 4 1 4 6 4 1 ] \frac{1}{16} \begin{bmatrix} 1 & 4 & 6 & 4 & 1 \\ 4 & 16 & 24 & 16 & 4 \\ 6 & 24 & 36 & 24 & 6 \\ 4 & 16 & 24 & 16 & 4 \\ 1 & 4 & 6 & 4 & 1 \end{bmatrix} 161⎣⎢⎢⎢⎢⎡1464141624164624362464162416414641⎦⎥⎥⎥⎥⎤

将所有偶数行和列去除。

显而易见，结果图像只有原图的四分之一。通过对输入图像 G 0 G_{0} G0 (原始图像) 不停迭代以上步骤就会得到整个金字塔。

以上过程描述了对图像的向下采样，如果将图像变大呢?:

首先，将图像在每个方向扩大为原来的两倍，新增的行和列以0填充(0)
使用先前同样的内核(乘以4)与放大后的图像卷积，获得 “新增像素” 的近似值。

这个方法以像素方式处理图像，旨在提高人脸识别性能。这种方法中的似然概率部分是这样的；

P ( I i n ∣ I o u t ) ≈ e x p { − 1 2 σ 2 ∑ m , n [ G k ( m , n ) − ∑ p , q W ( m , n , p , q ) G 0 ( p , q ) ] 2 } P(I_{in}|I_{out}) \approx exp \{-\frac{1}{2 {\sigma }^2}\sum_{m,n} [G_k(m,n) - \sum_{p,q} W(m,n,p,q)G_0(p,q)]^2\} P(Iin∣Iout)≈exp{−2σ21∑m,n[Gk(m,n)−∑p,qW(m,n,p,q)G0(p,q)]2}

这里的话，我们的 G k , k = 0 , 1 , 2 , 3 , 4 , 5.... N G_k,k = 0,1,2,3,4,5....N Gk,k=0,1,2,3,4,5....N代表的是第k层的高斯金字塔，其中的话第0层就代表是高分辨率图像。

在计算一个特定的高斯金字塔里面相关像素的索引总和时，我们需要借助变量的下标。其中的 W ( ) W() W()代表的是下采样因数，这里的话是用来测量重叠的低分辨率像素和高分辨率像素的数量。 σ \sigma σ是用来衡量离散程度的。其中的似然程度也就代表着我们的原始低分辨率图像和下采样的预测高分辨率图像是否足够的相似。

这里的话，先验的 P ( I o u t ) P(I_{out}) P(Iout)是从图像梯度向量的空间分布中学习得到的。梯度向量由拉普拉斯金字塔的串联给出的，高斯金字塔的水平和垂直一阶和二阶导数。

从训练高分辨率图像的梯度矢量复制与低分辨率输入相对应的高分辨率图像的预测梯度矢量。这里的话，我们通过目标高分辨率图像的梯度与上述预测梯度之间的误差来模拟先验。我们认为其中的误差满足独立、同分布的条件。这里的先验概率可以由方差为KaTeX parse error: Unexpected character: '' at position 18: …igma_{\nabla}^2̲建模得到。

这里的话， H 0 ( . ) H_0(.) H0(.)和 V 0 ( . ) V_0(.) V0(.)表示了实际的水平和垂直的高斯金字塔的一阶导数，这里的话 H ˉ 0 \bar H_0 Hˉ0和 V ˉ 0 \bar V_0 Vˉ0是相应的预测导数。

最终的话，目标的高分辨率图像是从最终的目标函数中计算得到。目标函数是一种似然模型 P ( I i n ∣ I o u t ) P(I_{in}|I_{out}) P(Iin∣Iout)和梯度优先模型 P ( I o u t ) P(I_{out}) P(Iout)混合得到的。当我们使用这个方法来以8倍放大倍数进行重建人脸图像的时候（比如我们把原始人脸图像尺寸从 12 ∗ 16 12*16 12∗16缩放到 96 ∗ 128 96*128 96∗128）。这个方法在Baker和Kanade随后的论文中被进一步研究发现：由重构约束（即先验信息）提供的有用信息随着放大因子的增加而减少。

受Baker和Kanade（2000a）的启发，Dedeoglu等人对基于梯度的先验进行了仔细研究。他们团探索了一个类似的视频幻觉的想法，并且实现了从视频中提取的人脸的的分辨率为从8×6放大16倍到128×96。由于这些方法逐像素地搜索最近邻接点，因此它们非常耗时;此外，基于像素的方法在实际情况下易受噪声影响。与Baker和Kanade（2000a）提取的梯度特征不同，Su等人提出利用可操纵金字塔来对定向可操控的滤波器进行建模，从而使用滤波器提取局部低层面部特征的多方向和多尺度信息。关于源输入的每个像素的特征，其最近邻居的选择方式与Baker和Kanade（2000a，b）和Dedeoglu等人的策略不同。（2004年）。 Baker和Kanade（2000a）从训练图像上相同位置的像素特征中搜索输入像素的最近邻接处。苏等人从训练图像的位置周围的像素特征找到了它的最近邻居，这减轻了精确面部对准的要求。然而，由于提取的特征的高维度，该方法仍然具有高的计算成本。在这里的话，他们的实验结果表现出他们可以使得一个2432的人脸图片变成96128尺寸的小块。

1.4 基于马尔可夫随机场（MRF）的方法

基于马尔可夫随机场方法是表征相邻像素或特征之间的依赖关系。主要考虑因素是： P ( f i ∣ f 1 , . . . . , f N ) = P ( f i ∣ N ( i ) ) P(f_i|f_1,....,f_N) = P(f_i | N(i)) P(fi∣f1,....,fN)=P(fi∣N(i))
这里的话， f i , i = 1 , 2 , 3 , . . . , N f_i,i= 1,2,3,...,N fi,i=1,2,3,...,N代表的是第 i i i个特征，同时 N ( i ) N(i) N(i)代表的是邻接区域。一幅图片我们可以用马尔可夫随机场进行建模。例如、假设图像上每个网格的强度是变量，那么图像强度配置的概率通常是数据约束项和平滑约束项的乘积。数据约束项模拟观测和目标输出之间的保真度，平滑约束模拟目标输出的局部邻域关系。

Freeman和Pasztor和Freeman团队提出了一个基于实例的低级视觉问题学习框架，并将超分辨率作为其应用之一。在他们的开创性作品中，图像（低分辨率图像）和场景（高分辨率图像）由马尔可夫随机场方法建模。

这里的话，每一个场景 I o u t I_{out} Iout和相关的 I i n I_{in} Iin首先被分成小块 { x 1 , x 2 , . . . , x N } \{x_1,x_2,...,x_N\} {x1,x2,...,xN}和 { y 1 , . . . , y N } \{y_1,...,y_N\} {y1,...,yN}。这些补丁中的每一个都表示为马尔可夫网络中的节点。对于任何输入图像块，从训练图像块中搜索K个最近邻点，以构建图像和场景节点之间的兼容性矩阵 ϕ ( x , y ) \phi (x,y) ϕ(x,y)。同时，从对应于所选训练图像块的训练场景块中收集K个目标场景候选块。然后，从邻近场景节点之间的兼容性矩阵? ψ ( x ， y ) \psi(x，y) ψ(x，y)构造邻域关系（平滑约束）。场景 I o u t I_{out} Iout上的联合概率及其对应的图像 I i n I_{in} Iin可以写成:

P ( I i n , I o u t ) = P ( x 1 , . . . , x N , y 1 , . . . . , y N ) ≈ Π ( i , j ) ψ ( x i , x j ) Π k ϕ ( x k , y k ) P(I_{in},I_{out}) = P(x_1,...,x_N,y_1,....,y_N) \approx \Pi_{(i,j)} \psi(x_i,x_j) \Pi_{k} \phi(x_k,y_k) P(Iin,Iout)=P(x1,...,xN,y1,....,yN)≈Π(i,j)ψ(xi,xj)Πkϕ(xk,yk)

其中 ( i , j ) (i,j) (i,j)索引一对相邻的场景节点 i i i和 j j j。兼容性函数?$ \psi(x_i,x_j) 和和和\phi(x_k,y_k)$是被定义为:

这里的话， d i j l ( l = 1 , 2 , 3 , . . . , K ) d_{ij}^l (l = 1,2,3,...,K) dijl(l=1,2,3,...,K)是一个

场景小块 x i x_i xi的第 l l l个可能候选者的像素强度的矢量位于重叠区域中，贴片 x j x_j xj， y k l （ l = 1 ， . . . ， K ） y_k^l（l = 1，...，K） ykl（l=1，...，K）是第 l l l个图像补丁 y k y_k yk的最近邻居的像素强度的矢量。其中： σ s σ_s σs和 σ p σ_p σp是两个预定义的参数。这里的话，等式（1）和（5）表明最大化后验等同于最大化联合概率 P ( I o u t , I i n ) P(I_{out},I_{in}) P(Iout,Iin)，紧接着我们有：

这里的话，我们使用Bayesian belief propagation来寻找一个目标场景节点的后验概率的局部最大值。

Bayesian belief propagation对于统计学来说，它最重要的意义就是在于提出了一种很有效的求解条件边缘概率(conditional marginal probability)的方法。说的有点晦涩了，其实所谓求解条件边缘概率，通俗地说，就是已知某些条件的情况下，推导另外某些事件发生的概率。

这里的话，通过将这些补片与重叠区域的平均值合并来获得整合场景。在Bishop等人的工作中，这个波形的话被应用在了视频序列之中，但是这种方法引入了很严重的视频伪像。为了减轻视频中伪像的数目，同时获得连贯的结果视频，使用了一种采用重新使用高分辨率解决方案的临时解决方案。

受到纹理合成中使用的基于贴片的非参数采样所获得很不错的效果的启发，提出了一种基于非参数MRF的FSR方法。这个方法分别采用两步——全局和局部建模，假设高分辨率的人脸图像自然是两部分的组合 - 对应于低频的全局人脸图像和对应于中频和高频的局部人脸图像：

I o u t = I H = I H l + I H g I_{out} = I_H = I_H^l + I_H^g Iout=IH=IHl+IHg

在此假设下，目标函数（1）可以重写为:

I o u t ∗ = I H ∗ = a r g m a x I H g , I H l P ( I L ∣ I H g + I H l ) P ( I H l ∣ I H g ) P ( I H g ) I_{out}^* = I_H^* = argmax_{I_H^g, I_H^l} P(I_L|I_H^g+I_H^l)P(I_H^l|I_H^g)P(I_H^g) Iout∗=IH∗=argmaxIHg,IHlP(IL∣IHg+IHl)P(IHl∣IHg)P(IHg)

尽管 I L I_L IL主要由 I H I_H IH之中的低频率部分组成，所以： P （ I L ∣ I H g + I H l ) = P ( I L ∣ I H g ) P（I_L|I_H^g+I_H^l) = P(I_L|I_H^g) P（IL∣IHg+IHl)=P(IL∣IHg)，其中的似然概率为 P ( I i n ∣ I o u t ) P(I_{in}|I_{out}) P(Iin∣Iout)和先验概率分别为 P ( I o u t ) P(I_{out}) P(Iout)。

P ( I i n ∣ I o u t ) = P ( I L ∣ L H g ) P(I_{in}|I_{out}) = P(I_L|L_H^g) P(Iin∣Iout)=P(IL∣LHg)
P ( I o u t ) = P ( I H l ∣ I H g ) P ( I H g ) P(I_{out}) = P(I_H^l|I_H^g)P(I_H^g) P(Iout)=P(IHl∣IHg)P(IHg)

与前述方法相反，Liu的团队的话并没有使用似然概率和先验概率来进行模型的建立。他们使用PCA方法来对于整体进行了全局的建模 P ( I L ∣ I H g ) P ( I H g ) P(I_L|I_H^g)P(I_H^g) P(IL∣IHg)P(IHg)。当给定全局人脸图像时，基于补丁的非参数马尔可夫网络类似在Freeman和Pasztor（1999），Freeman等人的MRF模型中建立以对残余局部面部图像 I H l I_H^l IHl（即剩余项 P ( I h l ∣ I H g P(I_h^l|I_H^g P(Ihl∣IHg）进行建模。通过组合 I H g I_H^g IHg和 I H l I_H^l IHl，可以获得目标高分辨率图像。

上述方法为所有面部图像小块构建了相同的成对的基于边缘函数。和这个方法不同的是Stephenson和chen提出的一种构造几种不同的成对兼容性函数的方法，其中位于同一区域或同一组的补丁共享相同的兼容性函数。该方法提高了在查询图像补丁和所选择的最近邻居之间并入更多相关信息的可能性。随后，相似的过程被应用于目标高分辨率图像的估计。

考虑到人脸图像的在结构方面非常的复杂，MRF在统一规模上对解决局部小区域块之间的长程依赖性的能力有限。因此，Wang和Tang提出了一种多尺度的MRF模型用来进行人脸超分。他们的方法通过从不同尺度的训练集中搜索的最近邻接点来构建成对的兼容函数。

在MAP规则下，最佳匹配的邻域补丁作为与输入图像补丁相对应的目标补丁。该方法使用图像绗缝（Efros和Freeman 2001）技术来缝合重叠区域，这减少了由于平均重叠区域的策略导致的模糊效应以及由于并不实际相邻的最近邻接小块而导致的块效应。同时
作者还使用合成草图和照片进行子空间人脸识别。他们将这项工作扩展到照明并构建强大的FSPS（Zhang et al.2010），将照片到照片的小块匹配，照片到草图的小块匹配，形状先验，强度兼容性和梯度兼容性考虑在内。匹配，形状先验，强度兼容性和梯度兼容性。实验结果表明，他们提出的方法比Wang和Tang（2009）报道的结果获得了更好的视觉效果。

Zhou Hao团队在2012提出：以上基于MRF的草图-照片合成方法（Wang和Tang 2009）有两个主要缺点：无法合成新的草图补丁（即最终目标输出的每个补丁来自训练集），同时在解决MRF模型的时候会遇到NP难题。

这里的话，所谓的NP难题是指：NP-hard，其中，NP是指非确定性多项式（non-deterministic polynomial，缩写NP）。所谓的非确定性是指，可用一定数量的运算去解决多项式时间内可解决的问题。
NP问题通俗来说是其解的正确性能够被“很容易检查”的问题，这里“很容易检查”指的是存在一个多项式检查算法。若NP中所有问题到某一个问题是图灵可归约的，则该问题为NP-hard问题。

随后他们提出了加权马尔可夫随机场方法（Zhou et al.2012）来模拟草图和照片小块之间的关系。通过选择的K个候选草图块的线性组合，它们的方法可以合成不存在于训练草图集中的新草图块。这里的话，我们的目标函数的问题就变成了一个凸优化问题，具有唯一的最优解。实验结果表明，它们确实改善了一些扭曲变形的现象，但并不像Wang和Tang（2009）恢复的那样清晰。

上述方法基于归纳学习，可能导致测试样本的自身存在高的损失。这里的话主要原因是：归纳学习最大限度地减少了训练样例的经验损失，从而测试样本自身存在的高的损失就会变得非常明显。在2013年，Wang Nan Nan团队提出了一种转换人脸草图-人脸照片合成方法，该方法将给定的测试样例带入学习过程，以最小化这些测试样例的损失。这个图片生成过程中的照片和草图都可以由贝叶斯推测建模得到。草图和照片补丁之间的关系通过类似于加权MRF方法的图形模型建模。实验结果表明，该方法通过主观（合成示例）和客观（面部识别准确）方式实现了最先进的性能。

1.5 嵌入式隐马尔可夫模型（EHMM）对应2.3

隐马尔可夫模型通过概率统计跟踪时变随机过程，并已广泛应用于声学语音信号处理。

Samaria（1994）首先把人脸划分为五个区域（头发，前额，眼睛，鼻子和嘴巴），从而进行构建一维HMM，每个区域对应一个隐藏状态。这里我们把每一个区域的强度值作为我们的观察对象。基于HMM的方法中的三个基本问题说明了这类方法的主干：

1、如何有效地计算观测序列的概率 P ( O ∣ λ ) P(O|\lambda) P(O∣λ),其中给出HMM模型的λ（模型参数）， O = ( O 1 ， . . . ， O T ） O =(O_1，...，O_T） O=(O1，...，OT），其中T表示样本的序数。

2、如何选择在某种有意义的场景下选择最佳的相应状态序列 Q = ( q 1 , . . . , q T ) Q = (q_1,...,q_T) Q=(q1,...,qT),比如 m a x I H g , I H l max I_H^g,I_H^l maxIHg,IHl。

3、如何调整模型λ以可以求的问题1中的概率得到最大值。

这三个问题可以分别借助于1、后向前向算法，2、维特比解码算法和3、鲍姆 - 韦尔奇算法来解决。

在1989年，Rabiner的文章中，对于隐马尔可夫模型的三个问题有了详尽的描述。这里的话因为一幅人脸图像包含着两个维度的空间信息，所以传统的隐马尔可夫模型中存在2个问题：1、丢失了一部分的空间信息；2、在计算的时候有较高的计算成本。

后来为了解决这些问题，E-HMM方法被提出用来对于人脸图像进行建模，同时具有合理的计算成本。Gao等人，Xiao的团队和Zhong的团队把E-HMM方法应用在了学习草图和真实照片之间的非线性关系上。

在讨论这些方法之前，应该引入用于整体面部图像的E-HMM的构造。在该模型中，E-HMM方法通过选取 N s = 5 N_s = 5 Ns=5个超状态（对应于五个不同的部分：前额，眼睛，鼻子，嘴和下巴）组成，其在垂直方向上对面部信息建模。每个超状态都可以分解为从水平方向描述面部信息的嵌入状态。每个超状态及其嵌入状态可以被视为一维HMM，其中每个观察[每个像素在对应于一个隐藏状态的图像中具有观察（矢量）]，即嵌入状态。E-HMM模型中有以下参数：初始超状态分布? ∏ s \prod_s ∏s，超状态概率转移矩阵 A s A_s As，初始嵌入状态分布 ∏ s ( k ) \prod_s^{(k)} ∏s(k)和嵌入状态概率转移矩阵 A e ( k ) A_e^{(k)} Ae(k)。除此以外，在隐藏嵌入状态 S i k S_i^k Sik下（超状态和嵌入状态分别由k和i索引），每个观察点 O t O_t Ot（t指代的是像素）的分布 b i ( k ) ( o t ) b_i^{(k)}(o_t) bi(k)(ot)由高斯混合密度函数表示，其中参数就是指：混合权重，平均向量和协方差。每个像素的观测向量是图像中提取的五个向量的串联：灰度值提取算子，高斯算子，拉普拉斯算子，水平和垂直导数算子。

高（2008b）的团队和钟的团队（2007）通过使用E-HMM从输入测试照片生成草图。图6显示了隐藏变量组生成的草图 - 照片对。与由（1）定义的模型相比，该方法不直接对似然P（In | Out）和先前P（Out）建模。相反，考虑隐藏变量 z = { z 1 ， . . . ， z N } z = \{z_1，...，z_N\} z={z1，...，zN}

I o u t ∗ = a r g m a x I o u t , z P ( I o u t , z ∣ I i n ) = a r g m a x I o u t , z P ( I o u t , z , I i n ) = a r g m a x I o u t , z P ( I i n , z ) P ( I o u t ∣ I i n , z ) = a r g m a x I o u t , z P ( I i n , z ) P ( I o u t ∣ z ) I_{out}^* = argmax_{I_{out},z} P(I_{out},z|I_{in}) = argmax_{I_{out},z}P(I_{out},z,I_{in}) = argmax_{I_{out},z}P(I_{in},z)P(I_{out}|I_{in},z) = argmax_{I_{out},z}P(I_{in},z)P(I_{out}|z) Iout∗=argmaxIout,zP(Iout,z∣Iin)=argmaxIout,zP(Iout,z,Iin)=argmaxIout,zP(Iin,z)P(Iout∣Iin,z)=argmaxIout,zP(Iin,z)P(Iout∣z)

这里的话，为了获得 I o u t ∗ I_{out}^* Iout∗的树枝，一个成对的E-HMM模型 λ \lambda λ被用来使用Baum-Welch算法联合起来计算最大似然概率 P ( O ∣ λ ) P(O|\lambda) P(O∣λ)，这里的话假设草图和对应的照片部分共享相同的超状态和嵌入状态转移概率矩阵。这里观察序列 O O O是由前述五个算子从一个草图-照片对（ I P ， I S ）（I_P，I_S）（IP，IS）提取的。

随后，两个子E-HMM模型 λ P \lambda_P λP和 λ S \lambda_S λS被不成对的E-HMM模型获取，并且计作向量 λ = [ λ P ; λ S ] \lambda = [\lambda_P;\lambda_S] λ=[λP;λS]。

在合成阶段，针对源输入照片和训练照片之间的相似性选择K-E-HMM模型。这里的话，源输入图像的相似度是由 P ( O i n ∣ λ p ) P(O_{in}|\lambda p) P(Oin∣λp)这个概率得到的。这个概率的话是经过了前向-后想算法计算得到的，这里的话 O i n O_{in} Oin代表的是从输入的图像 I i n I_{in} Iin提取的观察序列， λ P \lambda_P λP代表的是一幅训练照片图像的E-HMM模型。

关于每一个 λ P i ， i = 1 , 2 , 3.... K \lambda _{P_i}，i = 1,2,3....K λPi，i=1,2,3....K， P ( I i n , z ) 在这个模型下都可以被进一步表示为： P(I_{in},z)在这个模型下都可以被进一步表示为： P(Iin,z)在这个模型下都可以被进一步表示为： P ( O i n , z ∣ λ P i ) P(O_{in},z|\lambda_{P_i}) P(Oin,z∣λPi)

在上述式子 a r g m a x I o u t , z P ( I i n , z ) P ( I o u t ∣ z ) argmax_{I_{out},z}P(I_{in},z)P(I_{out}|z) argmaxIout,zP(Iin,z)P(Iout∣z)$
中间， G a o 的团队使用了 3 个步骤求解这个概率：首先，最佳状态序列中间，Gao的团队使用了3个步骤求解这个概率：首先，最佳状态序列中间，Gao的团队使用了3个步骤求解这个概率：首先，最佳状态序列z 是从观察序列是从观察序列是从观察序列O_{in}$中使用Viterbi算法提取出来的。

z ∗ = a r g m a x z P ( O i n , z ∣ λ P i ) z^* = argmax_z P(O_{in},z|\lambda_{P_i}) z∗=argmaxzP(Oin,z∣λPi)

接着，我们根据在E-HMM下计算的最佳状态序列 z ∗ z^* z∗重建的对应于目标草图的观察序列 O o u t O_{out} Oout

O o u t ∗ = a r g m a x O o u t P ( O o u t ∣ z ∗ , λ S i ) O_{out}^* = argmax_{O_{out}} P(O_{out}|z^*,\lambda_{S_i}) Oout∗=argmaxOoutP(Oout∣z∗,λSi)

通过分配高斯混合模型的特殊高斯分量的模式可以解决上述优化问题，其中特殊分量的索引由最佳状态序列 z ∗ z^* z∗中的对应状态值确定。随后，可以从观察序列中提取的灰度值重新排列草图 O o u t ∗ O_{out}^* Oout∗。最终目标草图由这些K张草图的线性组合合成，其中的各项的权重值是通过通过和归一化相似度 P ( O i n ∣ λ P ) P(O_{in} |λ_P) P(Oin∣λP)加权得到。

自从Gao团队和Zhong团队实现了整体的脸部图像上的方法。某些精细的局部特征，例如眼睛，鼻子和嘴巴相关的特征，这个方法无法学习到。

为克服这些缺陷，Gao等人（2008c）在后续工作中将上述方法扩展到基于局部小块的草图合成。

在这里，所有图像被分成具有一些重叠的偶数块。对于源输入图像中的每个补丁，使用上面介绍的方法合成相应的目标图像补丁。

Xiao等人的方法将Gao算法扩展到人脸照片合成，采用与Gao等人类似的想法实现。上述几种基于E-HMM的方法中，因为需要对于重叠区域进行平均，因此可能导致模糊效应。考虑到这一点，利用图像绗缝技术（Efros和Freeman 2001）来缝合相邻的贴片，从而既能实现草图合成也能实现照片合成。

2.4 讨论

我们这种gradient-based的数据建模方法仅仅是只需要比较在同一区域上面邻接的相关像素，这样的话就会导致我们在临近小块上有低的compatibility，同时的话，对人脸图像上的小的不对齐也很敏感。基于MRF的方法通过定义了两个compatibility function来对于低分辨率小块（或草图/照片小块）以及对应的高分辨率小块（草图/照片小块）进而解决了gradient-based的方法的不足。但是，基于MRF的方法始终采用MAP标准来选择最合适的邻居补丁以使目标补丁产生人脸幻象（类似GAN中的假象）。这里的话，为了解决这种幻象出现，我们的办法就是需要在训练集中找到足够数目的训练样本，从而能够包涵各个角度的patch state。否则MAP策略可能因为只进行邻域选择操作从而导致变形。基于E-HMM的方法通过从一个状态到其他相邻状态的转移概率矩阵来强制保持相邻状态之间的兼容性。

通过在之前小节中进行讨论的内容，我们发现这三个子类方法都有着需要消耗大量的计算资源和占用巨量内存资源的问题。基于梯度先验的数据建模方法就是针对这个不足处产生的。

MRF-based的方法的话也许可以接也这个问题，通过我们的邻域搜索方法（Tang和Wang在2009年提出）。这种E-HMM-based的方法的话可以对于这个不足之处产生改进，同时的话对于各种pixel-based的feature extraction strategy方法进行预测。