Ultra-resolve Face Images by Discriminative Generative Networks

XIn Yu and Faith Porikli

简单地说，这篇文章的思路就是把超分辨率网络SR封装成GAN中的生成器。而且实现了更大倍数的超分辨率。

之前人脸超分辨率方法的弱点

局限在2x,4x超分辨率
一旦输入图像分辨率极低，得到的超分辨率结果就很模糊。一些使用landmark的方法无法从极低分辨率图像中获取足够的信息。
很多方法超分辨率的结果存在伪影。
部分方法要求训练集和测试集的人脸图像是对齐的，切具有相同的姿态和表情。
生成超分辨率网络可以获取细节信息，但是与真实人脸差距较大。

论文的主要贡献

提出了URDGN，可以超分辨率8倍，而输入图像只有 $16 \times 16$ 。
首个将生成判别网络用语人脸超分辨率的网络，且效果优于其他方法。
通过使用 $l_2$ 正则化表明，本文提出的URDGN可以再任何尺寸下进行超分辨率，而突破GAN只能产生固定大小的图像的束缚。
URDGN的训练集不再局限于对齐、同姿势、同表情、同光照，而只需要脸部朝前，且近似对齐（眼睛对齐即可）。

论文提出的主要方法URDGN

首先GAN中生成器的输入是随机噪声z，输出是想要得到的图像 $\hat{x}$ ，然后判别器区分真实的图像x和 $\hat{x}$ ，生成器努力想要“瞒”过判别器，判别器努力“识破” $\hat{x}$ 。这是GAN的思想，但是GAN生成的图像虽然具有尖锐的细节信息，但如果用在超分辨率上其结果与真实结果有偏差，于是URDGN为了利用GAN的长处，弥补它的不足，设计了一个反卷积网络作为生成器来做超分辨率，其输入是低分辨率图像，设计了一个卷积网络用来做判别器。

其目标函数为：

$\underset{G}{min}\underset{D}{max}F(G,D)\\ =E_{h_i\sim P_H(h)}[log(D(h_i))]+E_{l_i\sim P_L(l)}[log(1-D(G(l_i)))]+\lambda E_{(h_i,l_i) \sim P_H(h,l)}[\begin{Vmatrix}\hat{h_i}-h_i \end{Vmatrix}_F^2]\\ =E_{h_i\sim P_H(h)}[log(D(h_i))]+E_{l_i\sim P_L(l)}[log(1-D(G(l_i)))]+\lambda E_{(h_i,l_i )\sim P_H(h,l)}[\begin{Vmatrix}G(l_i)-h_i \end{Vmatrix}_F^2]$

其中 $P_H$ 表示高分辨率图像的概率分布， $P_L$ 表示低分辨率图像的概率分布， $P_{HL}$ 表示高分辨率图像和低分辨率图像的联合密度函数。 $\lambda$ 是交叉熵损失和欧氏距离损失的平衡因子。

下图是URDGN的网络结构图。

网络训练细节

D的训练：

目标函数前两项与D有关，梯度：

$\frac{\partial F(G,D))}{\partial D}=\bigtriangledown _{\theta_D}(E_{h_i\sim P_H(h)}[log(D(h_i))]+E_{l_i\sim P_L(l)}[log(1-D(G(l_i)))])\\ = \bigtriangledown _{\theta_D}(\frac{1}{N}\sum_{i=1}^n log(D(h_i))+\frac{1}{N}\sum_{i=1}^nlog(1-D(G(l_i))))$

$\theta_D$ 是D的参数，D采用RMSprop的方法更新参数，更新公式：

$\delta^{j+1}=\delta^{j}\alpha +(1-\alpha)(\frac{\partial F(G,D)}{\partial D})^2 \\\theta^{j+1}_{D}=\theta^{j}_{D}+\eta (\frac{\partial F(G,D)}{\partial D})/\sqrt{(\delta^{j+1}+\varepsilon )}$

G的训练：

目标函数后两项与G有关，梯度：

$\frac{\partial F(G,D))}{\partial G}=\bigtriangledown _{\theta_G}(E_{l_i\sim P_L(l)}[log(1-D(G(l_i)))]+\lambda E_{(h_i,l_i )\sim P_H(h,l)}[\begin{Vmatrix}G(l_i)-h_i \end{Vmatrix}_F^2] )\\ = \bigtriangledown _{\theta_G}(\frac{1}{N}\sum_{i=1}^nlog(1-D(G(l_i)))+\frac{1}{N}\sum_{i=1}^n\begin{Vmatrix}G(l_i)-h_i \end{Vmatrix}_F^2] )$

$\theta_G$ 是D的参数，G同样采用RMSprop的方法更新参数，更新公式：

$\delta^{j+1}=\delta^{j}\alpha +(1-\alpha)(\frac{\partial F(G,D)}{\partial G})^2 \\\theta^{j+1}_{G}=\theta^{j}_{G}+\eta (\frac{\partial F(G,D)}{\partial G})/\sqrt{(\delta^{j+1}+\varepsilon )}$

D和G的参数更新公式中： $\eta$ 是学习率设置为0.001，更次执行完一个epoch，学习率就乘以0.99， $\alpha$ 是延迟率设置为0.01， $\varepsilon$ 设置为 $10^{-8}$ ，用于防止分母为0，平衡因子 $\lambda$ 设置为100，目的就是为了让G生成更接近真实高分辨率图像，就像论文中提到的一样，目的屙屎超分辨率图像而不是生成一个图像。

GAN和URDGN的区别

论文还简单介绍了GAN和URDGN的区别：

GAN有全连接层，而URDGN中没有。因为全连接层可以看做是非线性映射，实验表明没有全连接层的GAN无法生成人脸图像，而在URDGN中，输入的LR图像是有结构的，全连接层这种非线性映射会毁坏这种结构特征，于是URDGN中没有使用全连接层。
GAN的输入时随机噪声，而URDGN的输入时低分辨率人脸图像。
GAN中没有 $l_2$ 正则化，无法生成与高分辨率图像

如上图： $GAN^*$ 表示的就是去点全连接层的GAN的结果。

实验

数据集

论文采用的CelebA数据集，从CelebA中随机选择16000个对齐的图像，并将其裁剪成 $128 \times 128$ ，用15000章图像训练，500验证，500测试。将 $128 \times 128$ 下采样得到 $16 \times 16$ 的图像作为低分辨率图像。

对比结果

[5]:Liu, C., Shum, H.Y., Freeman, W.T.: Face hallucination: theory and practice. Int. J. Comput. Vis. 75(1), 115–134 (2007)

[7]Yang, J., Wright, J., Huang, T.S., Ma, Y.: Image super-resolution via sparse representation. IEEE Trans. Image Process. 19(11), 2861–2873 (2010)

[10]Yang, C.Y., Liu, S., Yang, M.H.: Structured face hallucination. In: Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,pp. 1099–1106 (2013)

[16]Dong, C., Loy, C.C., He, K.: Image super-resolution using deep convolutional networks.IEEE Trans. Pattern Anal. Mach. Intell. 38(2), 295–307 (2016)

[8]Ma, X., Zhang, J., Qi, C.: Hallucinating face by position-patch. Pattern Recogn.43(6), 2224–2236 (2010)

下图有表情的人脸的实验对比结果。

下图是未对齐的人脸的实验对比结果

下图是不同姿势的实验对比结果：

下图是脸部朝前的实验对比结果：

论文方法的局限

如果图像出现遮挡，论文的方法无法超分辨率被遮挡的部分，但是遮挡不影响对未遮挡部分的超分辨率。如下图

论文的方法不受人脸平移的影响，但是对旋转非常敏感。论文计划添加一个放射函数估计器，根据估计器的参数调整GAN的参数，以解决这个问题。

URDGN:Ultra-resolve Face Images by Discriminative Generative Networks相关推荐

论文阅读-3D Fetal Skull Reconstruction from 2DUS via Deep Conditional Generative Networks
基于深度条件生成网络的二维超声三维胎儿颅骨重建 -----3D Fetal Skull Reconstruction from 2DUS via Deep Conditional Generative ...
Optimizing the Latent Space of Generative Networks
1. 概述提出了一种称之为Generative Latent Optimization(GLO)的方法,与GAN相比,免去了生成对抗训练的策略,取得了类似GAN的效果 2. GAN的介绍 GAN有三 ...
Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network论文翻译——中英文对照
文章作者:Tyan 博客:noahsnail.com | CSDN | 简书声明:作者翻译论文仅为学习,如有侵权请联系作者删除博文,谢谢! 翻译论文汇总:https://github.com ...
Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network论文翻译——中文版
文章作者:Tyan 博客:noahsnail.com | CSDN | 简书声明:作者翻译论文仅为学习,如有侵权请联系作者删除博文,谢谢! 翻译论文汇总:https://github.com ...
GAN网络学习入门之：A Beginner's Guide to Generative Adversarial Networks (GANs)-翻译
译自:https://wiki.pathmind.com/generative-adversarial-network-gan 你可能认为编码者不是艺术家,但是编程是一个极具创意的职业.它是基于逻辑的 ...
(nips2014)Generative Adversarial Nets by Ian Goodfellow review
ref 初识GAN https://ccc013.github.io/2018/12/10/GAN%E5%AD%A6%E4%B9%A0%E7%B3%BB%E5%88%97-%E5%88%9D%E8%A ...
Generative Adversarial Networks overview（3）
Libo1575899134@outlook.com Libo (原创文章,转发请注明作者) 本文章主要介绍Gan的应用篇,3,主要介绍图像应用,4, 主要介绍文本以及医药化学其他领域应用原理篇请看 ...
ECCV2022论文列表（中英对照）
Paper ID Paper Title 论文标题 8 Learning Uncoupled-Modulation CVAE for 3D Action-Conditioned Human Motio ...
ICML 2018 paper(oral)
参考链接 icml 2018 oral Paperlist Optimal Tuning for Divide-and-conquer Kernel Ridge Regression with Mas ...
The Building Blocks of Interpretability
Interpretability techniques are normally studied in isolation. We explore the powerful interfaces th ...

URDGN:Ultra-resolve Face Images by Discriminative Generative Networks