Super-FAN:Integrated facial landmark localization and super-resolution of real-world low resolution faces in arbitrary poses with GANS

这篇论文主要做出了五点贡献:

  1. 提出Super-FAN:一个同时提高人脸分辨率并进行人脸对齐的端到端系统,主要通过热图回归(Heatmap Regression)整合子网络进行人脸关键点定位,然后进入基于GAN的超分辨率处理网络,并将其并入到一个新的热图损失中。
  2. 展示了联合训练两个网络在处理任意人脸姿势的生成图像以及真实世界的低分辨率图像上的优势
  3. 提出了一个改进的残差网络结构来得到较好的超分辨率图像
  4. 首次提交了处理LS3D-W数据集各种人脸姿势的结果,并在超分辨率和人脸对齐方面做出了领先的结果。
  5. 首次在真实世界的低分辨率人脸图像(WiderFace数据集)上做出了良好的视觉效果

作者提出的网络结构主要由三个连接在一起的子网络构成:第一个是超分辨率网络,用于提升LR图像的分辨率;第二个是一个判别器网络,用于区别得到的超分辨图像和原始LR图像;第三个是FAN网络,是一个在超分辨率图像上进行人脸关键点定位的人脸对齐网络。其中超分辨率网络和判别器网络构成一个GAN模型,如下图所示:

超分辨率网络(Super-resolution network)

受到"C. Ledig et al,Photo-realistic single image super-resolution using a generative adversarial network. In CVPR, 2017."中提出的SR-ResNet的启发,作者在SR-ResNet的基础上提出了一个新的残差网络结构用于超分辨率,两者网络结构对比如下:

残差块的组成分布:Per-block layer distribution

顺应SR-ResNet的设计,输入和输出的分辨率分别为16×1616\times 1616×16 和64×64。64\times 64。64×64。根据上图,可以看到SR-ResNet中有16个残差块作用的分辨率16×1616\times 1616×16的数据上,1个残差块作用的分辨率为32×3232\times3232×32的数据,1个残差块作用的分辨率为64×6464\times 6464×64的数据,即16-1-1结构,可将其推广为N1−N2−N3N_1-N_2-N_3N1​−N2​−N3​结构。如上图所示,作者的改进是将网络结构调整为12-3-2结构,增加了对32×3232\times 3232×32和64×6464\times 6464×64维特征的块处理,之所以这样调整的原因是作者希望通过增加残差块来处理较高维特征,从而增强高分辨率图像上的细节,尤其是处理场景复杂的图像。

建立残差块结构:Building block architecture

作者实验了一些残差块的变体,最终选择的残差块结构为如下结构:

其中包含了两个3×33\times33×3的卷积层,卷积层后面都接着一个batch normalization层。另外,作者通过实验发现SR-ResNet使用的PReLU激活函数相对于ReLU激活函数并没有多少改进,因此,在作者的模型中,整个网络结构都使用ReLU作为激活函数。

去除长连接:On the “long” skip connection

SR-ResNet中,将16个作用于原始分辨率图像的残差块分配到一个大块中,然后在该大块的第一块和最后一块增加一个skip连接,试图以此来改进梯度流。但是作者认为,每一层都是在处理上一层的表示特征,是一个渐进的过程,低层次特征会影响到上层特征的处理,而且低层次特征的注入对整体效益几乎没有特别好的影响。因此,作者选择去除这个skip connection。

像素和感知损失(Pixel and perceptual losses)

像素损失(Pixel loss):给定一个低分辨率图像ILRI^{LR}ILR(分辨率为16×1616\times1616×16),其对应一个高分辨率图像IHRI^{HR}IHR(分辨率为64×6464\times6464×64),使用像素化MSE损失来最小化两个图像之间的距离,形式化定义如下:
lpixel=1r2WH∑x=1rW∑y=1rH(Ix,yHR−GθG(ILR)x,y)l_{pixel}=\frac{1}{r^2WH}\sum_{x=1}^{rW}\sum_{y=1}^{rH}\left(I_{x,y}^{HR}-G_{\theta_G}(I^{LR})_{x,y}\right) lpixel​=r2WH1​x=1∑rW​y=1∑rH​(Ix,yHR​−GθG​​(ILR)x,y​)
其中WWW和HHH表示ILRI^{LR}ILR的尺寸,rrr是上采样因子(upsampling factor)。

感知损失(Perceptual loss):当像素化MSE损失达到高PSNR值时,这时的结果通常缺少细节,图像模糊且不现实。在之前的工作中,李飞飞组的Justin Johnson和Alexandre Alahi在《Perceptual Losses for Real-Time Style Transferand Super-Resolution》一文中提出了perceptual loss用于解决这个问题,perceptual loss用于衡量高分辨率图像和低分辨率图像在特征空间的相近程度。作者根据前面超分辨率网络的结构,用三个块(B1,B2,B3B_1,B_2,B_3B1​,B2​,B3​)对应的低、中、高级特征来计算perceptual loss:
lfeature∣i=1WiHi∑x=1Wi∑y=1Hi(ϕi(Ix,yHR−ϕi(GθG(ILR)x,y)2l_{feature|i}=\frac{1}{W_iH_i}\sum_{x=1}^{W_i}\sum_{y=1}^{H_i}\left(\phi_i(I^{HR}_{x,y}-\phi_i(G_{\theta_G}(I^{LR})_{x,y}\right)^2 lfeature∣i​=Wi​Hi​1​x=1∑Wi​​y=1∑Hi​​(ϕi​(Ix,yHR​−ϕi​(GθG​​(ILR)x,y​)2
其中ϕi\phi_iϕi​表示BiB_iBi​块的最后一个卷积层的特征图,WiW_iWi​和HiH_iHi​表示它的大小。

对抗网络(Adversarial network)

对抗网络的主要目的是提升超分辨率的效果。在这个GAN模型中,GAN的生成器GGG(超分辨率网络)通过判别器以及对抗损失(adversarial loss)可以强制性的生成一些更加现实的超分辨率图像,作者使用的GAN是改进的WGAN(M. Arjovsky, S. Chintala, and L. Bottou. Wasserstein gan. 和 I. Gulrajani, F. Ahmed, M. Arjovsky, V. Dumoulin, and A. Courville. Improved training of wasserstein gans.)。

对抗损失(Adversarial loss)

根据WGAN的定义,人脸超分辨率网络的损失为:
lWGAN=EI^∼Pg[D(I^)]−EI∼Pr[D(IHR)]+λEI^∼PI^[(∥∇I^D(I^)∥2−1)2]l_{WGAN}=\mathbb{E}_{\hat{I}\sim \mathbb{P}_g}[D(\hat{I})]-\mathbb{E}_{I\sim \mathbb{P}_r}[D(I^{HR})]+\lambda \mathbb{E}_{\hat{I}\sim \mathbb{P}_{\hat{I}}}[(\lVert \nabla_{\hat{I}}D(\hat{I})\rVert_2-1)^2] lWGAN​=EI^∼Pg​​[D(I^)]−EI∼Pr​​[D(IHR)]+λEI^∼PI^​​[(∥∇I^​D(I^)∥2​−1)2]
其中Pr\mathbb{P}_rPr​是数据分布,Pg\mathbb{P}_gPg​是生成器分布且由I^=G(ILR)\hat{I}=G(I^{LR})I^=G(ILR)来定义,PI^\mathbb{P}_{\hat{I}}PI^​是沿Pr\mathbb{P}_rPr​和Pg\mathbb{P}_gPg​的样本对之间的直线均匀采样 获得的。

人脸对齐网络(Face Alignment Network)

为了获得更好的细节,作者通过热图回归(heatmap regression)将人脸关键点定位(facial landmark localization)集成到超分辨率过程并且优化一个适当的热图损失,从而增强超分辨率图像和原始图像的结构一致性。

根据论文内容,每个人脸关键点由一个二维高斯分布刻画,而人脸关键点的位置对应着二维高斯分布的中心,FAN则使用热图回归的概念来定位关键点,也就是需要回归对应的二维高斯分布(即热图)。根据之前的一些工作,这些热图可以捕获形状信息(姿势,表情等),空间背景和各部分结构关系。通过最小化超分辨率图像和原始图像的热图差距,可以进行人脸定位,并且保证两图像之间具有一致的人脸结构。于是作者基于两个 FAN结构 (A. Bulat and G. Tzimiropoulos. How far are we from solving the 2d & 3d face alignment problem?(and a dataset of 230,000 3d facial landmarks).ICCV, 2017.),将超分辨率网络的输出图像作为一个FAN的输入并进行训练,使得这个FAN的输出与另一个直接作用在初始图像上的FAN的输出相同。

热图损失(Heatmap loss)

基于以上讨论,作者提出了一个增强超分辨率和低分辨率人脸图像的结构一致性的热图损失,定义如下:
lheatmap=1N∑n=1N∑ij(M~i,jn−M^i,jn)l_{heatmap}=\frac{1}{N}\sum_{n=1}^N\sum_{ij}(\widetilde M_{i,j}^n-\widehat M_{i,j}^n) lheatmap​=N1​n=1∑N​ij∑​(Mi,jn​−Mi,jn​)
其中M~i,jn\widetilde M_{i,j}^nMi,jn​是对应于像素点(i,j)(i,j)(i,j)处的第n个人脸关键点(landmark)的热图,在超分辨率图像I^HR\hat{I}_{HR}I^HR​运行FAN产生,M^i,jn\widehat M_{i,j}^nMi,jn​是由另一个FAN在初始图像IHRI_{HR}IHR​上运行得到。

另一个关于热图损失的关键特征是它的优化不需要访问标记好的真实数据,而只需要访问与训练的FAN。这就允许以弱监督方式训练整个超分辨率网络。

总训练损失(Overall training loss)

Super-FAN的总训练损失为:
lSR=αlpixel+βlfeature+γlheatmap+ζlWGANl^{SR}=\alpha l_{pixel}+\beta l_{feature} + \gamma l_{heatmap} + \zeta l_{WGAN} lSR=αlpixel​+βlfeature​+γlheatmap​+ζlWGAN​
其中α,β,γ,ζ\alpha,\beta,\gamma,\zetaα,β,γ,ζ是对应的权重。

实验结果

Super-FAN论文阅读相关推荐

  1. 道路检测 | SNE-RoadSeg论文阅读

    道路检测 | SNE-RoadSeg: Incorporating Surface Normal Information into Semantic Segmentation for Accurate ...

  2. 3D目标检测论文阅读多角度解析

    3D目标检测论文阅读多角度解析 一.前言 CNN(convolutional neural network)在目标检测中大放异彩,R-CNN系列,YOLO,SSD各类优秀的方法层出不穷在2D图像的目标 ...

  3. DCP(Deep Closest Point)论文阅读笔记以及详析

    DCP论文阅读笔记 前言 本文中图片仓库位于github,所以如果阅读的时候发现图片加载困难.建议挂个梯子. 作者博客:https://codefmeister.github.io/ 转载前请联系作者 ...

  4. YOLOv4论文阅读(附原文翻译)

    YOLOv4论文阅读(附原文翻译) 论文阅读 论文翻译 Abstract摘要 1.Introduction 引言 2.Related work相关工作 2.1.Object detection mod ...

  5. resnet结构_ResNet 残差网络论文阅读及示例代码

    论文阅读 其实论文的思想在今天看来是不难的,不过在当时 ResNet 提出的时候可是横扫了各大分类任务,这个网络解决了随着网络的加深,分类的准确率不升反降的问题.通过一个名叫"残差" ...

  6. 论文阅读笔记--Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods 人体姿态估计综述

    趁着寒假有时间,把之前的论文补完,另外做了一点点笔记,也算是对论文的翻译,尝试探索一条适合自己的论文阅读方法. 这篇笔记基本按照原文的格式来,但是有些地方翻译成中文读起来不太顺,因此添加了一些自己的理 ...

  7. 对抗训练-smart 论文阅读笔记

    对抗训练-smart 论文阅读笔记 SMART: Robust and Efficient Fine-Tuning for Pre-trained NaturalLanguage Models thr ...

  8. 【论文阅读】Scene Text Image Super-Resolution in the Wild

    [论文阅读]Scene Text Image Super-Resolution in the Wild 摘要 引言 相关工作 TextZoom数据集 方法 pipeline SRB 中央对齐模块 梯度 ...

  9. 深度学习论文阅读目标检测篇(七)中英对照版:YOLOv4《Optimal Speed and Accuracy of Object Detection》

    深度学习论文阅读目标检测篇(七)中英对照版:YOLOv4<Optimal Speed and Accuracy of Object Detection> Abstract 摘要 1. In ...

  10. 强化学习泛化性 综述论文阅读 A SURVEY OF GENERALISATION IN DEEP REINFORCEMENT LEARNING

    强化学习泛化性 综述论文阅读 摘要 一.介绍 二.相关工作:强化学习子领域的survey 三.强化学习中的泛化的形式 3.1 监督学习中泛化性 3.2 强化学习泛化性背景 3.3 上下文马尔可夫决策过 ...

最新文章

  1. 语义分割:基于openCV和深度学习(二)
  2. Java学习总结:57(Properties子类)
  3. MySQL之alter语句用法总结
  4. 收藏 | Windows 版 IntelliJ IDEA 快捷键终极大全!
  5. 4.1 - 并发编程 - 进程练习题
  6. case例句java_case的一个用法--case 嵌套
  7. Spring AOP 切点(pointcut)表达式
  8. json工具类ObjectMapper的详细使用记录
  9. crm 一级菜单排序,二级菜单选中并且展开,非菜单权限的归属,权限粒度控制到按钮级别...
  10. 怎么打包图片_超简单的免费批量图片压缩技巧,只需3步
  11. [翻译-ASP.NET MVC]Contact Manager开发之旅
  12. ffmpeg 封面提取
  13. C基础——fopen() 的 mode参数
  14. AD如何清理过期电脑
  15. 最受欢迎Java数据库访问框架大比拼,你独爱哪一款?
  16. 【STL源码剖析】STL六大组件功能与运用(目录)
  17. 窗口最大化后超出液晶显示器的屏幕范围的问题
  18. Java Web 代码审计
  19. WIN10系统在中国知网下载期刊封面、扉页、目录的PDF版本
  20. 小天才z6官方禁用怎么关闭_我告诉你小天才z6隐藏功能

热门文章

  1. linux怎么打代码爱心,使用css实现爱心效果
  2. css3 实现圆角的三角形
  3. 在Windows下使用Navicat连接Linux下的MySql
  4. 使用python计算夏普比率与最大回撤和最大回撤时间的程序
  5. lg5手机怎样root,lgg5手机参数
  6. Linux(deepin) 解决 Anaconda 环境中 matplotlib 中文乱码问题
  7. android国际化设置语言后不起作用,Android旋转屏幕后国际化语言失效的解决的方法...
  8. 2021年高压电工考试题及高压电工考试资料
  9. win10密码清除技巧
  10. 教你如何更改windows10系统默认字体