作者丨武广

学校丨合肥工业大学硕士生

研究方向丨图像生成

固定的应用场景对于泛化的图像翻译模型来说存在着一定的局限性,往往需要根据实际的需求对网络和细节进行设计以达到特定的效果。图像转换模型中

本篇的目的是为了解读在人脸到肖像画的图像翻译任务下,如何做到这种固定需求的高质量图像转换。本篇的主角是 APDrawingGAN,同时也是 CVPR 2019 Oral,实现了高质量的人脸到肖像图的转换。

论文引入

肖像画是一种艺术表现形式,可以简单的通过线条去捕捉人的独特外观,并且可以做到高相似度的描述。这类素描图往往需要艺术家在人或他们的照片面前绘制,且依赖于整体的观察、分析和经验去创作。一副好的肖像画可以形象的表征人的个性和神气,这往往需要一个受过好的培训的艺术家几个小时的时间去创作。
这种耗时的工作当然可以交给计算机去实现了,但是在实现之前还是要分析一下这项任务的难点。艺术肖像画(APDrawings)是高度抽象的,包含少量稀疏但连续的图形元素(线条)。
同时,APDrawings 涉及数千个不同大小和形状的笔画的密集集合,面部特征下一些小的伪像也能被清楚的看到,面部特征不能有错位、移位出现。不同人物的肖像结构是变化的,没有固定的精确位置,再者为了体现发型的流动性,往往 APDrawings 会有一些指示头发流动的线条。
综合这些难点,想实现一个高质量的人脸到肖像画的转换是难度很大的,上述的特点都要在考虑范围内。
为了解决上述挑战,本文提出了 APDrawingGAN,一种新颖的 Hierarchical GAN 架构,专门用于面部结构和 APDrawing 样式,用于将面部照片转换为高质量的 APDrawings。
为了有效地学习不同面部区域的不同绘图风格,GAN 架构涉及专门用于面部特征区域的几个局部网络,以及用于捕获整体特征的全局网络。为了进一步应对艺术家绘画中基于线条笔划的风格和不精确定位的元素,还提出了一种新的距离变换(DT)损失来学习 APDrawings 中的笔划线。
总结一下 APDrawingGAN 的优势: 
1. 提出了一种 Hierarchical GAN 架构,用于从面部照片中进行艺术人像合成,可以生成高质量和富有表现力的艺术肖像画。特别是,可以用细腻的白线学习复杂的发型;
2. 为了最好地模拟艺术家,模型将 GAN 的渲染输出分成多个层,每个层由分离的损失函数控制;
3. 从 10 个面部数据集中收集的 6,655 张正面照片预训练模型,并构建适合训练和测试的 APDrawing 数据集(包含 140 张专业艺术家的高分辨率面部照片和相应的肖像画)。

模型结构

先从整体上看一下 APDrawingGAN 模型结构:

整体结构是比较直观理解的,整个网络是基于 GAN 建立的,左边为分层生成器,右边为分层判别器,输入的原始人脸图记为。分层生成器的上部分为全局生成器它的输出为全局人脸肖像,下部分为分别对应着左眼、右眼、鼻子、嘴巴、头发、背景的六个局部生成器,这六个生成器得到的肖像局部图结合在一起便得到了,通过融合生成器便得到最终的输出结果
对于判别器则整体上采用的是条件 GAN 的判别器设计,对于真实的肖像图给定的标签为 True,对于合成的肖像图给定的标签是 False,这个标签是人为构建的。同时也是采用全局判别器和六个局部判别器组成,最终确定真假以优化生成器。
接下来,我们对各个部分详细的进行梳理。
全局生成器
这里说的全局生成器和局部生成器并不是我们在感受野中定义的全局和局部,这里的全局和局部就是全局得到的人脸肖像和局部得到的眼睛、鼻子、嘴巴和头发。对于全局生成器采用的是 U-Net 的设计思路,通过下采样结合特征复用的上采样最终得到全局的输出。
局部生成器
局部生成器的前提是要把人脸的各个部位提取出来,将人脸图取出左眼、右眼、鼻子、嘴巴出来,扣除掉这些部位后得到的就是头发部分,对人脸图取掩码得到背景图。将这六个部分分别进行小尺度下的 U-Net 的重构得到对应的局部肖像图,通过 partCombiner2_bg 网络将这六个部分组合组合成一副完整的人脸肖像图,partCombiner2_bg 主要通过在重叠区域使用最小池化来将所有局部生成器的输出混合到聚合图形。
其实从扣出局部的部位到再次将每一个部位整合在一起,这中间还是比较繁琐的,同时这块也是 APDrawingGAN 的主要创新之处,在源码中作者通过固定各个部位的尺度大小,然后通过对每一幅图像的各个部位进行标注(主要是嘴巴和中心位置,保存在 txt 中的 5 行 2 列的坐标),在训练阶段进行截取局部位置时调用。
融合生成器
融合生成器就是将全局生成器得到的全局图和局部生成器得到的局部整合图进行 channel 维度的 concat 后送入到 combine 网络再次经过一些卷积处理最终得到最后的输出
全局判别器和局部判别器
全局判别器和局部判别器就和条件 GAN 的判别器类似,定义真实部分的 label 为真,合成部分的 label 为假,然后通过条件判别器进行优化,整个网络的架构就是堆叠的下采样。

损失函数

整个模型的损失函数由四部分组成,大家熟知的生成对抗损失、像素层面损失、距离变换损失以及局部像素损失。对于生成对抗损失,主要分为两部分一个是全局性的生成对抗损失和局部性六个部位的生成对抗损失;像素层面损失主要是采用 L1 损失:

其中就是真实肖像画的数据;局部像素损失就是对各个部位的合成和真实进行 L1 损失优化,比如对鼻子的局部损失:
我们重点分析一下距离变换损失。
距离变换损失
距离变换指的是对于一张图像中的每一个像素点的值用距离来代替,其实得到的就是一副类似于二值图的图像,用于表示肖像图的黑线分布,用于表示肖像图白线的分布,由肖像图计算黑线与白线可以用卷积层去检测到,从而确定确定对应的。我们可以用下图进一步理解距离变换的定义。

距离变换损失就是衡量真实肖像图与生成肖像图的的差值:

其中像素 (j,k) 在真实和生成肖像图下的距离,得到的最终的损失表示为: 

这种对肖像图中的黑线和白线的距离控制是为了尽可能还原肖像图中的发型流动性和光泽度,让肖像图更加地逼真。
整体损失
最终得到的损失函数为: 

实验

数据集处理
由于由艺术家手绘的肖像图的成本过高,实验组是收集了 140 对面部照片和相应的肖像画的数据集(由专业人员手绘的肖像图),为了实现少量图像对下的训练,从 10 个面部数据集中收集了 6,655 张正面照片,对每张图片使用双色调 NPR 算法 [1] 生成肖像图纸,这个阶段得到的结果通常会产生没有明确下颚线的结果(由于这些位置的图像中的对比度低),再使用 OpenFace [2] 中的面部模型来检测颌骨上的标记,然后将下颌线添加到NPR结果中。
对于这种处理得到的数据,主要用于预训练,预训练阶段为前 10 个 epoch,由于 NPR 生成的绘图(与艺术家的绘图不同)与照片准确对齐,因此在预训练中不去优化距离变换损失。预训练结束后,将数据集换为由专业人员手绘的肖像图进一步训练得到最后的结果,这个过程解释可看下图。

消融对比
文章在定性上做了消融性对比,包括有无局部生成器、距离变换损失、预训练和完整结果。

实验对比
和已有的方法,APDrawingGAN 也与时下的模型进行了定性和定量上的对比。

总结

文章提出了 APDrawingGAN,一种用于将面部照片转换为 APDrawing 的分层 GAN 模型。实验致力于特定的人脸和 APDrawing 风格的转换,特别是旨在完成这种特定的转换工作。通过全局生成器和局部生成器对人脸进行肖像图重构,利用距离变换损失加强肖像图的逼真度,从实验结果上可以实现成功的艺术肖像风格转移,并且取得了一定的优势。
这也启发了我们在通用型的图像翻译工作下,具体的模型设计还需要根据具体的目的需求去设计,在特定的任务下实现合理而且高质量的结果。

参考文献

[1] Paul L. Rosin and Yu-Kun Lai. Towards artistic minimal rendering. In International Symposium on Non-Photorealistic Animation and Rendering, NPAR ’10, pages 119–127, 2010. 5, 6

[2] Brandon Amos, Bartosz Ludwiczuk, and Mahadev Satyanarayanan. OpenFace: A general-purpose face recognition library with mobile applications. Technical report, CMUCS-16-118, CMU School of Computer Science, 2016. 6

点击以下标题查看更多往期内容:

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

?

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 下载论文 & 源码

CVPR 2019 | APDrawingGAN:人脸秒变艺术肖像画相关推荐

  1. python人像绘制_CVPR 2019 | APDrawingGAN:人脸秒变艺术肖像画

    作者丨武广 学校丨合肥工业大学硕士生 研究方向丨图像生成 固定的应用场景对于泛化的图像翻译模型来说存在着一定的局限性,往往需要根据实际的需求对网络和细节进行设计以达到特定的效果.图像转换模型中 Cyc ...

  2. 照片秒变艺术肖像画,Github标星5.2K!

    机器之心报道 深度卷积神经网络已经被广泛用于显著目标检测,并获得了 SOTA 的性能.来自加拿大阿尔伯塔大学的研究者曾提出了边界感知显著目标检测网络 BASNet,并衍生出了一系列流行的工具.今年,该 ...

  3. 经典回顾 | 人脸照片秒变艺术肖像画:清华大学提出APDrawingGAN CVPR 2019 oral paper...

    该项工作被CVPR 2019录取为oral paper.CVPR是计算机视觉和人工智能领域内的国际顶级会议,2019共收到投稿5160篇,录取1300篇,其中oral paper288篇,仅占全部投稿 ...

  4. 人脸照片秒变艺术肖像画:清华大学提出APDrawingGAN CVPR 2019 oral paper

    该项工作被CVPR 2019录取为oral paper.CVPR是计算机视觉和人工智能领域内的国际顶级会议,2019共收到投稿5160篇,录取1300篇,其中oral paper288篇,仅占全部投稿 ...

  5. CVPR 2019 | 人脸照片秒变艺术肖像画:清华大学提出APDrawingGAN

    该项工作被CVPR 2019录取为oral paper.CVPR是计算机视觉和人工智能领域内的国际顶级会议,2019共收到投稿5160篇,录取1300篇,其中oral paper288篇,仅占全部投稿 ...

  6. 清华大学提出APDrawingGAN:人脸照片秒变艺术肖像画,已被CVPR 2019录取

    作者:刘永进教授 肖像画作为人物画的一种,其简约的风格以及以形写神.迁想妙得的创作方法获得了大家的喜爱. 虽然看起来只需简单几笔,但通过线条来捕捉一个人的外表特征捕捉到人的个性和情感并不容易. 即使是 ...

  7. 清华大学提出APDrawingGAN,人脸照片秒变艺术肖像画

    作者 | 刘永进教授 来源 | 转载自数据派THU(ID:DatapiTHU) 清华大学提出APDrawingGAN,该项工作被CVPR 2019录取为oral paper.CVPR是计算机视觉和人工 ...

  8. [日推荐]『涂图艺术滤镜』让你的照片一秒变艺术大片

    今天小编推荐一款有意思的P图工具,帮你的美照一秒变艺术大片 涂图艺术滤镜 简介:借助图像AI技术,让你的照片一秒变身艺术大作 沙画.星空.梵高.卡通--各种风格,是不是很有感觉呀! 此小程序已经在极乐 ...

  9. CVPR 2019 | STGAN: 人脸高精度属性编辑模型

    AttGAN 和 StarGAN 在人脸属性编辑上取得了很大的成功,但当人脸属性之间相互交集或者目标人脸属性比较复杂时,这两种方式对于控制属性的标签上的精细化就显示了些许的不足.STGAN 是一个建立 ...

最新文章

  1. python中的open函数
  2. 【转】LCS和LCS服务器应用程序概述
  3. CoreAnimation编程指南(二)渲染架构
  4. Servlet体系及方法
  5. 【架构】研究谷歌和亚马逊的微服务案例,我们能学习到的经验
  6. 语音识别概念午后大跌 语音识别概念股一览表
  7. php获取类的实例变量
  8. 源码目录变了,修改Eclipse配置:工作空间,JDK
  9. UG12.0运动仿真分析基础到精通视频教程
  10. PotPlayer LAV MadVR SVP4/BFRC播放器设置(极为详细,硬解,渲染,插帧按CPU性能评级)
  11. 费马定理、罗尔中值定理、零点存在定理、拉格朗日中值定理、
  12. virmach VPS升级Ryzen锐龙主机后vps一直离线无法重置解决办法
  13. Java中dynamic是什么_java中dynamic web project与web project 的区别
  14. QQ登录的加密传输安全
  15. twrp Xposed zip包脚本定制全解析
  16. 现在计算机怎样读硬盘端口,组装电脑之硬盘识别篇
  17. 为什么中国只有5%的景区暴利惊人?95%的景区却总是踩到陷阱!做文旅必须看懂此文!
  18. 我的世界服务器背景音乐修改,我的世界修改音乐方法
  19. Mysql配置文件my.cnf配置及配置参数详解
  20. 人工智能可以像人类一样学习吗?

热门文章

  1. dac解码芯片天梯_【关于AK4499引发的思考】选DAC,解码芯片追新有没有必要?
  2. js判断是否在微信浏览器中打开
  3. HTML 学习笔记3
  4. Web服务之四:httpd虚拟主机
  5. linux 光盘yum源搭建
  6. 一次高烧期间的感悟……
  7. JAVA基础:JDK、JRE、JVM的概念
  8. DLX (Dancing Links/舞蹈链)算法——求解精确覆盖问题
  9. 【Android】开发优化之——调优工具:TrackView,Method Profiling
  10. 让知识与经验成为你宝贵的财富