【深度学习】一个用于styleGAN图像处理的编码器

小白导读

论文是学术研究的精华和未来发展的明灯。小白决心每天为大家带来经典或者最新论文的解读和分享，旨在帮助各位读者快速了解论文内容。个人能力有限，理解难免出现偏差，建议对文章内容感兴趣的读者，一定要下载原文，了解具体内容。

源码链接：https://github.com/omertov/encoder4editing

摘要

最近，通过使用预先训练过的无条件生成器来执行图像编辑的各种方法出现了激增。然而，在真实图像上应用这些方法仍然是一个挑战，因为它必然需要将图像反转到它们的潜在空间。为了成功地反转真实图像，需要找到一种潜在的代码来准确地重建输入图像，更重要的是，允许对其进行有意义的操作。本文详细研究了最先进的无条件生成器StyleGAN的潜在空间。作者识别并分析在样式潜在空间中存在的扭曲-可编辑性权衡和扭曲-感知权衡。然后，作者提出了两个设计编码器的原则，使其能够控制与StyleGAN最初训练的区域的倒置的接近性。作者提出了一个基于作者的两个原则的编码器，这是专为促进编辑真实图像，通过平衡这些权衡。通过对其在包括汽车和马在内的众多具有挑战性的领域的性能进行定性和定量评价，作者证明了作者的反演方法，以及常见的编辑技术，在只有很小的重建精度下降的情况下，获得了较高的真实图像编辑质量。

本文创新点

提出了定量和定性的结果证明distortion-editability distortion-perception权衡,和反相接近的好处w .作者评估作者的编码器,显示作者的方法及其适用性的泛化为各种具有挑战性的领域,与面部域不同,没有共同的结构和可能包含大量的模式。在下图中，作者展示了编码器在多个领域中获得的反转，以及使用各种编辑方法执行的几个操作。可以看到，只有轻微的失真退化，作者能够实现合理的编辑图像，同时保留原始图像的内容和质量。

总结一下，作者提出了四个主要贡献:

作者分析了柱体的复杂潜伏空间，提出了柱体结构的新观点。
作者展示了扭曲、感知和可编辑性之间固有的权衡。
作者描述了这种权衡，并设计了两种编码器来控制它们。
作者提出了e4e，一种新的编码器，是专门设计的，允许随后编辑倒转的真实图像。

框架结构

作者的e4e网络架构。编码器接收一个输入图像，并输出一个样式代码w和一组偏移量1..N 1，其中N为StyleGAN s风格调制层数。作者通过复制w向量N次并将每个i加到对应的元素来获得最终的潜在表示法。在训练期间，Ld-reg正则化鼓励最终表示的不同条目之间存在较小的差异，从而保持接近W。Ladv将每个潜在代码引导到StyleGAN映射网络的范围内，从而使最终的表示更接近于Wk。由于应用了这两个正则化项，编码器的最终学习表示接近于W。

实验结果

作者展示了源图像的三联体，它的反演，以及对多个域的反演图像应用的编辑。在奇数行，作者的基线编码器(A)获得反演。在偶数行，作者使用配置D，对接近w的图像进行编码，观察反演图像的失真和感知质量之间的权衡。例如，在白马的图像中，使用构型A观察倒像的低失真(例如马鞍被保留)。但是，感知质量比D得到的要低(如马头不真实)。关于可编辑性，请注意，在女性的左上角图像中，姿态编辑并没有忠实地改变a中的头发。相反，D以失真的细微退化为代价，获得了一个真实且视觉愉悦的编辑结果。从上到下，从左到右的编辑是:头部姿势，性别，日光，观点(x3)，马姿势，骑马者，猫姿势。

扭曲感知和扭曲编辑的权衡。放大细节。左边的图像是源图像。在顶部一行，作者展示了一系列图像，其中最左边的图像是通过pSp得到的重建图像，最右边的图像是通过e4e得到的重建图像。当作者向右移动时，反转越接近W，失真越严重，感知质量越好。然后，作者使用StyleFlow对每个倒置和插值图像执行性别编辑。注意，当用于编辑的潜在代码接近W时，感知质量变得明显更好。例如，观察最左边编辑过的图像中不真实的头发。

结论

作者的主要贡献有两方面:

作者提出了鼓励将真实图像的编码映射到表现良好的Wk区域的方法；
作者设计了一个编码器，并根据失真和可编辑性之间的权衡，演示了其性能。

作者也讨论了评估重构和可编辑性的困难，并提出了建立在常用措施上的评估协议。从某种意义上说，作者提出的方法是对图像处理方法的一种补充，可以提高真实图像的编辑质量。

一般来说，作者的编码器鼓励映射接近W，这工作得很好，因为W周围的空间仍然是令人惊讶的高度表达。此外，该原理还可用于图像反演以外的问题。例如，它可以应用于地图潜在的向量代表多个图像，或者说两个的组合,如身份和姿态的解离表示，或混合的两个图片,一个合适的潜在目标图像的代码可能存在于邻近w。作者计划去探索这个研究方向。

作者的反演方案是通用的，作者已经在五个具有挑战性和多样化的领域展示了它的性能。然而，请注意，有些领域比其他领域更难。人脸结构良好，简化了编码器的训练。例如，马的领域就复杂得多，因为它是非结构化的，并且有许多模式。因此，训练这样一个领域的编码器是非常具有挑战性的。在未来，作者将考虑像Sendik等人那样的多模态生成器，并将编码器开发成多模态潜在空间。

最后，在这里作者考虑到一个给定的潜在空间的反转。在未来，考虑对生成器进行微调，并训练编码器和解码器，使其针对特定的下游任务实现共同目标，将是一件有趣且具有挑战性的事情。

论文链接：https://arxiv.org/pdf/2102.02766.pdf

—END—
声明：部分内容来源于网络，仅供读者学术交流之目的。文章版权归原作者所有。如有不妥，请联系删除。

往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419，加入微信群请扫码

【深度学习】一个用于styleGAN图像处理的编码器相关推荐

一个用于styleGAN图像处理的编码器
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达小白导读论文是学术研究的精华和未来发展的明灯.小白决心每天为大家 ...
【深度学习】深入浅出数字图像处理基础（模型训练的先修课）
[深度学习]深入浅出数字图像处理基础(模型训练的先修课) 文章目录 1 图像的表示 2 图像像素运算 3 采样与量化3.1 采样3.2 量化3.3 图像上采样与下采样 4 插值算法分类 5 什么是池化 ...
花书+吴恩达深度学习（二二）自编码器（欠完备，DAE，CAE，PSD）
文章目录 0. 前言 1. 欠完备自编码器 2. 去噪自编码器 DAE 3. 收缩自编码器 CAE 4. 稀疏自编码器 5. 预测稀疏分解 PSD 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞 ...
【专利练习4】深度学习模型用于专利分类
深度学习模型用于专利分类仍然是对专利分类代码的学习 https://github.com/newzhoujian/LCASPatentClassification 深度学习模型(七个) Word2V ...
Keras深度学习实战（36）——基于编码器-解码器的机器翻译模型
Keras深度学习实战(36)--基于编码器-解码器的机器翻译模型 0. 前言 1. 模型与数据集分析 1.1 数据集分析 1.2 模型分析 2. 基于编码器-解码器结构的机器翻译模型 2.1 基于编 ...
【深度学习】用于小目标检测的一个简单高效的网络
导读以Tiny YOLOV3的速度达到YOLOV3的效果. 1. 介绍本文提出一种专门用于检测小目标的框架,框架结构如下图: 我们探索了可以提高小目标检测能力的3个方面:Dilated模块,特征融 ...
《预训练周刊》第15期：Bengio, Lecun, Hinton | 人工智能深度学习、用于图像分类的全局过滤网络...
No.15 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第15期&l ...
深度学习笔记一：稀疏自编码器
开始学习深度学习了,既然确定目标就要努力前行!为自己加油!--2015.6.11 Sparse Encoder 1.神经网络概念:假设我们有训练样本集 (x(^ i),y(^ i)) ,那么神经网络 ...
【译】图上的深度学习综述五、图自编码器
Deep Learning on Graphs: A Survey Arxiv 1812.04202 自编码器(AE)及其变体被广泛用于无监督学习 [74],它适用于学习没有监督信息的图节点表示. 在 ...

【深度学习】一个用于styleGAN图像处理的编码器

【深度学习】一个用于styleGAN图像处理的编码器相关推荐

最新文章

热门文章