Pivotal Tuning for Latent-based Editing of Real Images

近日，一篇关于StyleGAN的论文引起了讨论。该技术在保留源图像人物的同时，在细节编辑上实现了更逼真的效果。

StyleGAN越玩越出色！

近日，以色列特拉维夫大学的研究人员对StyleGAN添加了一个特别的训练过程，把StyleGAN玩出新境界。

先来试试效果的，先登场的正是LeCun大神：

谁还没年轻过？

我不是严肃的深度学习巨头：

接下来是吴恩达：

年轻的我长这样：

除了面部年轻化，优化后的StyleGAN还能对人脸进行各种细微的调节，比如面部旋转：

reddit网友表示：「难以置信！去看看代码！」

PTI：基于潜意识的真实图像编辑的关键性调整

论文名为「PTI: Pivotal Tuning for Latent-based editing of Real Images」（基于潜意识的真实图像编辑的关键性调整）。

那么这个关键性调整是什么呢？

近些年，利用预先训练好的StyleGAN的生成能力，人们提出了一大批先进的面部编辑。但要想成功编辑图像，首先必须将图像投射（或反转）到预先训练好的生成器的领域。

然而事实证明，StyleGAN 的潜在空间打破了失真和可编辑性之间的平衡。

这篇论文提出的方法就弥补这一差距。他们稍微改变了生成器，因此域外的图像被映射到域内的潜在代码中。

枢轴调整（ Pivotal Tuning）——一个简短的训练过程，是本文的关键想法。提供近乎完美的重建结果，同时保持原生 StyleGAN 潜在空间 W 的高编辑能力。

在PTI中，一个最初的倒置潜伏代码作为一个支点，围绕这个支点对发生器进行微调。

同时，一个正则化项使附近的特征保持不变，以局部遏制这种影响。

这种训练过程最终改变了主要代表身份的外观特征，而不影响编辑能力。为了补充这一点，作者进一步表明，枢轴调谐也可以调整发生器，以适应众多的面孔，同时对领域的其他部分引入可忽略不计的失真。

PTI 方法的说明。右侧：在关键调整程序之后。C保持了与A相同的高编辑能力，同时与B相比实现了更好的相似度。StyleGAN 的潜在空间以二维方式描绘，其中较暖的颜色表示 W 的密度较高，即具有较高可编辑性的区域。在左侧，作者说明了关键调整之前生成的样本。我们可以看到可编辑性 - 失真的权衡。必须在身份A和身份B之间做出选择。A位于更可编辑的区域，但与真实图像不同。B位于可编辑性较差的区域，这会导致伪像，但会引起较少的失真。

使用在 FFHQ 数据集上训练的 StyleGAN2 生成器，作者反转来自 CelebA-HQ 测试集的图像，并使用四种不同的指标测量它们的重建。

所有指标都表明该方法具有出色的重建能力。

目前，该存储库支持对以下项目进行定性评估：PTI、SG2（W 空间）、e4e、SG2Plus（W+ 空间）。以及使用 InterfaceGAN 和 GANSpace 编辑相同的反演方法。

图片顺序为：原图、W+反转、e4e反转、W反转、PTI反转

这也是最牛的地方，实验结果能把油画和手给生成出来。

不仅如此，论文还包括了来自 CelebA-HQ 数据集的图像比较。作者演示了姿势和微笑去除编辑。

SG2 W+ 上的编辑不会产生预期的效果，例如，第二行的嘴巴没有闭合。SG2和e4e实现了更好的编辑，但失真了。而PTI 则在保留清晰的同时实现了高质量的编辑。

源代码可以在：https://github.com/danielroich/PTI找到。

文中引用一下[38]的论点，越靠近W空间，编辑能力越强。

要点：真实图片的inversion空间与GAN的W空间混合，使得它们都在生成器的domain之内。

本文研究目标，对于真实图片的高清编辑，论点：对于一个编辑任务，对于真实图片的映射到隐层空间后已经out of domain，导致生成的图片会有伪影，因提出了训练生成器，扩大生成器的输入domain，使得编辑后的采样点也在生成器的输入域范围内。所以，本文在训练的时候是pivotal tuning，轻微调整生成器，使得那些从真实图片映射至隐空间可能out of domain的点也能生成和输入一样的图像。这样既能保持编辑能力又能保持重构能力。

训练分两大步，首先是GANinversion，将真实图片映射到wp，然后以这个wp点去训生成器来产生希望的图片，由于wp与真实图片的位置足够近，使得只需增强一些外形参数而不影响其他StyleGAN结构即可完成重构。（intuition的感觉就是先通过原始的GANinversion生成一张相似的脸，再通过finetun把这个相似的脸训成和真实图片一样的脸）

训练：

第一步是GANinversion的训练，与19类似，将图片映射到W空间

第二步是中心调整，第一步GANinversion的W可能具有很好的编辑能力，但是生成的图片失真，也就是distortion-editability tradeoff，因此finetune生成器，训练误差如下：

只要训好了这个生成器，就可以像编辑假图一样编辑真图（用类似InterFaceGAN的方法）。感觉本质上和stylemapGAN有点相似，就是使得原本GAN的Z空间和真实图片的映射空间mix，这样生成器既能生成假图又能重构出真图，这应该是让GAN重构真实图片的一个关键点。

但是论文发现这种训练会使得远离wp的点重构能力退化，为了避免这种效应而引入局部正则化项，这样的目的是限制训练只隐空间的一些局部区域。

训练过程至此结束，实验结果还是比较吊的在于能把油画和手给生成出来。

Pivotal Tuning for Latent-based Editing of Real Images - 知乎

Pivotal Tuning for Latent-based Editing of Real Images相关推荐

计算机视觉论文-2021-06-11
本专栏是计算机视觉方向论文收集积累,时间:2021年6月11日,来源:paper digest 欢迎关注原创公众号 [计算机视觉联盟],回复 [西瓜书手推笔记] 可获取我的机器学习纯手推笔记! 直达笔 ...
年轻的LeCun、吴恩达长啥样？升级版StyleGAN告诉你
来源:机器之心来自以色列特拉维夫大学的研究者在生成图像方面又有了新的升级,所用方法在保留源图像身份的同时,在细节编辑上实现了更精细的效果. 英伟达提出的风格迁移模型 StyleGAN 系列,一直是人 ...
2019_WSDM_Social Attentional Memory Network Modeling Aspect- and Friend-level Differences in Recomme
[论文阅读笔记]2019_WSDM_Social Attentional Memory Network Modeling Aspect- and Friend-level Differences in ...
【论文解析】Deep Generative Models on 3D Representations: A Survey
原文连接:https://mp.weixin.qq.com/s/vpAhZg8FEZJde4FreX-I_A 可通过原文获取论文电子资源. 文章目录内容组织结构 3 FUNDAMENTALS 3.1 ...
[CVPR‘23] PanoHead: Geometry-Aware 3D Full-Head Synthesis in 360 deg
论文|项目总结: 任务:3D human head synthesis 现有问题:GANs无法在「in-the-wild」「single-view」的图片情况下,生成360度人像解决方案:1)提出 ...
11家PaaS公有云供应商服务功能要点比较
在写Cloud Foundry之前,先预热一下.2014年7月,为企业PaaS云建设,个人对11家PaaS公有云供应商的服务内容进行了调查,共享出来,供进行PaaS项目建设的同仁参考.所有调查内容为2 ...
ICLR 2023 Spotlight | 2D图像脑补3D人体，衣服随便搭，还能改动作
来源:机器之心本文约1800字,建议阅读8分钟 EVA3D:从二维图像集合中学习三维人体的合成.‍‍‍‍‍ 在 ICLR 2023 上,南洋理工大学 - 商汤科技联合研究中心 S-Lab 团队提出了 ...
ICLR 2023 Spotlight | 2D图像脑补3D人体：衣服随便搭，还能改动作
©作者 | 机器之心编辑部来源 | 机器之心在 ICLR 2023 上,南洋理工大学 - 商汤科技联合研究中心 S-Lab 团队提出了首个从二维图像集合中学习高分辨率三维人体生成的方法 EVA3D ...
CRISPR/Cas最新研究进展（2020年12月快报）
即将过去的12月份,有哪些重大的CRISPR/Cas研究或发现呢?小编梳理了一下这个月报道的CRISPR/Cas研究方面的新闻,供大家阅读. 1.开发出CiBER-seq新技术,可同时分析细胞中的多达 ...

Pivotal Tuning for Latent-based Editing of Real Images

Pivotal Tuning for Latent-based Editing of Real Images相关推荐

最新文章

热门文章