ICCV 2021 | CMU朱俊彦团队：用一张草图轻松创建GAN模型

©作者 | 杜伟、陈

来源 | 机器之心

CMU 助理教授朱俊彦团队的最新研究将 GAN 玩出了花，仅仅使用一个或数个手绘草图，即可以自定义一个现成的 GAN 模型，进而输出与草图匹配的图像。相关论文已被 ICCV 2021 会议接收。

深度生成模型（例如 GAN）强大之处在于，它们能够以最少的用户努力合成无数具有真实性、多样性和新颖的内容。近年来，随着大规模生成模型的质量和分辨率的不断提高，这些模型的潜在应用也不断的在增长。

然而，训练高质量生成模型需要高性能的计算平台，这使得大多数用户都无法完成这种训练。此外，训练高质量的模型还需要收集大规模数据以及复杂的预处理过程。常用的数据集（例如 ImageNet 、LSUN）需要人工标注和过滤；而专用的数据集 FFHQ Face 需要进行人脸对齐以及超分辨率预处理。此外，开发一个高级生成模型需要一组专家的领域知识，他们通常会在特定数据集的单个模型上投入数月或数年的时间，耗时较长。

这就引出了一个问题：普通用户如何创建自己的生成模型？比如，用猫来创造艺术作品的用户可能不愿意使用普通的猫模型，而希望是一种特殊猫的定制模特，摆着特定的姿势：在附近、斜倚着，或者都向左看。一般来说，要获得这样的定制模型，用户必须管理成千上万的向左倾斜的猫图像，然后需要领域专家花几个月的时间进行模型训练和参数调整，才能生成一个较为理想的模型。

在这项工作中，朱俊彦等来自 CMU 和 MIT 的研究者提出 GAN Sketching，该方法通过一个或多个草图重写 GAN，让新手用户更容易地训练 GAN。具体地，该方法还能通过用户草图改变原始 GAN 模型的权重，并且通过跨域（cross-domain ）对抗损失鼓励模型输出来匹配用户草图。

此外，该研究还探索了不同的正则化方法，以保持原始模型的多样性和图像质量。

论文地址：https://arxiv.org/pdf/2108.02774.pdf
项目地址：https://peterwang512.github.io/GANSketching

实验表明，GAN Sketching 可以塑造 GAN 来匹配草图指定的形状和姿态，同时保持真实感和多样性。研究者最后演示了生成的 GAN 的一些应用，包括潜在空间插值和图像编辑等应用。

它的效果是这样的：绘制一张猫咪草图，模型会匹配与草图神似的猫咪图片：

看起来在远处、趴着的猫咪：

匹配和你对视的猫咪：

方法

研究者的目标是创建一个真实图像的模型，其中这些照片的形状和姿态由草图来指导，但输出的是真实图像，而不再是草图。

基于此，研究者提出了一个使用域转换网络的跨域对抗损失。不过，单单使用跨域对抗损失明显改变了模型的行为，并生成了不真实的结果。因此，他们通过图像空间正则化进一步训练模型，并且为了减轻模型的过拟合，他们限制了特定层的更新，并使用到了数据增强策略。

完整的训练流程如下图 2 所示：

跨域对抗学习

假设 X, Y 分别是由图像和草图组成的域。研究者收集了一个大规模训练图像集 x ∼ p_data(x)和一些手绘草图 y ∼ p_data(y)。他们将 G(z; θ)作为一个从低维代码 z 中生成图像 x 的预训练 GAN，并希望创建一个新的 GAN 模型 G(z; θ´)，它的输出图像呈现与 X 相同的数据分布，同时输出图像的草图也与 Y 的数据分布相似。

为了缩小草图训练数据与图像生成模型之间的差距，研究者提出以跨域对抗损失来激励生成的图像匹配草图 Y。在传递至判别器之前，生成器的输出通过预训练的图像 - 草图网络 F 转换成了草图。如公式（1）所示：

其中，研究者将 Photosketch 作为图像 - 草图网络 F。

图像空间正则化

研究者观察到，仅使用草图上的损失将大大降低图像质量和生成结果的多样性，这是因为该损失迫使生成图像的形状匹配草图。为了解决这一问题，他们添加了第二个对抗损失，以将输出与原始模型的训练设置进行比较。如公式（2）所示：

其中，判别器 D_X 用来保持图像质量和模型输出的多样性，并匹配用户的草图。

研究者还实验了权重正则化，其中使用公式（3）中的损失来显式地惩罚大的变化：

最后，研究者实验了图像和权重正则化方法联合训练的模型，结果发现，该模型并不优于仅通过图像正则化训练的模型。

优化

研究者的目标是：

为了防止模型过拟合并加速微调速度，他们仅修改了 StyleGAN2 的映射网络的权重，其本质上是将 z ∼ N (0, I)重映射为不同的中间潜在空间（W 空间）。

此外，研究者使用了一个预训练的 Photosketch 网络 F，并通过训练固定了 F 的权重。他们实验了应用于训练草图的可微增强策略，结果发现，轻微的增强在场景测试中表现更好。在本研究中，他们使用了转换增强。

实验

为了实现大规模的定量评估，研究者构建了一个模型草图场景数据集。该研究使用 PhotoSketch 将数据集 LSUN 中的马、猫和教堂的图像转换为草图，并手工选择 30 幅形状和姿势相似的草图集合，指定为用户输入，如下图 3 所示。

该研究根据生成图像和评估集之间 FID（Frechet Inception Distance）来评估模型，为了公平比较，该研究通过选择具有最佳 FID 的迭代来评估每个模型。

该研究与以下基线进行了比较：（1）基线 (SBIR)，使用 Bui 等人提出的基于草图的图像检索方法选择最佳匹配样本（2）基线 (Chamfer)，使用 PhotoSketch 计算的输入草图 y 和图像 x 的草图之间的对称倒角距离 d(x, y) + d(y, x) 匹配样本。

表 1 为定量比较，由结果可得该研究所用方法获得的 FID 明显优于基线 (SBIR) 和基线(Chamfer)。此外，该研究还调查了其他训练因素的影响，如表 1 所示。

更少的草图样本：该研究还测试了 GAN Sketching 方法是否能够处理较少数量的草图。每项任务只使用 1 或 5 个草图训练模型，这些草图选自前 30 个草图。结果如下表 1 所示。

消融实验：首先，该研究对正则化方法和数据增强效果进行了实验，结果如下表 2 所示：

正则化方法对比：与使用 L_sketch 训练相比，正则化方法 L_image 或者 L_weight 提高了 FID，而使用 L_image 优于 L_weight 正则化方法。这与下图 4 中的观察结果一致，展示了经过正则化和不经过正则化训练的模型的 snapshot。

为了让普通用户可以定制 GAN，该研究还在新手手绘草图上进行了测试。研究者从 Quickdraw 数据集收集猫和马的草图作为训练图像。首先他们在一个草图上训练模型，并在下图 5 中显示成功和失败的案例。

该研究还观察到，在困难的情况下，可以通过增加输入用户草图的数量来提高性能，如下图 6 所示：

研究者还发现，增强策略是该方法在用户草图中获得成功必不可少的因素。如下图 7 所示，给定相同的输入草图，仅有通过增强策略训练的模型生成了忠实匹配输入草图的图像。

研究者将他们的方法应用于人脸生成模型，并使用增强策略加持的方法自定义了在 4 张人类手绘草图上训练的 StyleGAN2 FFHQ 模型。具体结果如下图 11 所示，可以看到，输出的图像与输入的草图匹配。

应用

研究者了探讨了将他们的方法应用于图像编辑和合成任务的几种方法，并表示：用户利用自定义模型可以更好地执行潜在空间编辑以及更好地操控自然图像。

对于潜在空间编辑来说，研究者在原始模型中应用了潜在发现方法 GANSpace。如下图 8 所示，通过沿着得出的潜在方向移动，他们发现自定义模型可以执行与 Harkonen 等人工作中完全相同的操作。

由于研究者仅调整了生成器的映射网络，他们的方法并没有改变模型处理 W 空间潜变量的方式，因此保留了潜在编辑的属性。他们还观察到，潜在插值（latent interpolation）在模型中保留了平滑性。下图 9 为利用自定义模型的差值结果：

对于自然图像编辑来说，研究者表示，自然图像编辑可以通过图像投影（image projection）来实现。下图 10 为利用原始和自定义模型进行的自然图像编辑：

不过，研究者也遇到了一些失败的示例，具体如下图 12 所示，生成的图像无法忠实地匹配草图的姿态：

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

???? 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

???? 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

????

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

ICCV 2021 | CMU朱俊彦团队：用一张草图轻松创建GAN模型相关推荐

朱俊彦团队推出首个基于内容的深度生成模型搜索算法！
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达点击进入-> CV 微信技术交流群作者 | 李梅转载自:AI科技评论编辑 :陈彩娴最近的生成 ...
3D图像生成和编辑研究成果大放送！朱俊彦团队放出两篇论文实现代码 | 资源...
乾明发自凹非寺量子位报道 | 公众号 QbitAI 朱俊彦团队,一口气放出两篇论文的实现代码! 这两篇论文,都与3D图像有关,都被NeurIPS 2018大会收录了.朱俊彦在Twitter上 ...
GAN能生成3D图像啦！朱俊彦团队公布最新研究成果
晓查发自凹非寺量子位出品 | 公众号 QbitAI GAN现在可以合成3D图像了! 最近,MIT计算机科学与AI实验室的朱俊彦团队,发表了一篇论文<Visual Object Netwo ...
朱俊彦团队最新论文：用GAN监督学习给左晃右晃的猫狗加表情，很丝滑很贴合...
丰色发自凹非寺量子位报道 | 公众号 QbitAI GAN又被开发出一项"不正经"用途. 给猫狗加表情: 给马斯克加胡子: 不管视频中的脑袋怎么左晃右晃,这些表情都能始终如 ...
朱俊彦团队提出GAN压缩算法：计算量减少20倍，生成效果不变，GPU、CPU统统能加速...
边策鱼羊发自凹非寺量子位报道 | 公众号 QbitAI 现如今,GAN的效果已经越来越出神入化. 比如英伟达的GauGAN,就如神笔马良,能够凭空造物: 不过,从无化有背后,计算量也相当惊人 ...
TPAMI 2021 | 清华大学朱文武团队：首篇课程学习综述
©作者 | 机器之心编辑部来源 | 机器之心来自清华大学的研究者王鑫.陈禹东.朱文武撰写了一篇名为<A Survey on Curriculum Learning>的课程学习综述论文, ...
CycleGAN作者朱俊彦宣布重返CMU，担任助理教授
安妮发自凹非寺量子位出品 | 公众号 QbitAI AI领域年轻学者朱俊彦,即将有新的职位调动. 几个小时前,朱俊彦在推特上宣布,在UC伯克利和MIT CSAIL度过了美好时光之后,将于202 ...
ICCV 2021 最新200篇ICCV2021论文分方向汇总
ICCV 2021 结果出炉!最新200篇ICCV2021论文分方向汇总(更新中) - 知乎不久前,计算机视觉三大顶会之一ICCV2021接收结果已经公布,本次ICCV共计 6236 篇有效提交论文 ...
深度解析神经网络中每个神经元的使命 | MIT朱俊彦港中文周博磊力作
作者 | 李科雨编辑 | 陈大鑫我们都知道,深度神经网络擅长查找可解决大型数据集上复杂任务的分层表示. 而对我们人类来讲,应该如何理解这些学习得到的表示呢? 今天介绍的这项工作中,MIT朱俊彦团队 ...

ICCV 2021 | CMU朱俊彦团队：用一张草图轻松创建GAN模型

ICCV 2021 | CMU朱俊彦团队：用一张草图轻松创建GAN模型相关推荐

最新文章

热门文章