在碎片化阅读充斥眼球的时代，越来越少的人会去关注每篇论文背后的探索和思考。

在这个栏目里，你会快速 get 每篇精选论文的亮点和痛点，时刻紧跟 AI 前沿成果。

点击本文底部的「阅读原文」即刻加入社区，查看更多最新论文推荐。

这是 PaperDaily 的第 23 篇文章

本期推荐的论文笔记来自 PaperWeekly 社区用户 @Aidon。这个名为 pix2pixHD 的项目来自英伟达和 UC Berkeley，利用条件 GAN 进行 2048 x 1024 分辨率的图像合成和处理。

本文从三个方面对 pix2pix 方法做了改进，还将他们的方法扩展到交互式语义操作，这对于传统的图像逼真渲染是一个颠覆性的工作。

如果你对本文工作感兴趣，点击底部的阅读原文即可查看原论文。

关于作者：郑琪，华中科技大学硕士生，研究方向为计算机视觉和自然语言处理。

■ 论文 | High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

■ 链接 | https://www.paperweekly.site/papers/1278

■ 作者 | Aidon

论文导读

现有的用于图像逼真渲染的图形学技术，在构建和编辑虚拟环境时往往非常复杂并且耗时，因为刻画真实的世界要考虑的方面太多。

如果我们可以从数据中学习出一个模型，将图形渲染的问题变成模型学习和推理的问题，那么当我们需要创造新的虚拟环境时，只需要在新的数据上训练我们的模型即可。

之前的一些利用语义标签合成图像的工作存在两个主要问题：1. 难以用 GANs 生成高分辨率图像（比如 pix2pix 方法）；2. 相比于真实图像，生成的图像往往缺少一些细节和逼真的纹理。

本文从三个方面对 pix2pix 方法做了改进：一个 coarse-to-fine 生成器，一个 multi-scale 判别器和一个鲁棒的 loss，从而成功合成出 2048 x 1024 的逼真图像。此外，本文还将他们的方法扩展到交互式语义操作，这对于传统的图像逼真渲染是一个颠覆性的工作。

模型介绍

1. The pix2pix Baseline

给定语义标签图和对应的真实照片集 (si,xi)，该模型中的生成器用于从语义标签图生成出真实图像，而判别器用于区分真实图像和生成的图像，该条件GANs对应的优化问题如下：

其中：

pix2pix 采用 U-Net 作为生成器，在 Cityscapes 数据集上生成的图像分辨率最高只有 256 x 256。

2. Coarse-to-fine 生成器

这里一个基本的想法是将生成器拆分成两个子网络 G={G1,G2}：全局生成器网络 G1 和局部增强网络 G2，前者输入和输出的分辨率保持一致（如 1024 x 512），后者输出尺寸（2048 x 1024）是输入尺寸（1024 x 512）的 4 倍（长宽各两倍）。

以此类推，如果想要得到更高分辨率的图像，只需要增加更多的局部增强网络即可（如 G={G1,G2,G3}），具体的网络结构如图所示：

其中 G1 由卷积前端，一系列残差块和一个转置卷积后端组成，G2 也由卷积前端，一系列残差块和一个转置卷积（有时也叫反卷积）后端组成。从图中可以看到，的输入是由的输出和最后一层的 feature map 相加得到，这样就使得全局信息可以传递到 G2。

3. Multi-scale 判别器

要在高分辨率下区分真实的与合成的图像，就要求判别器有很大的感受野，这需要更深的网络或者更大的卷积核才能实现，而这两种选择都会增加网络容量从而使网络更容易产生过拟合问题，并且训练所需的存储空间也会增大。

这里用 3 个判别器 {D1,D2,D3} 来处理不同尺度的图像，它们具有相同的网络结构：

4. 改进的 adversarial loss

由于生成器要产生不同尺度的图像，为使训练更加稳定，这里引入特征匹配损失：

其中表示判别器 Dk 提取的第 i 层特征，T 为总的层数，Ni 为该层总元素的个数。于是，总的目标函数如下：

5. 学习 instance-level 的特征嵌入

当前的图像合成方法都只利用了 pixel-level 的语义标签图，这样无法区分同类物体，而 instance-level 的语义标签为每一个单独的物体提供了唯一的标签。

文章指出，示例图（instance map）所提供的最重要的信息其实是物体的边缘。所以本文首先计算出示例边缘图（instance boundary map），如图所示：

然后将语义标签图和示例边缘图连接起来，输入到生成器网络中。

考虑到一个理想的图像合成算法应该能够从同一个语义标签图产生出多种逼真的图像，而现有的方法无法让用户直观地控制产生什么样的图像，并且不允许 object-level 的控制，于是本文提出将额外的低维特征也输入到生成器网络中。

为此，需要训练一个编码器网络 E，用于确定与真实图像中每个目标示例的低维特征向量，以 G(s,E(x)) 代替之前的 G(s)，如图所示：

在编码器训练好之后，输入训练图像，找出图像中的所有示例，并记录对应的特征。然后利用 KK-means 聚类得到每一个语义类别的特征编码。推断时，随机选取一个聚类中心作为编码特征，与之前的标签图连接输入到生成器网络中。

实验结果

实验中设置 λ=10,K=10，用 3 维向量对示例特征进行编码，采样 LSGANs 用于稳定训练。实验比较了不同的图像合成算法，包括 pix2pix 和 CRN，还比较了加入感知损失（w/o VGG）的结果，其中 F(i) 表示 VGG 网络的第 i 层。

在 Cityscapes 数据集上的实验结果如下：

在 NYU Indoor RGBD 数据集上的实验结果如下：

更多关于的实验结果可以阅读原文或者访问 project 网页：

https://tcwang0509.github.io/pix2pixHD/

总结

本文提出了一个有通用性的基于条件 GANs 的网络框架，用于高分辨率图像合成和语义操作。相比于 pix2pix，本文在语义分割结果和图像合成的清晰度以及细节上都有了很大的提升。

本文由 AI 学术社区 PaperWeekly 精选推荐，社区目前已覆盖自然语言处理、计算机视觉、人工智能、机器学习、数据挖掘和信息检索等研究方向，点击「阅读原文」即刻加入社区！

我是彩蛋

PaperWeekly x 百度

深度学习有奖调研

你最喜欢的深度学习框架是...

TensorFlow? PyTorch? Caffe?

奖品福利

我们将从认真作答的同学中抽取50名

赠送限量版礼品一份作为答谢

长按识别二维码，参与调研

*本次活动奖品由百度提供

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 查看原论文

利用条件GANs的pix2pix进化版：高分辨率图像合成和语义操作 | PaperDaily #23相关推荐

ABAP R3 时代著名的 SFLIGHT 航班模型测试数据，到了S/4HANA时代的进化版
在 SAP R3 或者 SAP ECC 时代工作过的 SAP ABAP 开发顾问们,在 ABAP 学习阶段,一定都使用过著名的 SFLIGHT 航班模型. SAPBC_DATAMODEL 开发包下,包 ...
surface pro java_全新SurfacePro评测可以理解为SurfacePro4的进化版
描述微软微软5月底在上海新品发布会上的一剂猛料,让设计师.白领们都变得很不淡定,Surface Studio.Surface Laptop在重新定义笔记本之后,第五代Surface Pro也应运而生 ...
magic版本和android版本,华为荣耀Magic进化版和稳定版区别是什么?
首先要告诉大家的是,目前荣耀Magic国行发布都是标准版.而网上或者网友提到的荣耀Magic进化版,其实是对荣耀Magic系统的版本的一种区分.根据荣耀官方给出的数据,荣耀Magic在硬件配置上,不存 ...
布拉格捷克理工大学研究团队：Prisma进化版
原文链接还记得 Prisma 吗?就是能把拍摄的照片转化为各种名画风格的修图软件,神经网络的深度学习后,想要波普还是梵高风的图片都不在话下. 现在,它的进化版本来了.这回是布拉格捷克理工大学的研究 ...
石头剪刀布AI进化版
石头剪刀布AI进化版虽然人工智能目前以席卷之势,渗透各行各业,但是大多数人还处在"百姓日用而不知"的状态里,作为一个创客教师,对于新技术总是有与生俱来的敏感嗅觉,同时也希望把这些 ...
x21能刷小米系统吗_小米系统是安卓系统中最强的吗？大家都错了，它是MIUI的进化版...
小米系统是安卓系统中最强的吗?大家都错了,它是MIUI的进化版现在国产手机做得越来越好了,在硬件方面国产手机比同级别的外国品牌要厚道太多了,所以在中国,外国品牌是没有任何生存空间的.在性价比方面他们 ...
学习笔记-基于全局和局部对比自监督学习的高分辨率遥感图像语义分割-day1
基于全局和局部对比自监督学习的高分辨率遥感图像语义分割-day1 摘要一. 引言摘要最近,监督深度学习在遥感图像(RSI)语义分割中取得了巨大成功. 然而,监督学习进行语义分割需要大量的标记样本 ...
【论文阅读】SCAttNet:具有空间和通道注意机制的高分辨率遥感图像语义分割网络
[论文阅读]SCAttNet:具有空间和通道注意机制的高分辨率遥感图像语义分割网络文章目录 [论文阅读]SCAttNet:具有空间和通道注意机制的高分辨率遥感图像语义分割网络一.总体介绍二.概述 ...
【论文阅读】结合空洞卷积的 FuseNet变体网络高分辨率遥感影像语义分割
[论文阅读]结合空洞卷积的 FuseNet变体网络高分辨率遥感影像语义分割一.论文总体框架首先,采用 FuseNet变体网络将数字地表模型(digital surface model,DSM) ...

利用条件GANs的pix2pix进化版：高分辨率图像合成和语义操作 | PaperDaily #23

关于作者：郑琪，华中科技大学硕士生，研究方向为计算机视觉和自然语言处理。

论文导读

模型介绍

实验结果

总结

利用条件GANs的pix2pix进化版：高分辨率图像合成和语义操作 | PaperDaily #23相关推荐

最新文章

热门文章