作者丨薛洁婷

学校丨北京交通大学硕士生

研究方向丨图像翻译

图像翻译（Image translation）是将一个物体的图像表征转换为该物体的另一种图像表征，也就是找到一个函数能让 A 域图像映射到 B 域内，其可以应用于许多的实际问题上，如风格迁移，属性迁移，提升图像分辨率等（如图 1 所示）。

随着生成式对抗网络（GAN）的研究逐渐走向成熟，基于 GAN 的图像翻译模型的研究也越来越火热，如 Pix2Pix, CycleGAN, BicycleGAN, MUNIT, DRIT 等。本文针对近年来基于 GAN 的图像翻译模型进行简短汇总。

▲ 图1. 图像翻译应用（来源：BicycleGAN）

有监督的图像翻译

最开始接触图像翻译是从 Phillip Isola 等人提出的基于 CGAN 的有监督图像翻译模型（Pix2pix）[1] 入手的，在这里也非常推荐想要入坑该方向的“小可爱”以这篇论文为起点。

有监督很好理解就是我们训练时采用的训练集是成对图片，Pix2Pix 模型以 GAN 为基础采用端到端架构，其中生成器架构中引入跳连接以便能保留图像潜层结构，其输入是原域图像 x，输出是翻译后的目标域图像 G(x)，原域图像和真/伪目标域图像分别结合后作为鉴别器的输入，鉴别器输出分类结果并和生成器产生对抗。

整个模型的架构如图 2 所示，在具体训练中采用了重建损失（y,G(x)），对抗损失来引导模型。

▲ 图2. Pix2Pix架构

但是 Pix2Pix 存在的问题是由于在训练模型时使用原域-目标域一对一映射而导致模型的多样性很差，随后 Jun-Yan Zhu 等人提出了 BicycleGAN [2] 来解决这一问题，BicycleGAN 通过引入潜层编码，约束输出和潜层编码的双射一致性来提高模型的多样性，其架构如图 3 所示。

▲ 图3. BicycleGAN架构

BicycleGAN 结合了 cVAE-GAN 以及 cLR-GAN 来约束输出和潜层编码的双射一致性，其中 cVAE-GAN 在生成器中加入了目标域图像 B 的潜层编码信息来辅助图像翻译，并通过 KL 损失强迫潜层信息满足高斯分布从而最终在测试时直接从高斯分布中采样即可生成多样的输出结果。

但该模型存在的问题是 KL 损失难以优化导致最终采样有困难，cLR-GAN 是在生成器中引入满足高斯分布的潜层变量来提高模型多样性，该模型存在的问题是由于生成器中的潜层变量的随机采样的，因此生成结果不一定和目标域图像 B 一致，也就是完全忽略了成对图像带来的优势。因此作者结合了两个模型来取长补短，最终提高翻译效果。

无监督的图像翻译

有监督的图像翻译模型存在的最大问题是现实情况中压根没有那么多的成对数据集来帮助训练，因此最近有越来越多的基于无监督的图像翻译模型被提出，其中最为经典的就是 CycleGAN [3]，其设计了循环一致性来代替之前的重建损失从而实现图像翻译。

作者定义了两个生成器 G 和 F，两个鉴别器 Dx 和 Dy，生成器 G 的目的是将 X 域的图像转化为 Y 域，而 F 的目的是将 Y 域的图像转化为 X 域，其中鉴别器 Dx 是用于判断由 F 生成的 X 域图像是否是 X 域内的真实图像，Dy 是判断由 G 生成的 Y 域图像是否是 Y 域内的真实图像，模型架构如图 4 所示。

▲ 图4. CycleGAN架构

近期的研究提出可以通过加入第三个网络 Siamese 来代替循环一致性损失，从而降低模型的复杂度以及训练成本，Siamese 网络用于学习图像高级语义特征从而保证翻译后的图像与原域图像相似，有兴趣的读者可以参考 TraVeLGAN [4]。

另外一类比较经典的图像翻译模型就是对全局图像进行内容和属性编码，通过交换其属性编码来实现图像翻译，其中比较有代表性的模型如 DRIT [5]，MUNIT [6]。

这里以 DRIT 为例简单介绍一些这类方法，DRIT 中也是通过建立循环一致性来约束生成器，和 CycleGAN 不同的是 DRIT 利用编码器将图像分解为属性编码和内容编码，之后交换原域和目标域的属性编码来翻译图像，最后将翻译的结果再经过一次属性交换来生成原域图像 ()，通过优化和 x 的 L1 损失来约束生成器，其架构如图 5 所示。

▲ 图5. DRIT架构

当然除了上述我所总结的几个模型外，图像翻译领域内还有非常多有趣的模型可以深入了解，如 StarGAN [7]，CollaGAN [8] 等，最近通过引入注意力机制来引导图像翻译的模型也越来越多，如 Selection GAN [9]，CSA [10] 等。总之，图像翻译模型及其变种可以解决很多非常有意思的任务，有兴趣的读者可以多多关注该领域，希望今后能有更多有趣的模型被提出。

参考文献

[1] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional adversarial networks. In CVPR, 2017. 2, 3, 5, 6, 7, 8, 11

[2] Jun-Yan Zhu, Richard Zhang, Deepak Pathak, Trevor Darrell, Alexei A Efros, Oliver Wang, and Eli Shechtman. Toward multimodal image-to-image translation. In Advances in Neural Information Processing Systems, 2017. 2

[3] J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017. 1, 2, 3, 4, 5, 8

[4] Matthew Amodio, Smita Krishnaswamy. TraVeLGAN: Image-to-image Translation by Transformation Vector Learning. In CVPR, 2019.2

[5] Hsin-Ying Lee, Hung-Yu Tseng, Jia-Bin Huang, Maneesh Singh, and Ming-Hsuan Yang. Diverse image-to-image translation via disentangled representations. In ECCV, 2018. 1, 2, 3, 4, 5, 6

[6] Xun Huang, Ming-Yu Liu, Serge Belongie, and Jan Kautz. Multimodal unsupervised image-to-image translation. In ECCV, 2018. 1, 2, 3, 4, 6, 7, 8

[7] Y. Choi, M. Choi, M. Kim, J.-W. Ha, S. Kim, and J. Choo. StarGAN: Unifified generative adversarial networks for multi-domain image-to-image translation. arXiv preprint, 1711, 2017.

[8] Dongwook Lee, Junyoung Kim, Won-Jin Moon, Jong Chul Ye. CollaGAN: Collaborative GAN for Missing Image Data Imputation. In CVPR, 2019.4

[9] Hao Tang, Dan Xu. Multi-Channel Attention Selection GAN with Cascaded Semantic Guidance for Cross-View Image Translation.In CVPR, 2019.4

[10] Hongyu Liu, Bin Jiang,Yi Xiao,Chao Yang. Coherent Semantic Attention for Image Inpainting. In ICCV, 2019.7

点击以下标题查看更多往期内容：

GAN做图像翻译的一点总结
ICCV 2019 | 基于持续学习的条件图像生成模型
基于级联语义引导下的多通道注意力选择图像翻译
ICCV 2019 | 关注边界的显著性目标检测
Github大热论文 | 基于GAN的新型无监督图像转换
Grid R-CNN Plus：基于网格的目标检测演化

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

? 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

? 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 获取更多论文推荐

综述：基于GAN的图像翻译模型盘点相关推荐

基于GAN的图像生成模型
文章目录定义一些参数数据加载类创建dataset和dataloader 模型权重的初始化函数定义生成器验证生成器是否正确定义判别器验证判别器是否正确定义损失函数训练输入一个随机值查 ...
Pix2Pix——基于GAN的图像风格迁移模型
Pix2Pix--基于GAN的图像风格迁移模型写在前面本文是文献Image-to-image translation with conditional adversarial networks的笔 ...
【视频课】生成对抗网络经典任务，详解基于GAN的图像生成算法！
前言欢迎大家关注有三AI的视频课程系列,我们的视频课程系列共分为5层境界,内容和学习路线图如下: 第1层:掌握学习算法必要的预备知识,包括Python编程,深度学习基础,数据使用,框架使用. 第2层 ...
GAN做图像翻译的一点总结
作者丨洪佳鹏学校丨北京大学研究方向丨生成式对抗网络本文经授权转载自公众号「学术兴趣小组」. 如今,随着 GAN 在生成清晰图像(sharp images)上的成功,GAN 在图像翻译任务上的方法 ...
【每周CV论文推荐】基于GAN的图像修复值得阅读的文章
欢迎来到<每周CV论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 图像修复(补全)是一个非常基础的图像处理领域 ...
基于GAN的图像配准汇总
基于GAN的图像配准汇总 1. Adversarial Similarity Network for Evaluating Image Alignment in Deep Learning based ...
GAN网络图像翻译机：图像复原、模糊变清晰、素描变彩图
贴个文章,记录学习历程 http://www.sohu.com/a/169212360_473283 本文介绍深度学习方法在图像翻译领域的应用,通过实现一个编码解码"图像翻译机"进 ...
基于Pytorch的Transformer翻译模型前期数据处理方法
基于Pytorch的Transformer翻译模型前期数据处理方法 Google于2017年6月在arxiv上发布了一篇非常经典的文章:Attention is all you need,提出了解决s ...
基于GAN的图像水印去除器，效果堪比PS高手
作者 | 李翔转载自视说AI(ID:techtalkai) 简介:李翔,国内某互联网大厂AI民工,前携程酒店图像技术负责人,计算机视觉和深度学习重度爱好者,在ICCV和CVPR等会议上发表论文十余篇 ...

综述：基于GAN的图像翻译模型盘点

有监督的图像翻译

无监督的图像翻译

参考文献

综述：基于GAN的图像翻译模型盘点相关推荐

最新文章

热门文章