任务场景

  • Photos to semantic segmentation
  • Cityscapes labels to photos
  • Colorization
  • Facades labels to photo
  • Day to night
  • The edges to photo
  • And so on.

在生成器模型中,条件变量y实际上是作为一个额外的输入层(additional input layer),它与生成器的噪声输入p(z)组合形成了一个联合的隐层表达;

在判别器模型中,y与真实数据x也是作为输入,并输入到一个判别函数当中。实际上就是将z和x分别于y进行concat,分别作为生成器和判别器的输入,再来进行训练。

目标函数:

gans:

CGAN:

pix-2-pix:

把待转换的图像x作为额外的输入,分别加进判别器和生成器中。生成器输入的是随机噪声z以及待转换的图像x。

在positive情况下,判别器输入的是待转换图像x以及与x对应的真实数据y,这时判别器尽量使得输出为1;

在negative情况下,判别器输入的是待转换图像x以及生成器生成的图像G(x,z)。也就是说,生成器不只输入了随机噪声z,还输入了待转换图像x,加入了这个条件,就可以实现定向生成;

判别器也不再只是判别某一张图像是否真实,而是判别待转换图像x与转换后图像G(x,z)是否是真实的图像对。

创新点

1、加入约束项(L1 distance encourages less blurring) ---- 生成的图像是不是接近GT。

  与L2相比,文章采用了模糊更少的L1 distance(1范数可以导致稀疏解,2范数导致稠密解):

2、generator add skip connections(U-Net)

  图像到图像转换问题的一个特征定义是将高分辨率输入网格映射到高分辨率输出网格。输入和输出的表面外观虽不同,但两者都是相同底层结构的渲染。因此,生成器的设计中输入的结构大致与输出的结构对齐。 
       之前的结构都是基于如下图的编码-解码网络,先经过几个降采样层,到达一个瓶颈后经过一个逆过程得到最终的输出。网络要求所有的信息流通过网络的所有层。对于许多图像翻译问题,输入和输出之间共享了大量低级别的信息,因此最好将这些信息直接穿过网络。为了使得生成器能够规避这样的信息瓶颈,遵循“U-Net”的形状,添加跳跃连接。假使网络有n层,网络的第i层都和n-i层有一个连接:

3.patchGAN

  通常判断都是对生成样本整体进行判断,比如对一张图片来说,就是直接看整张照片是否真实。而且Image-to-Image Translation中很多评价是像素对像素的,所以在这里提出了分块判断的算法,在图像的每个N×N块上去判断是否为真,最终平均给出结果。

判别器在图像上卷积,最终平均所有的值作为D的最终输出值;

N可以比图像的大小小得多,并且效果仍然很好;

小的patchGAN的参数更少,运行更快,并且能够应用到任意大小的图像中。。

当n=1时就是pix-2-pix

Optimization and inference

扩展

L0范数是指向量中非0的元素的个数

L1范数是指向量中各个元素绝对值之和

L2范数是指向量各元素的平方和然后求平方根。

在机器学习中,以0范数和1范数作为正则项,可以求得稀疏解,但是0范数的求解是NP-hard问题; 以2范数作为正则项可以得到稠密解,并且由于其良好的性质,其解的定义很好,往往可以得到闭式解,所以用的很多。

一句话总结就是:L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。L1在特征选择时候非常有用,而L2就只是一种规则化而已。

  • L0 w分量尽量稀疏 如 (0,a,0,0,b,0,0)
  • L1 效果同上
  • L2 w分量取值尽量均衡、稠密,即小而趋近于0 如(0.3,0.5,-0.3,0.1,-0.2,0.3,-0.3)

转载于:https://www.cnblogs.com/J-K-Guo/p/7574216.html

Image-to-Image Translation with conditional Adversarial Networks ---- Pix-2-Pix相关推荐

  1. 《Image-to-Image Translation with Conditional Adversarial Networks》文章翻译

    图1 在图像处理,计算机图形.视觉中,将一幅图输入转换到另一张图输出的过程中存在很多问题.即使这里面的一些设置总是相同的,都是图像像素的映射,但这些问题通常使用特殊应用的算法.CAN似乎能很好的解决各 ...

  2. CVPR2017/图像翻译:Image-to-Image Translation with Conditional Adversarial Networks基于条件对抗网络的图像到图像的翻译

    CVPR2017/图像翻译:Image-to-Image Translation with Conditional Adversarial Networks基于条件对抗网络的图像到图像的翻译 0.摘要 ...

  3. Image-to-Image Translation with Conditional Adversarial Networks 论文翻译

    基于条件对抗网络的图像转换 源论文标题:Image-to-Image Translation with Conditional Adversarial Networks 源论文链接:https://p ...

  4. 【翻译】Image-to-Image Translation with Conditional Adversarial Networks

    条件生成网络实现图对图翻译 原论文标题:Image-to-Image Translation with Conditional Adversarial Networks Isola P, Zhu J ...

  5. pix2pix鼻祖——《Image-to-Image Translation with Conditional Adversarial Networks》论文解析

    今天要说的这篇论文,全名<Image-to-Image Translation with Conditional Adversarial Networks>,来自CVPR2017.这一篇可 ...

  6. [论文笔记]:Image-to-Image Translation with Conditional Adversarial Networks

    Image-to-Image Translation with Conditional Adversarial Networks 论文翻译 摘要 1. 介绍 2. 相关工作 3. 方法 3.1 评估 ...

  7. Image-to-Image Translation with Conditional Adversarial Networks

    论文下载地址:https://arxiv.org/abs/1611.07004 一.摘要 本文研究条件对抗网络作为图像到图像转换问题的通用解决方案.这些网络不仅学习从输入图像到输出图像的映射,还学习了 ...

  8. Paper Reading:Image-to-Image Translation with Conditional Adversarial Networks

    Introduction 找到一个统一的框架来处理从图片生成图片(image-to-image translation)的任务,其中包含由label map合成图片,由eage maps 重建目标,图 ...

  9. PatchGAN:Image-to-Image Translation with Conditional Adversarial Networks

    写过很多次博客,但是有关GAN的很少,都快忘记了还要分享对于GAN的心得了,恰巧最近正在重新看之前看过的文章,借此机会也把更多GAN的内容总结成文,帮助自己做好笔记. 文章下载地址:http://op ...

最新文章

  1. tunctl used bridge sub interface network used with multi-network env
  2. 容器学习 之 dockerfile 命令(七)
  3. JavaScript实现按键精灵
  4. OpenCV图像分割-watershed
  5. Hibernate学习笔记_查询
  6. Java基础-Lambda表达式
  7. 他毕业1年,换了5份工作,为什么失业的总是他?
  8. (转)UIWebView的基本用法,适合新手
  9. 卡特兰数-两个经典做法
  10. thinkphp5 mysql加1_ThinkPHP5.1的数据库链接和增删改查
  11. php 监听redis,swoole如何监听redis数据
  12. 中职计算机办公自动化教学,中职学校计算机办公自动化教学现状分析.pdf
  13. 英飞凌基础学习笔记AURIX内核系统架构
  14. 读书笔记-精准努力-情绪暴躁因为假设世界是美好的
  15. [歌词生成] 基于LSTM语言模型和seq2seq序列模型:数据爬取、模型思想、网络搭建、歌词生成
  16. (电力开发)376.1 主站通信协议基本结构解析
  17. ⑭tiny4412 Linux驱动开发之cpufreq子系统驱动程序
  18. 董孝魁:通证经济重塑企业价值,区块链应赋能服务实体
  19. 如何输入多组数据并输出每组数据的和?
  20. JavaCV - 图像色温调整

热门文章

  1. 16位转8位 winhex_64位系统究竟强在哪里?
  2. canvas 圆角矩形填充_View绘制系列(9)Canvas八卦图绘制
  3. HFSS中的求解类型(Solution Type)
  4. mysql字符集问题_mysql字符集问题
  5. 数学--数论--HDU 6128 Inverse of sum (公式推导论)
  6. Perl文件及目录操作
  7. 百度贴吧前负责人:做产品16年,我有9条心得[转]
  8. 学习机器学习的项目_辅助项目在机器学习中的重要性
  9. 检测和语义分割_分割和对象检测-第5部分
  10. 邮件伪造_伪造品背后的数学