discoGAN 论文解读

一. Abstract
task: discovering cross-domain relations(跨域关系) given unpaired data

使用发现的关系，作者成功提出从一个域到另一个域同时保存关键属性的网络传输方式，例如方向和脸部身份

二. Introduction
discovering relations between two visual domains without any explicitly paired data.

(所以是无监督？)

A key intuition：constraint all images in one domain to be representable by images in the other domain.

image-based representation of the handbag image –> through a reconstruction loss,

be as close to images in the shoe domain as possible -> through a GAN loss.

效果：more robust to the mode collapse problem

learns the bidirectional mapping between two image domains

三. model
GAB 是A到B映射，GBA是B到A的映射，作者希望满足映射满足一对一，使GBA

是GAB的逆映射； A中所有XA的结果值GAB（XA），应该包含在域B中，类似于GBA（XB）。普及函数映射知识？？

(a) standard GAN (Goodfellow et al., 2014), (b) GAN with a reconstruction loss, (c) our proposed model (DiscoGAN)

作者的心路历程：普通GAN 到单重构GAN 到双重构GAN

最后发现DiscoGAN更好满足一对一映射

作者在解释为什么单重构会出现问题，简单说就是A中两个模式的数据都映射到了B中的一个模式，而B中一个模式的数据只能映射到A中这两个模式中的一个。重建损失使得模型在(c)中的两个状态之间震荡，而并不能解决模式崩溃问题。

（好像是有点道理ho，没事，作者为了证明观点进行了各种实验。）

四. experiments
1. Toy Experiment
基于在二维A和B域中合成数据的演示实验, 源与靶都是从高斯混合模型中提取数据样本。

任务是发现A和B域之间的跨域关系，并将样本从五个A域模式转换成B域，该B域围绕圆弧展开十种模式。

（5种颜色表示5个A域，10个黑叉表示10个B域，有色背景显示了D的输出值。说好的一对一呢。。。）

（a）生成器初始化，所以可以看到五种颜色重叠于一点

（b）普通GAN，多个颜色映射到不同B中，各种重叠，模式崩溃

（c）重构GAN, 效果好了点奥，可以看到还是有点重叠，而且有些黑x没被映射到

（d）discoGAN, 作者的模型效果不用说，都映射到了，不然也不会贴出来？

2. Real Domain Experiment
1.汽车到汽车，脸到脸（同样也是3组比较）

2.各种脸的转换

如性别转换，头发颜色转换，是否戴眼镜转换，先转换性别再转换头发颜色，头发颜色、性别来回转，反正就是各种转换，就不贴图了。

3.椅子变车，车变脸

嗯哼，朝向一样，有点意思

4.边缘到图像

哎呀，似曾相识，一个边缘可对多种颜色，可用于图像上色，怪不得训练时图像颜色变来变去？

5. 手提包到鞋子，鞋子到手提包

作者说转换结果不仅具有相似的颜色，也有类似的时尚风格。

五. Related Work
无非是各种GAN,CGAN，CoGAN，StackGAN等

In order to control specific attributes of an image, T. Kulka- rni & P. Kohli (2015) proposed a method to disentangle specific factors by explicitly controlling target code. Perar- nau et al. (2016) tackled image generation problems condi- tioned on specific attribute vectors by training an attribute predictor along with latent encoder.

这个看上去有点厉害，有机会看看

六. Conclusion
本文提出discoGAN来处理跨域转换，而且是无监督的。

作者已经证明，discoGAN能产生高品质的图像与实现风格转移（p.s 这么多功能）。

一个可能的未来方向是修改它来处理混合模式（例如文本和图像）。
---------------------
作者：眉间细雪
来源：CSDN
原文：https://blog.csdn.net/weixin_42445501/article/details/81283248
版权声明：本文为博主原创文章，转载请附上博文链接！

discoGAN 论文解读相关推荐

自监督学习(Self-Supervised Learning)多篇论文解读（下）
自监督学习(Self-Supervised Learning)多篇论文解读(下) 之前的研究思路主要是设计各种各样的pretext任务,比如patch相对位置预测.旋转预测.灰度图片上色.视频帧排序等 ...
自监督学习(Self-Supervised Learning)多篇论文解读（上）
自监督学习(Self-Supervised Learning)多篇论文解读(上) 前言 Supervised deep learning由于需要大量标注信息,同时之前大量的研究已经解决了许多问题.所以 ...
可视化反投射：坍塌尺寸的概率恢复：ICCV9论文解读
可视化反投射:坍塌尺寸的概率恢复:ICCV9论文解读 Visual Deprojection: Probabilistic Recovery of Collapsed Dimensions 论文链接: ...
从单一图像中提取文档图像：ICCV2019论文解读
从单一图像中提取文档图像:ICCV2019论文解读 DewarpNet: Single-Image Document Unwarping With Stacked 3D and 2D Regressi ...
点云配准的端到端深度神经网络：ICCV2019论文解读
点云配准的端到端深度神经网络:ICCV2019论文解读 DeepVCP: An End-to-End Deep Neural Network for Point Cloud Registration ...
图像分类：CVPR2020论文解读
图像分类:CVPR2020论文解读 Towards Robust Image Classiﬁcation Using Sequential Attention Models 论文链接:https:// ...
CVPR2020论文解读：手绘草图卷积网络语义分割
CVPR2020论文解读:手绘草图卷积网络语义分割 Sketch GCN: Semantic Sketch Segmentation with Graph Convolutional Networks ...
CVPR2020论文解读：3D Object Detection三维目标检测
CVPR2020论文解读:3D Object Detection三维目标检测 PV-RCNN:Point-Voxel Feature Se tAbstraction for 3D Object Det ...
CVPR2020论文解读：三维语义分割3D Semantic Segmentation
CVPR2020论文解读:三维语义分割3D Semantic Segmentation xMUDA: Cross-Modal Unsupervised Domain Adaptation for 3D ...

discoGAN 论文解读

discoGAN 论文解读相关推荐

最新文章

热门文章