下载链接:https://arxiv.org/pdf/1707.01400.pdf

一 、什么是对抗?

对抗样本和对抗网络

所谓对抗,样本是指将实际样本略加扰动而构造出的合成样本,对该样本,分类器非常容易将其类别判错,这意味着光滑性假设(相似的样本应该以很高的概率被判为同一类别)某种程度上被推翻了。

有一篇论文应该是最早提出对抗样本概念的。该论文指出,包括卷积神经网络在内的深度学习模型在对抗样本面前都十分脆弱,从而将矛头直指深度学习,似乎要为深度学习热潮降一降温。

这篇论文是:Intriguing properties of neural networks, by Christian Szegedy at Google, et al,2014.

这篇博客:http://www.lancezhange.com/2015/11/19/adversarial-samples/ 深入的介绍了对抗样本和对抗网络。

这篇博客:https://blog.csdn.net/qq_21210467/article/details/81836976 介绍了各类GAN。

二、AlignGAN解决了什么问题?

近来,已经提出了几种基于生成对抗网络(GAN)的方法,用于对齐跨域图像或学习跨域图像的联合分布。 其中一种方法是使用条件GAN进行比对。 然而,采用条件GAN的先前尝试不如其他方法那样好。 在这项工作中,我们提出了一种方法来提高基于条件GAN的方法的能力。 我们评估提出的方法在许多任务和实验结果表明,它能够对齐跨域图像成功的情况下配对样本。 此外,我们还提出了另外一个模型,对多个信息进行条件化,如域信息和标签信息。 通过调整域信息和标签信息,我们能够从源域向目标域传播标签。 为了学习这个模型,提出了两步交替训练算法。

三、相关工作

事实证明,生成对抗网络(GAN)[5]在各种计算机视觉任务中均取得了巨大的成功[6、8、14]。 本文解决了对齐跨域图像或学习跨域图像联合分布的问题[9]。 针对该问题的早期方法[6,17]需要来自不同域的成对图像,这限制了这些方法的有效性。 最近,有人提出了CoGAN [9],它解除了配对图像的限制。 特别是,CoGAN耦合了两个GAN,其中两个生成器共享前几层的权重,引导两个生成器生成对齐的图像。

在本文中,我们介绍了一个基于条件GAN的名为AlignGAN的用于对齐跨域图像的模型。与CoGAN相似,我们提出的AlignGAN也能够在没有配对图像的情况下对齐跨域图像。使用条件GAN进行对齐的想法是通过条件域向量学习特定于域的语义,并通过其他潜在向量来学习共享语义。但是,正如文献[9]所指出的,直接采用条件GAN将无法为某些任务对齐跨域图像。我们发现,确定哪些域将受到域向量的限制对于性能至关重要。我们提出的AlignGAN受以下两个想法的启发。首先,对于生成器,不同域的最高级别语义应该相似。因此,我们不应该在生成器的噪声输入层上调节域矢量。其次,对于鉴别器,我们应该增强域信息信号,以使鉴别器知道图像来自哪个域。图像输入层为鉴别器生成最强的信号。因此,我们应该在鉴别器的图像输入层上设定域向量。我们将AlignGAN用于许多任务,包括数字和负数字,金发和黑发以及椅子和汽车。此外,AlignGAN不限于两个域,并且可以通过仅向域向量添加更多维度来将其扩展到三个或更多域,如图4(a)所示。

基于AlignGAN,我们还提出了另一个模型,该模型以多种信息为条件,例如域信息和标签信息。 假设我们只有源域的标签信息。 通过从源域学习标签信息并使用域信息对齐图像,该模型能够将标签信息从源域传播到目标域。 但是,直接融合多个条件信息的训练很难收敛。 我们建议在不同的层上调节域向量和标记向量,并通过交替优化来训练模型。

在本文中,我们做出了以下贡献:

(1)我们提出AlignGAN,它基于条件GAN来对齐跨域图像。 我们在许多任务上评估AlignGAN,实验结果证明了该方法可用于对齐跨域图像。

(2)我们还提出了另一种模型,该模型以多种信息为条件,例如域信息和标签信息此模型能够将标签信息从源域传播到目标域。 此外,提出了一种两步交替优化算法来训练该模型。

Goodfellow等。 [5]提出了一种生成对抗网络(GAN),它在生成模型中取得了巨大的成功。 此后,提出了许多工作来改善图像质量[11、14、19]或稳定学习过程[1、12、16]。 此外,GAN已应用于各种计算机视觉任务,例如图像超分辨率[8],文本到图像翻译[15]和图像到图像翻译[6]。

与本文最相关的工作是CoGAN [9],它也尝试对齐跨域图像。 在文献[9]中,作者还尝试使用条件GAN来完成此任务。 但是,他们的尝试在许多任务中都失败了,例如对齐数字和负数字。 与我们的工作有关的另一项任务是图像到图像的翻译[7,21]。 [20]和[7]都采用了两个GAN,它们构成了循环映射,从而形成了重建损失。 董等。 [3]提出使用条件GAN进行图像到图像的翻译。 他们首先训练了条件GAN以学习共享特征,然后训练了编码器以将图像映射到潜在矢量。

四、 模型

在本节中,我们首先在第1节中简要回顾GAN和条件GAN。 然后,在第2节中介绍拟议的AlignGAN。 最后,第3节介绍了以多种信息为条件的模型。

4.1 GAN and Conditional GAN

GAN的框架由两个参与者组成,即鉴别器D和生成器G。给定数据分布p data,G尝试学习分布p g。 G从均匀分布p z(z)的噪声输入z采样开始,然后将z映射到数据空间G(z;θg)。 另一方面,D的目的是区分样本是来自p数据还是来自p g。 GAN的目标可以表述为:

条件GAN引入了额外的信息y,其中鉴别器和生成器均以y为条件。 可以将条件GAN的目标表述如下:

4.2 AlignGAN

我们提出的AlignGAN基于条件GAN。 直觉是通过条件域向量学习特定于域的语义,并通过其他共享潜在向量来学习共享语义。 先前使用条件GAN对齐跨域图像的尝试[9]已显示其在许多任务中的失败。 经过广泛的探索,我们总结出以下两个成功学习的规则。

首先,对于生成器,噪声输入层不应受域矢量限制。 因为模型应该为不同的领域学习相同的最高层语义。 对于生成器的其他层,它们应以域向量为条件。

其次,对于鉴别器,图像输入层应以域矢量为条件。 因为输入层会生成最强的信号,以使鉴别器知道图像来自哪个域。 对于鉴别器的其他层,我们发现是否要对其进行调节对性能并不重要。

基于以上两个规则,我们在图1中介绍了AlignGAN的网络架构。

图1. AlignGAN的网络架构。 (a):判别器。 (b):生成器。 “ Conv”和“ Deconv”分别表示卷积层和反卷积层。 “ FC”表示完全连接的层。

4.3 Conditioning on Multiple Information

我们提出的另一种模型是以多种信息为条件,例如域信息和标签信息域信息有助于对齐来自不同域的图像,而标签信息则可以控制所生成图像的类别。结合两种信息的一种应用是,当我们只有源域的标签信息时,我们可以将标签信息从源域传播到目标域。这个想法是从源域中学习标签信息的语义,并从域信息中对齐图像。结果,该模型能够控制目标域的生成图像的类别。一种简单的方法是首先连接域和标记向量,然后由生成器和鉴别器进行条件处理。但是,我们发现此简单方法无法收敛。我们建议分别调节域向量和标记向量,这意味着域向量和标记向量受不同层的限制。如第4.2节所述,不应为生成器的噪声输入层设置域矢量。相反,对于标记向量,最高级别的语义随不同类别而变化。因此,标记矢量应由生成器的噪声输入层来调节。如图2所示,我们将标记向量置于不受域向量限制的层上。

图2.该模型的网络架构基于多个信息。 (a):判别器。 (b):生成器。

两步交替训练。 我们采用两步训练算法,通过交替优化来学习特定领域的语义和共享标签的语义。 在第一步中,我们利用带有标签向量的源域图像来学习标签语义,并将域向量设置为零向量。 在第二步中,我们利用源和目标域图像以及域向量来学习特定于域的语义,并将标记向量设置为零向量。 训练过程在算法1中正式提出。请注意,超参数τ用于调整领域语义和标签语义之间的训练迭代分配。 在我们的实验中,我们设置τ= 4。

5. 实验

5.1 Implementation Details

除了对齐数字和负数字的任务外,我们采用LSGAN [11]来训练模型,因为LSGAN能够生成更高质量的图像并稳定学习过程。 对于对齐数字和负数的任务,我们采用常规GAN,因为我们发现常规GAN可以很好地完成此任务,而LSGAN有时无法对齐数字和负数的图像。 对于LSGAN,我们选择了a = -1,b = 1和c = 0的参数,这些参数已被证明可以最小化Pearsonχ2散度。 然后将公式1替换为以下公式:

我们使用Adam优化器,LSGAN的学习率为0.0005,常规GAN的学习率为0.0002。 我们实施的所有代码都将很快公开。

模型选择对于LSGAN,我们发现在训练过程中生成图像的质量会在好坏之间转移。 我们通过在某些迭代中检查生成的图像的质量来手动选择模型。

5.2 AlignGAN

在本节中,我们将在数位数据集上评估AlignGAN,包括数字,面部,边缘,椅子和汽车。

5.2.1 Digits

对于此任务,我们使用USPS和MNIST数据集来评估AlignGAN的性能。 根据文献[9],我们首先针对以下两个任务评估AlignGAN。 第一个是对齐数字和边缘数字的图像。 第二个是对齐数字和负数的图像。 另外,我们进一步应用AlignGAN来对齐USPS和MNIST数字的图像。 如图3所示,AlignGAN为所有三个任务成功地学习了对齐图像。

5.2.2 Faces

我们还将在CelebFaces Attributes数据集[10]用于该实验的面部图像上评估AlignGAN。 我们研究了以下四个任务:1)不同颜色的头发之间的对齐; 2)戴眼镜与不戴眼镜之间的对准; 3)男女对齐; 4)有side角的雄性和没有without角的雄性之间的对齐。 结果显示在图4中,其中生成的图像的分辨率为112×112。

5.2.3 Edges and Photos

另一个评估是在手袋[20]或鞋子[18]的边缘图像和逼真的照片之间对齐。 图5显示了生成的分辨率为64×64的结果,我们可以观察到AlignGAN学会了成功地在边缘和真实照片之间对齐。

5.2.4 Chairs and Cars

根据文献[7],我们还研究了对齐椅子[2]和汽车[4]的图像的任务,以研究AlignGAN是否能够了解两个不同域之间的旋转关系。 如图6所示,生成的椅子和汽车的旋转角度高度相关。

5.3 Conditioning on Multiple Information

我们将针对多种信息提出的模型条件应用于两个任务。 MNIST数据集用于第一个任务,其中源域和目标域分别是数字和负数字。 第二项任务是在USPS数字和MNIST数字之间。 训练期间仅使用源域的标签信息。 通过控制标记向量,我们可以生成0到9之间的数字,其结果如图7所示。我们有以下两个观察结果。 首先,图7中的配对图像高度相关。 其次,我们能够通过调整标签向量来控制生成的目标域数字的类别。

6. Conclusions

在本文中,我们提出了两种模型。 第一个称为AlignGAN,用于基于条件GAN对齐跨域图像。 AlignGAN已在许多任务上进行了评估,实验结果证明了AlignGAN在对齐跨域图像方面的有效性。 第二个是AlignGAN的扩展,它不仅以域信息为条件,而且以标签信息为条件。 以这两种信息为条件,我们能够完成从源域到目标域的标签传播。

AlignGAN: Learning to Align Cross-Domain Images with Conditional Generative Adversarial Networks相关推荐

  1. 『 DSSM』A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems

    Abstract MULTI-VIEW-DNN联合了多个域做的丰富特征,使用multi-view DNN模型构建推荐,包括app.新闻.电影和TV,相比于最好的算法,老用户提升49%,新用户提升110 ...

  2. 论文翻译:Learning to Discover Cross-Domain Relations with Generative Adversarial Networks(适合国人习惯)

    摘要 尽管人们无需任何监督就可以轻松识别来自不同域的数据之间的关系,但是学会自动发现它们通常是非常具有挑战性的,并且需要许多对的事实来说明这种关系.为了避免昂贵的配对,我们解决了在未配对数据的情况下发 ...

  3. 论文学习:Learning to Generate Time-Lapse Videos Using Multi-StageDynamic Generative Adversarial Networks

    Welcome To My Blog 这篇论文收录于KDD2018,有关视频生成的,论文有个项目主页,题目翻译过来大致是:使用多阶段动态生成对抗网络学习生成time-lapse(延时)视频. 多阶段具 ...

  4. Generative Adversarial Zero-shot Learning via Knowledge Graphs翻译

    Generative Adversarial Zero-shot Learning via Knowledge Graphs Abstract: 零样本学习(ZSL)是处理那些没有标记训练数据的看不见 ...

  5. Cross Domain Knowledge Transfer for Person Re-identification笔记

    Cross Domain Knowledge Transfer for Person Re-identification笔记 1 介绍 2 相关工作 3 方法 3.1 特征提取的ResNet 3.2 特 ...

  6. 关于ajax跨域请求(cross Domain)

    Cross Domain AJAX主要就是A.com网站的页面发出一个XMLHttpRequest,这个Request的url是B.com,这样的请求是被禁止的,浏览器处于安全考虑不允许进行跨域访问, ...

  7. 添加本地图层出现要求cross domain policy的错误

    错误描述: A security exception occured while trying to connect to the REST endpoint. Make sure you have ...

  8. nlp论文-《Neural Machine Translation by Jointly Learning to Align and Translate》-基于联合学习对齐和翻译的神经机器翻译(一)

    <Neural Machine Translation by Jointly Learning to Align and Translate>--基于联合学习对齐和翻译的神经机器翻译 作者 ...

  9. 【论文理解】Learning in the Frequency Domain

    标题:Learning in the Frequency Domain 本篇论文是CVPR2020的,觉得想法比较新颖,所以找出来看一看,学一学,希望我能看懂. 上面一行是传统的CNN流程图,它的输入 ...

最新文章

  1. 解析三层架构(1)---为什么要分层?
  2. HTML中Css详细介绍
  3. mysql workbench pdm_MySQL Workbench
  4. 增值税发票OCR识别
  5. OkHttp3 websocket
  6. python转go_如何看待将Python代码转换成Go代码并进一步编译的 Grumpy 项目?
  7. python 去除字符串里所有标点符号
  8. 科大星云诗社动态20210420
  9. Dynamo:亚马逊的高可用键值存储
  10. 了解ADF生命周期中的ADF绑定
  11. 设计模式_第二篇_策略模式
  12. WPF DataGrid 数据绑定
  13. [领卓教育]使用QT实现一个简单的离线词典
  14. 7天快速掌握MySQL-DAY6
  15. 移动端服务器端身份证识别介绍
  16. wincc做皮带动画_wincc 如何做动画
  17. Moss 2007 入门(1) - 功能概述
  18. 计算机怎么移动游戏,Uplay游戏怎么搬移 Uplay游戏搬移方法介绍
  19. 台式计算机usb接口无反应6,如何解决电脑的USB接口没反应,详细教您如何解决
  20. 王垠博客 linux,前段时间花了一个通宵把王垠(Yin Wang)博客的所有文章看完了...

热门文章

  1. 信息孤岛影响_企业专访:以“信息化”冲破信息孤岛
  2. b5对战一直检索服务器信息,【B5平台】求解封,服务器问题啊
  3. 百度DOC php,PHP对接百度文档服务DOC
  4. CSS常用选择器简析(带简单案例)
  5. JavaScript-this指向问题
  6. 【操作系统笔记】中断和异常
  7. 开源项目管理系统:ProjectForge
  8. 开源视频会议系统:OpenMeetings 安装方法
  9. 耐克人脸识别_狄耐克智能交通再结一位“老铁”——与力高地产达成战略合作协议!...
  10. linux监听端口丢失,查看 linux 端口 监听