作者丨薛洁婷

学校丨北京交通大学硕士生

研究方向丨图像翻译

研究动机

自 2014 年 Goodfellow 等人提出生成式对抗网络 (Generative Adversarial Networks, GAN) 以来,关于 GAN 稳定训练的研究层出不穷,其中较为突出的是 2017 年提出的 Wasserstein GAN [1] 以及 2018 年提出的 SN-GAN [2]。其共同动机都是通过使鉴别器满足利普希茨(Lipschitz)限制条件(也就是让鉴别器更加鲁棒),从而提高模型的收敛速度以及稳定性。

对抗训练 (Adversarial training) 作为提高模型鲁棒性的经典算法,被作者有效地结合至 GAN 的训练过程中并将结合后的模型命名为 Rob-GAN。实验表明 Rob-GAN 不仅能促使 GAN 的训练更加稳定、生成结果更加逼真而且还缩减了对抗训练在训练集和测试集上的性能差距。另外,作者还从理论上分析了这一结果的本质原因。

模型架构

首先我们来思考第一个问题:为什么 GAN 能够改善对抗训练在测试集和训练集上的性能差距?在回答这个问题之前我们先来简单看一下对抗训练的过程。

对抗训练分为攻击者和防御者,攻击者是指通过对输入样本添加一些小的扰动来“欺骗”分类器,让其输出错误的分类结果。论文中作者采用了 PGD [3] 攻击算法来产生对抗样本,损失函数如 (1) 所示。其中 x+δ 表示对输入样本 x 添加一些小的扰动,f(x+δ,w) 是收到扰动后分类器的输出结果。

对于攻击者而言希望受到扰动后的分类器能输出尽可能错的分类结果,也就是和真正的分类结果的损失要尽可能大。当然,有攻击者就肯定会有防御者,与攻击相比,防御是一项更艰巨的任务,特别是对于结合复杂模型的高维数据。防御者的损失函数如 (2) 所示。

目前对抗训练在小训练集(如 MNIST, CIFAR10)上可以训练出鲁棒性强的分类器,然而一旦扩展在大训练集(如 IMAGENET)上,分类器的效果将非常差,并且对抗训练的性能在训练集和测试集上的差距也很突出(如图 1 所示),究其根本其实就是模型在测试集和训练集的鲁棒性差异较大。

 图1. 在不同水平攻击下的准确率

从理论上分析可知,如果在真实数据分布下模型的局部 LLV (local Lipschitz value) 越小,则模型的鲁棒性越强。这一理论可以被描述为复合损失最小化问题(公式 3)。

但是在实际中我们并不能获取真实数据分布 Pdata,因此一般采用先验分布来替换公式 3。实际上,如果我们的数据量足够大并且假设集也设计的很合理,公式 4 最终会收敛于公式 3。

那么训练集中的约束的 LLV 会自动泛化到测试集上吗?很遗憾,答案是否定的。也就是说尽管我们能在训练集上有效的降低 LLV,但是对于测试集来说,这样是无效的(如图 2)。

 图2. 测试集和训练集的局部Lipschitz值  (LLV) 比较

但是如果我们换个思路直接从真实数据 Pdata 中采样,那这个问题不就解决了吗?看到这里你肯定很好奇,之前不是说 Pdata 无法获取吗?没错!虽然我们没法直接获取其分布,但是 GAN 可以学啊!也就是说我们先让GAN去学习 Pdata,然后对所学分布再进行对抗训练。加入GAN后的损失函数如 5 所示。至此,我们解决了第一个问题。

接下来第二个问题是为什么加入对抗训练后可以促使 GAN 的训练更加稳定?首先我们知道对抗样本能够很容易“欺骗”分类器,对于 CGAN 来说,生成器完全有可能模仿对抗样本去“欺骗”鉴别器,就算是鉴别器能识别出一种模式的对抗样本,但生成器很容易就能够找到其他模式的对抗样本,这样的话最小最大化的游戏将永远不会停止,也就是生成器和鉴别器永远没办法达到纳什均衡。

因此作者假设,提高鉴别器的鲁棒性对于稳定 GAN 的训练至关重要。下面我们从理论上分析一下这一假设的成立的原因。

 图3. 鉴别器的鲁棒性

在 GAN 的训练中,生成器就类似于对抗训练中的“攻击者”。如果鉴别器具有很小的 LLV (即很小),此时,也就是说当鉴别器受到攻击时,除非是扰动 δ 非常大,其并不会误分类,如图 3 所示。

假设在 t 时刻时鉴别器正确分类图像为假图即,在 t+1 时生成器如何才能使鉴别器误分类呢?作者通过对 D(x) 和 G(z;w) 进行 Lipschitz 连续性假设,可以得到一个下界:

我们发现 LDLG 和成反比,也就是说如果鉴别器不鲁棒的话即 LD 很大,那么只能让生成器的参数 w 移动的非常小,才能保证其下界成立,此时模型就会收敛的很慢。因此,我们从理论上证明了鉴别器的鲁棒性是影响 GAN 收敛速度的关键因素。

回顾 GAN 的发展历史,无论是 WGAN 还是 SN-GAN 都要求鉴别器满足全局 Lipschitz 条件限制,这无疑会降低模型的表达能力,因此作者提出要求在图像流型上保持局部 Lipschitz 条件即可,而这一点通过对抗训练可以很容易地满足。

经过上面的分析我们发现,对抗训练和 GAN 的结合是一个互帮互助的过程。在这个框架内作者对生成器和鉴别器进行端到端的训练:生成器向鉴别器提供假图像; 同时,从训练集采样的真实图像在发送到鉴别器之前由 PGD 攻击算法预处理。其网络架构如图 4  所示。

 Figure 4. (LLV) 比较 Rob-GAN 的网络架构

实验

在具体实验时鉴别器网路采用的是 AC-GAN 中的模型架构,只不过在 AC-GAN 中无论是生成器还是鉴别器都希望能最大化分类损失 LC,但这样会导致即使生成器生成出特别差的样本,损失函数还是希望其能正确分类。

因此作者将 LC 损失进行了修改,也就是鉴别器希望尽可能正确分类真实样本即最大化损失 LS+LC1,生成器希望能尽可能正确分类生成样本即最大化 LC2-LS。

下面是在对抗训练采用 GAN 数据后的性能差距,可以明显看出相较之前差距明显缩小。

另外,作者对 Rob-GAN 进行了微调使鉴别器单独执行多分类问题以便能更好的比较 Rob-GAN 的效果。下面是 Rob-GAN 在 CIFAR10 以及 ImageNet 上不同扰动情况下模型训练的准确率,其中 FT 是指加入微调策略。

总结

这篇论文作者将生成式对抗网络 (GAN) 以及对抗训练模型 (Adversarial training) 结合在一起形成一个全新的框架 Rob-GAN。从理论以及实验证明出 Rob-GAN 不仅能加速 GAN 收敛速度而且还有助于缩减对抗训练的性能差距,另外作者还重新定义了 AC-GAN 的损失函数。总之,我认为这篇论文对于稳定GAN训练具有重大意义,并且论文理论的严谨性也非常值得借鉴。

参考文献

[1]. M. Arjovsky, S. Chintala, and L. Bottou. Wasserstein gan.arXiv preprint arXiv:1701.07875, 2017. 2, 4

[2]. T. Miyato, T. Kataoka, M. Koyama, and Y. Yoshida. Spectral normalization for generative adversarial networks. In International Conference on Learning Representations, 2018

[3]. A. Madry, A. Makelov, L. Schmidt, D. Tsipras, and A. Vladu. Towards deep learning models resistant to adversarial attacks. arXiv preprint arXiv:1706.06083, 2017. 1, 2, 3, 6, 7

点击以下标题查看更多往期内容:

  • CVPR 2019 | BASNet:关注边界的显著性检测

  • NAS-FPN:基于自动架构搜索的特征金字塔网络

  • CVPR 2019 | INIT:针对实例级的图像翻译

  • NAACL 2019最佳论文:量子概率驱动的神经网络

  • 论文盘点:CVPR 2019 - 文本检测专题

  • PoolNet:基于池化技术的显著性目标检测

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

?

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

▽ 点击 | 阅读原文 | 下载论文 & 源码

CVPR 2019开源论文 | Rob-GAN:生成器、鉴别器以及对抗攻击者相关推荐

  1. CVPR 2019 开源论文 | 基于空间自适应归一化的图像语义合成

    作者丨武广 学校丨合肥工业大学硕士生 研究方向丨图像生成 深度学习在算力的推动下不断的发展,随着卷积层的堆叠,模型的层数是越来越深,理论上神经网络中的参数越多这样对数据的拟合和分布描述就能越细致.然而 ...

  2. CVPR 2019开源论文 | 基于“解构-重构”的图像分类学习框架

    作者丨白亚龙 单位丨京东AI研究院研究员 研究方向丨表示学习.图像识别 基于深度卷积图像识别的相关技术主要专注于高层次图像特征的理解,而对于相似物体之间的细节差异和具有判别意义的区域(discrimi ...

  3. CVPR 2019 开源论文 | 针对未知目标领域的通用领域适配方法

    作者丨游凯超 学校丨清华大学软件学院本科生 研究方向丨迁移学习和领域适配 这篇论文发表于 CVPR 2019,是我们团队(清华大学龙明盛副教授的团队)在领域适配问题设定方向的最新探索:我们将领域适配问 ...

  4. CVPR 2019 开源论文 | 基于翻译向量的图像翻译

    作者丨薛洁婷 学校丨北京交通大学硕士生 研究方向丨图像翻译 图像翻译通常要解决两个问题:将原域图像翻译至目标域并且翻译后的图像和原域图像保持相似性.我们利用 GAN 可以很好的解决第一个问题,而针对第 ...

  5. CVPR 2019 Oral 论文精选汇总,值得一看的 CV 论文都在这里(持续更新中)

    CVPR 2019 即将于 6 月在美国长滩召开.今年有超过 5165 篇的大会论文投稿,最终录取 1299 篇,其中 Oral 论文近 300 篇.为了方便社区开发者和学术青年查找和阅读高价值论文, ...

  6. CVPR 2019最佳论文重磅出炉!李飞飞获计算机视觉基础贡献奖

    https://www.toutiao.com/a6703929448929952270/ [新智元导读]刚刚,CVPR 2019最佳论文公布了:来自CMU的辛书冕等人合作的论文获得最佳论文奖,最佳学 ...

  7. 华人包揽CVPR 2019最佳论文,李飞飞ImageNet成就经典

    本文授权转载自公众号机器之心 原文:https://mp.weixin.qq.com/s/YRcajgSTJq_evwtn7ZFo4A 点击**加入极市CV技术交流群**,交流更多计算机视觉相关的技术 ...

  8. 图注意力网络_EMNLP 2019开源论文:针对短文本分类的异质图注意力网络

    本文同步发表在 PaperWeekly EMNLP 2019开源论文:针对短文本分类的异质图注意力网络​mp.weixin.qq.com 本文由北邮和南洋理工联合发表在自然语言处理顶会 EMNLP 2 ...

  9. 西交出身,辛书冕获CVPR 2019最佳论文,李飞飞团队获经典论文奖

    作者 | 夕颜 出品 | AI科技大本营(ID:rgznai100) 6 月 18 日上午,CVPR 2019 会议开幕式暨颁奖仪式在美国洛杉矶举行,经过 CVPR 2019 专门的最佳论文奖评选委员 ...

最新文章

  1. 红帽集群套件RHCS
  2. matlab冲击噪声,如何用MATLAB生成噪声和冲击混合信号
  3. Wigner-Ville分布算法的C++实现
  4. c语言exit_看了这几个C语言例子,你一定会说5个哇塞,声音一次比一次大
  5. 混凝土泵送机械大数据挖掘与应用
  6. docker 容器启动顺序_Docker高手进阶 - Docker Compose到底是什么
  7. ECS主动运维事件--让你HOLD住全场 (二)
  8. C++按键模拟/刷屏器
  9. 计算机没有管理无线网络,电脑连接无线网络时,提示你没有首选无线网络怎么办...
  10. 从单目视觉信息学习深度信息(一)
  11. 如何知道Android机型是32位还是64位
  12. [附源码]java+ssm计算机毕业设计java磐基建筑机械租赁有限公司机械租赁系统41c32【源码、数据库、LW、部署】
  13. “猪”事大吉 | 为什么猪是最后一个生肖?
  14. html的meta标记大全(转自百度)
  15. Android监听横竖屏切换
  16. vbs 杀死进程_VBS杀死指定进程
  17. Matlab机器人工具箱(0)——旋转与平移变换
  18. emacs ido mode 命令
  19. Android 根据目标宽度,将bitmap等比缩放。
  20. Linux 双网卡双IP配置

热门文章

  1. python列表的实现原理_python列表推导式原理和使用方法
  2. Node.js event loop 和 JS 浏览器环境下的事件循环的区别
  3. CSS 温故知新 CSS垂直居中
  4. Memcache存储大数据的问题(大于1m)
  5. concat() 方法用于连接两个或多个数组。
  6. thinkphp3.2与phpexcel带图片生成 完美案例
  7. linux下Mysql命令
  8. 二叉查找树的Java实现
  9. poj 1041(欧拉回路+输出字典序最小路径)
  10. js中的错误missing ( before function parameter