作者 | 中国科学院、北京航空航天大学、百度研究院团队译者 | 凯隐编辑 | 夕颜出品 | AI科技大本营(ID: rgznai100)

导读:生成对抗网络(GAN)是近年大热的深度学习模型,中国科学院相关团队注意到,在多领域图片转换任务中,生成图片中会残留一些源类别特征,通俗来讲就是和输入源图片或多或少都有相似之处。针对这个问题,中国科学院、北京航空航天大学、百度研究院团队联合提出了一个神奇的 UGAN 模型,它可以去除生成图片中保留的源类别信息,使得生成图片的源类别变得更加难以追踪,即让生成图片的伪装性更强,掩盖原图片的“遗传”信息,使其看起来与源图相似性变弱,甚至完全不相同。

什么是多领域图像转换?

图像转换代表一类视觉和图像问题,主要目的是学习输入图像从一个类别域到另一个类别域的转换,例如表情转换,输入人脸面无表情的图像,输出该人脸在生气、开心、难过、害怕等一系列表情下对应的图像。风格转换,输出原始图片在不同亮度、光照等风格下的转换图片。通常每一中类型的转换都需要一个专门的模型去处理(例如 CycleGAN[1]),这样做非常低效,StarGAN[2] 进一步实现了用统一的框架来完成多个不同领域之间的转换,即多领域图像转换。

生成图片的源特征残留问题

类似 StarGAN 的多领域图像转换模型,得到的生成图片(translated images)往往会保留原始类别的特征,因此,本文提出了 Untraceble GAN(UGAN),即无法溯源的GAN模型,能解决源特征残留问题,如下图所示:               图1 UGAN和StarGAN的对比效果图 在年龄转换(Aging),化妆风格转换(makeup),表情转换(Expression)三个不同的任务中,UGAN 的转换程度都要比StartGAN更彻底,例如在年龄转换中,StarGAN 的结果看起来仍然像成年人而 UGAN 的结果更像小孩。这表明 UGAN 在生成目标类别特征的同时,还能去除原始特征,这使得生成图片的源类别变得更加难以追踪。在结构上,UGAN 额外包含了一个源类别分类器,用来判别生成图片从哪个源类别转换而来,这有助于了解生成图片是否保留了源类别的特征。

UGAN 网络结构

图2 UGAN 网络结构 网络结构如图 2,输入数据的是源图像和目标类别(Target Condition),首先经过转换器 G 得到生成图片(Output Image),之后再和源类别信息(Source Condition)以及真实图片(Real Image)一起输入到判别网络 D 中。不同于传统 GNN,判别网络 D 需要连接两个分类器(黄色模块),不仅需要真实性判别器(Authenticity Classifier)来判断图片是真实图片还是生成图片,还需要通过源类别分类器(Source Cclassifier)来确定生成图片对应的输入图片的类别(源类别)。 此外,生成图片和源类别还作为转换器 G 的输入,用于重构源输入图片。因此,转换器 G 由三部分监督:首先通过训练 G 来迷惑判别模型 D 的真实性判别器,这是生成对抗网络的基本功能;接着根据生成图片和源类别,来训练 G 重构输入图片,这是为了保证网络的循环稳定性[1];最后训练 G 来迷惑源类别分类器,让其相信生成图片的是从目标类别转换而来的,这是为了进一步去除生成图片中的源类别信息,使其更贴近目标类别。 由于添加了源类别作为监督信息,因此随着对抗训练的进行,生成图片能够逐渐摆脱源类别所具有的特征,而更贴近目标类别。

UGAN的三个目标函数

要通过真实性分类器,源类别分类器,图片重构器对转换器G进行监督学习,就需要设计相应的目标函数(损失函数)。

真实性分类器

对于真实性分类器 Da ,作者参考了WGAN-gp[3]中提出的对抗损失函数来限制生成图片和目标类别的联合分布:
                           
公式 1 是判别模型 D 的目标函数,公式 2 是生成器 G 的目标函数。x 和 y 代表图片和相应类别, x 和 y 都分别服从分布 q(x) 和 q(y),公式1类似交叉熵损失函数, -Ex~q(x)[Da(x)] 表示输入图片 x 被分类正确时的奖励,相应的的第二部分表示分类成生成器输出类别时的惩罚,第三部分则是一个梯度惩罚项,通过一阶莱布尼茨函数来强化判别能力。公式2则正好是公式1取反,也就是说判别模型表现越好,生成模型表现越差。

图片重构器

训练图片重构器是为了提高网络的循环稳定性(Cycle Consistence),这一部分主要参考了工作[1],目标函数为:                即尽量保证重构图片与原始输入图片相同,这里带下标 s 的变量表示源图片或源类型,带下标 t的表示生成图片或目标类型。

源类别分类器

训练源类别分类器 Ds 是为了解决源特征遗留的问题,对于真实的图片而言,源类别和目标类别相同,而对于生成图片,分类器应该准确识别其源类别。相反,转换器 G 就是要让分类器无法找到生成图片的真实源类别,而是将错误的类别作为其源类别。因此二者的目标函数也存在负相关的关系: 
               其中公式(4)是源类别分类器的损失函数,(5)是生成器 G 的损失函数。形式上和真实性分类器相同。然而目标类型yt的特征混合了从yt采样得到的真实图片xt以及生成图片的特征,因此生成的图片特征并不纯净,为了完全从目标类型yt来合成图片,用额外的参数C来区别真实图片和生成图片:
                           这使得 Ds 不仅能确定图片的源类别,还能判断目标图片是真实图片还是生成的假图片,相反,也使得生成器 G 生成的图片变得更加难以追踪。

最终目标函数

将各个分类器的损失函数叠加,以及对应的生成器损失函叠加,就能得到最终的目标函数:

实验步骤及结果

该团队主要在年龄转换、化妆风格转换、表情转换三个任务上开展对比实验,相应数据集是 Face aging、MAKEUP-A5 和 CFEE。由于本文主要是解决 StarGAN[2] 中存在的源特征存留问题,因此所有实验的基线对比工作都是 StarGAN。实验的评价指标有 Intra FIDs、AMT、余弦相似度。年龄转换相关实验额外添加 CAAE 和 C-GAN 作为基线对比。实验结果如下:                                                              可以看到,在各项任务和指标下,UGAN 都优于 StarGAN。此外,直观地观察生成图片,可以发现 UGAN 生成的图片更好的去除了原始输入图片的特征,具有更强的源类别特征去除能力:                UGAN 在去除源类别信息上效果显著,使得生成图片技术更加成熟,生成图像伪装性更强,为 GAN 的研究打开了新的思路。
参考论文: [1] J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired image to image translation using cycle-consistent adversarial networks.arXiv:1703.10593, 2017.[2] Y. Choi, M. Choi, M. Kim, J.-W. Ha, S. Kim, and J. Choo. Stargan: Unified generative adversarial networks for multidomain image-to-image translation. In CVPR, 2018.[3] I. Gulrajani, F. Ahmed, M. Arjovsky, V. Dumoulin, and A. C. Courville. Improved training of wasserstein gans. In NIPS, 2017.
原文链接:https://arxiv.org/pdf/1907.11418.pdf

(*本文为 AI科技大本营编译文章,转载请联系微信 1092722531)

精彩推荐

60+技术大咖与你相约 2019 AI ProCon!大会早鸟票已售罄,优惠票速抢进行中......2019 AI开发者大会将于9月6日-7日在北京举行,这一届AI开发者大会有哪些亮点?一线公司的大牛们都在关注什么?AI行业的风向是什么?2019 AI开发者大会,倾听大牛分享,聚焦技术实践,和万千开发者共成长。

推荐阅读

  • 认知智能的突围:NLP、知识图谱是AI下一个“掘金地”?

  • 你想见的大神都来AI ProCon 2019了,优惠票限时抢购开启!

  • Python分析那些“标题党”文章

  • Python之父新发文,将替换现有解析器

  • 华为否认鸿蒙为噱头;谷歌公布 6 大 iOS 漏洞;极客头条

  • 三次创业,三次跨界,这次凭十万行核心 C 代码登上 GitHub Top 1!

  • 64%的投资者对比特币不感兴趣,那是谁投资了比特币?

你点的每个“在看”,我都认真当成了喜欢

中科院、百度研究院等联合提出UGAN,生成图片难以溯源相关推荐

  1. 合成视频以假乱真新高度!商汤科技、中科院、南洋理工大学联合提出当前最高清的语音驱动视频生成系统...

    点击我爱计算机视觉标星,更快获取CVML新技术 昨天ArXiv新出一篇效果异常赞的语音驱动的人脸视频合成论文,出自商汤科技,视频效果异常好.给定一段15分钟的演讲视频,应用该技术,即可生成一段该人物新 ...

  2. 中科院自动化所与华为联合提出!视觉目标检测大模型GAIA

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 中 ...

  3. CVPR 2020 | 中科院、商汤联合提出大规模多标签目标检测新算法

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作分享,不代表本公众号立场,侵权联系删除 转载于:学术头条 AI博士笔记系列推荐 周志华<机器学习>手 ...

  4. 海西研究院联合培养计算机专业,2020中科院海西研究院(福建物质结构研究所)与高校联合培养研究生介...

    来源:中科院海西研究院研究生教育 发布时间:2020-02-25 19:30:11点击量: 2020年海西研究院与上海科技大学.福州大学.福建师范大学.福建农林大学.中北大学拟联合招收300人(以教育 ...

  5. ​阿里达摩院, Gartner,百度研究院,埃哲森等全球顶尖机构给出的 2020十大科技趋势...

    阿里达摩院: 2020十大科技趋势 趋势一.人工智能从感知智能向认知智能演进 [趋势概要]人工智能已经在"听.说.看"等感知智能领域已经达到或超越了人类水准,但在需要外部知识.逻辑 ...

  6. 百度研究院院长林元庆离职,细数李彦宏的40位“出走门徒”

    刚刚,据澎湃新闻消息:百度深度学习实验室主任林元庆已经离职,这是继三月份吴恩达离职创办Deeplearning.ai.九月份百度硅谷AI实验室主任亚当·科茨离职后,又一位出走的百度"门徒&q ...

  7. 百度研究院再升级,迎来9位世界级科学家

    美国时间11月13日,百度研究院在美国硅谷召开会议,宣布百度研究院顾问委员会正式成立,并宣布在2018年陆续迎来9位世界级科学家加盟. 新成立的百度研究院顾问委员会包含5名成员,包括AT&T和 ...

  8. 李彦宏成为首登《时代周刊》的互联网大佬,百度研究院再添三名大牛

    现在看来,在中国AI领域的互联网公司中,外媒最认可的是百度. 北京时间1月19日,百度创始人李彦宏登上最新一期<时代周刊>(亚洲版)的封面,人物照片旁有一个赫然的标签:"创新者& ...

  9. 腾讯ARC、华中科大联合提出QueryInst,开启基于Query的实例分割新思路

    视学算法专栏 机器之心编辑部 实例分割(Instance Segmentation)任务有着广阔的应用和发展前景.来自腾讯 PCG 应用研究中心 (ARC)和华中科技大学的研究者们通过充分挖掘并利用Q ...

最新文章

  1. css/js压缩工具
  2. 经典c语言程序编程题,c语言35道经典编程题程序
  3. redistemplate 设置失效时间_袋式除尘器滤袋失效分析
  4. springmvc相关配置和用法
  5. javaweb网关_Java网关服务-AIO(三)
  6. LeetCode 1297. 子串的最大出现次数
  7. 良好的编码风格 java_关于java:编码风格是否遵循良好做法
  8. 程序员硬核测评:全方位测评 GaussDB(for Redis) 和开源 Redis
  9. ssh放行端口_安全组中已经添加规则放行SSH端口的访问之后使用f1 RTL的方法
  10. rowStyle设置Bootstrap Table行样式
  11. 上海航芯 | 热敏打印机方案分享
  12. java对接Paypal支付
  13. excel快速删除奇偶数行
  14. Java_多线程_模拟电影院售票
  15. 公司章程违反了公司法该怎么办
  16. 【线代NumPy】第五章 - 行列式课后练习 | 伴随矩阵求逆 | Cramer公式求联立方程 | 简述并提供代码
  17. 记一次修改DiyBox的经历(openwrt固件解包与打包)
  18. ? ?. ?? ??=的用法
  19. js html占位符,JavaScript占位符
  20. 点击按钮复制微信号/公众号,并打开微信APP搜索H5如何制作。

热门文章

  1. 前后端分离的思考与实践(三)
  2. MySQL5.7配置日志
  3. Python取出列表相应值的位置(表处理)
  4. Topshelf:一款非常好用的 Windows 服务开发框架
  5. Linux内置的审计跟踪工具:last命令
  6. Google Objective-C Style Guide
  7. WF4.0实战(一):文件审批流程
  8. TCP/IP 笔记 1.3 IP:网际协议
  9. jQuery(一)引入
  10. Winform窗体应用程序的自动更新功能