文中,作者聚焦于一个更具挑战性的语义处理任务,在保持图像独有特征(例如视角和形状)的同时修改物体的语义含义,比如,牛→羊,摩托车→自行车,猫→狗。为了处理这样大型的语义变换,作者引入了一种带有新型对抗式对比目标(adversarial contrasting objective)的对比型 GAN(contrast-GAN)。论文还提出了配有新型比较式目标的,蒙版条件式对比 GAN(mask-conditional contrast-GAN)结构,它能够用目标语义变换使图像背景脱离出来。

论文:https://arxiv.org/abs/1708.00315

生成对抗网络(GAN)最近已经在配对 / 非配对的图像到图像转译(paired/unpaired image-to-image translation)方面取得了明显的进步,比如照片→简笔画以及艺术绘画风格的迁移。然而,现有的模型只能对低级信息(例如颜色或纹理变化)进行迁移,但不能对目标物体的高级语义含义(比如几何结构或内容)进行编译。

另一方面,尽管在给定一类标签或标注的情况下研究人员可以合成逼真的图像,但是并不能对任意的图形或结构进行处理,这大大地限制了它们的应用场景以及对模型结果的诠释能力。

在本篇论文中,我们聚焦于一个更具挑战性的语义处理任务,在保持图像独有特征(例如视角和形状)的同时修改物体的语义含义,比如,牛→羊,摩托车→自行车,猫→狗。为了处理这样大型的语义变换,我们引入了一种带有新型对抗式对比目标(adversarial contrasting objective)的对比型 GAN(contrast-GAN)。

与之前直接使合成样本逼近目标数据的 GAN 不同,我们的对抗式对比目标是在样本之间对距离比较(distance comparisons)进行优化,使被处理的数据在语义上比输入数据更加接近带有目标类别的真实数据。我们提出了配有新型比较式目标的、蒙版条件式对比 GAN(mask-conditional contrast-GAN)结构,它能够用目标语义变换使图像背景脱离出来。

在 ImageNet 和 MSCOCO 数据集上进行的若干个语义处理任务的相关实验说明了我们的对比式 GAN 比其它条件式 GAN 的性能表现更加可观。量化结果进一步说明了我们的模型在生成可操控结果方面的优势,它们都是高视觉保真和带有合理目标语义的结果。

图 1:本文模型的一些实例语义处理结果,将一张图像和一个期望目标物体类别(比如猫和狗)作为输入,然后学着去通过修改它们的外观或几何结构以自动改变目标物体语义。我们展示了每一对的原始图像(左)和处理后的结果(右)。

在本论文中,我们在没有任何配对训练实例的情况下对图像语义处理进行了进一步操作。它不仅仅是通过处理高级目标语义来对图像到图像转译工作进行泛化,也通过尽可能多地保留原始图像所传递的内部特征,推进了可控图像合成的相关研究。

图 1 展示了我们的模型的一些语义处理结果实例。可以看到我们的模型与输入图像相比仅有很少的形状、几何或纹理方面的变化,而且成功地改变了目标物体的语义特征,例如,猫→狗。

通过对比型 GAN 进行语义处理

如图 2 所示,我们的对比型 GAN 对一个条件式生成器 G 进行了学习,它将一个期望语义 cy 和一张输入图像 x 作为输入,然后对 x 进行操作使其进入 y'。语意认知对抗判别器(semantic-aware adversarial discriminators)Dcy 旨在对 y ∈ Y 的图像和结果 y'= G ( x, cy ) 进行判别。我们的新型对抗式对比损失(adversarial contrasting loss)迫使生成结果 y' 的表征比输入图像 x 的相应表征更加接近于目标区域 Y 里的那些图像 {y}。

图 2:对比型 GAN(contrast-GAN)的概述。cy 和 cx 分别表明 X 区域和 Y 区域的物体类别(语义)。Gcy 将样本转译进 Y 区域,Dcy 对处理结果 y' 和真实结果 y 进行区分,反过来对于 Gcx 和 Dcx 也一样。(a)展示了原始的 CycleGAN,使用循环一致性损失(cycle-consistency loss)为每一对分离的生成器和判别器进行优化。(b)展示了对比型 GAN 的工作流程,对一个条件式生成器 G 和几个语义认知判别器 D1, D2, . . . , DC 进行优化,其中 C 是目标物体类别的总数量。我们在 GAN 中引入了一个对抗式对比损失,以激励生成样本 y' 的特征 fy' 比输入 x 的特征更加接近于目标区域 Y 的特征中心 fy bar。

蒙版条件式对比 GAN(Mask-conditional Contrast-GAN)

图 3 展示了模型的略图,以一张输入图像 x,一个目标物体蒙版 M 和目标类别 cy 作为开端,输出处理图像。注意整个结构对于反向传播来说是全差分(fully differential)的。为了更加清晰,全周期架构(比如,通过 G ( y, cx ) 映射 y' → x hat)在图 3 中被省略了。

图 3:用于语义处理的蒙版条件式对比 GAN(mask-conditional contrast-GAN),以一张输入图像,一个目标物体蒙版和一个目标类别作为输入。

图 4:在给定目标蒙版的情况下,MSCOCO 数据集上蒙版对比型 GAN 和 CycleGAN 对马→斑马和斑马→马转译的结果对比。它展示了整合目标物体蒙版来脱离图像背景和目标语义的效果。其中,λ 和 β 控制着目标物体的相对重要程度。G 试图使此目标最小化,以对抗一组试图将其最大化的判别器 {Dcy }。大量实验表明每一个目标物体都在达到高质量处理结果的过程中扮演着重要角色。

实验结果对比:

表 1:在 Cityscapes 标注→图像数据集上的 FCN 得分情况对比。

表 2:在 Cityscapes 图像→标注数据集上的分类性能表现对比。

图 5:contrast-GAN 与 CycleGAN 在 ImageNet 上进行橙子→苹果(第一行)与苹果→橙子(第二行)转译的结果对比。

图 6:在给定目标蒙版的情况下,在 MSCOCO 数据集上,蒙版对比型 GAN 和 CycleGAN 对狗→猫和猫→狗转译的结果对比。

表 3:MSCOCO 数据集上 8 个蒙版条件式语义处理任务的 AMT 感知测试的结果对比。

图 7:在 MSCOCO 数据集上用蒙版对比式 GAN 对大量目标物体语义的处理结果实例。每一对图像都指明了期望目标语义,展示了原始图像(左)和处理后的图像(右)

学界 | 邢波团队提出 contrast-GAN:实现生成式语义处理相关推荐

  1. GAN模型计算量减少至1/9!MIT韩松团队提出GAN压缩法,已开源

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟  报道  | 公众号 CVLianMeng 转载于 :机器之心 AI博士笔记系列 ...

  2. UTA研究团队提出首个3D点云+GAN新方法,让机器人“眼神”更犀利 | AI日报

    韩国NAVER AI LAB重新标注128万张ImageNet图片:多标签,全面提升模型性能 ImageNet是机器学习社区最流行的图像分类基准数据集,包含超过1400张标注图像.该数据集由斯坦福教授 ...

  3. android德州扑克计算器,学界 | 一台笔记本打败超算:CMU冷扑大师团队提出全新德扑AI Modicum...

    原标题:学界 | 一台笔记本打败超算:CMU冷扑大师团队提出全新德扑AI Modicum 选自arXiv 参与:路.晓坤 CMU 冷扑大师团队在读博士 Noam Brown.Tuomas Sandho ...

  4. 超越现有指标57.3%,邢波教授、胡志挺教授团队提出统一NLG评价框架

    长期以来,评价机器生成的文本比较困难.近日,CMU邢波(Eric Xing)教授和UCSD胡志挺(Zhiting Hu)教授的团队提出用一种运算符,统一各类生成任务的评价方式,为未来各种新任务.新要求 ...

  5. Adam 又要“退休”了?耶鲁大学团队提出 AdaBelief,却引来网友质疑

    晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 要挑战Adam地位的优化器又多了一个. 近日NeurIPS 2020收录论文提出的一个优化器,在深度学习社区成为焦点,引起广泛讨论. 这就 ...

  6. Adam又要“退休”了?耶鲁大学团队提出AdaBelief,却引来网友质疑

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 要挑战Adam地位的优化器又多了一个. ...

  7. DeepFake噩梦来了!武大阿里团队提出FakeTagger,重新识别率达95%

    [导读]DeepFake千千万,究竟怎么办?GAN的滥用已经让现在的世界不再「眼见为实」.于是,研究人员提出了FakeTagger系统,将视觉上无法辨别的ID信息嵌入到图像中,准确率高达95%. 拍照 ...

  8. 图像也能做情感迁移?罗切斯特大学团队提出计算机视觉新任务

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 计算机视觉领域中有很多任务,如目标检测.图像转换.风格迁移等,但你听说过「图像情感迁移」吗? ...

  9. Adam又要“退休”了?耶鲁大学团队提出AdaBelief

    要挑战Adam地位的优化器又多了一个. 近日NeurIPS 2020收录论文提出的一个优化器,在深度学习社区成为焦点,引起广泛讨论. 这就是由耶鲁大学团队提出的AdaBelief.团队在论文中表示,该 ...

最新文章

  1. 【c语言】求n个整数的和
  2. 配置Cassandra开机启动(CentOS 7)
  3. src与href的区别
  4. python出租车计费标准_用Python绘制出租车出发点的动态热力图
  5. 打通C/4HANA和S/4HANA的一个原型开发:智能服务创新案例
  6. matlab rebit,BIM的算法最新消息!MATLAB被禁也有BIM开源工具用!
  7. vue ajax跨域提交,vue-cli开发时ajax跨域的方法
  8. Label显示多行文本总结
  9. devexpress html编辑器,DevExpress 通用控件系列:TextEdit(2)
  10. 终端服务器超出最大允许连接数
  11. 测控专业英语复习资料
  12. c语言编程竞赛活动主题,第三届“希望之星”C语言编程大赛系列活动
  13. 人脸识别算法DeepFace论文解读
  14. 关于微信小程序的navigator标签
  15. ROSBridge - ROS系统与非ROS外部系统的通信的C++客户端实现
  16. 操作系统实验二:银行家算法
  17. BindingResult总结以及注意事项
  18. php做前端动态效果,通过CSS Animation进行前端动效
  19. lucene(11)
  20. 虚拟机搭建nfs,挂载到板子

热门文章

  1. java stringbuffer 转数组_JAVA之旅(十七)——StringBuffer的概述,存储,删除,获取,修改,反转,将缓存区的数据存储到数组中,StringBuilder...
  2. mysql 名字分组查询id_mysql进阶5:分组查询
  3. 川大网络教育2013秋《计算机应用基础》第二次作业,2013秋川大网教《计算机应用基础》第一、二次作业及答案解析.doc...
  4. 熟悉Linux实验实训,非常详细的Linux操作系统与实训教程实验(三)
  5. linux apache cpu,linux – Apache使用100%的CPU. “ps”命令可以告诉我它在做什么吗?...
  6. mysql主从配置安装_mysql主从配置完整版(二进制安装)
  7. MyClouds-V1.0 发布,微服务治理及快速开发平台
  8. 学着学着Linux系统写篇心得
  9. Hazelcast集群服务(2)
  10. iOS开发小技巧--计算label的Size的方法总结