论文笔记:SPADE(CVPR 2019)-Semantic Image Synthesis with Spatially-Adaptive Normalization

  • SPADE DEMO
  • 前言
  • 语义图像->真实图像
    • Spatially-adaptive denormalization
    • SPADE generator
    • SPADE discriminator
    • Multi-modal synthesis
  • 实验结果

SPADE DEMO


github地址:SPADE
demo的github地址:Imaginaire

Semantic Image Synthesis with Spatially-Adaptive Normalization.
Project page | Paper | Online Interactive Demo of GauGAN | GTC 2019 demo | Youtube Demo of GauGAN

Taesung Park, Ming-Yu Liu, Ting-Chun Wang, and Jun-Yan Zhu.

In CVPR 2019 (Oral).


前言

因为在之前的方法中直接将语义分割布局作为输入输入到网络进行处理会使得归一化层将语义信息抹去,为了解决这个问题,本文提出了使用输入布局来通过一个空间自适应、学习的转换来调节归一化层中的激活的方法,可以有效地在整个网络中传播语义信息。
本文在COCO-Stuff,ADE20K和Cityscapes上进行了实验。


语义图像->真实图像

Spatially-adaptive denormalization


输入一张语义分割图mask投影到插入空间,通过卷积产生调制参数γ和β。不同于以往的条件归一化方法,这里的γ和β是tensor类型的参数,具有空间维度的信息,再以element-wise的方式相乘并加到归一化的activation上。

m是语义分割图,N是一个batch的样本,Ci是第i层的通道,Hi是第i层的activation map的高,Wi是第i层的activation map的宽,hi代表对一批N样本的深度卷积网络第i层的activation,μci\mu_c^iμci​和σci\sigma_c^iσci​是第i层上通道c的activation的均值和方差。
γc,y,xi(m)\gamma_{c,y,x}^i(m)γc,y,xi​(m)和βc,y,xi(m)\beta_{c,y,x}^i(m)βc,y,xi​(m)是归一化层的学习调制参数,他依赖语义分割图并随位置(y,x)(y,x)(y,x)变化。本文用γc,y,xi(m)\gamma_{c,y,x}^i(m)γc,y,xi​(m)和βc,y,xi(m)\beta_{c,y,x}^i(m)βc,y,xi​(m)表示在第i层的activation map转换为(c,y,x)(c,y,x)(c,y,x)的比例值和偏差值的函数。
本文使用简单的两层卷积网络实现γc,y,xi(m)\gamma_{c,y,x}^i(m)γc,y,xi​(m)和βc,y,xi(m)\beta_{c,y,x}^i(m)βc,y,xi​(m)(附录)。

SPADE generator

使用SPADE时,不需要将语义分割图提供给生成器的第一层,因为学习的调制参数已经编码了足够的关于标签布局的信息。因此,本文丢弃了生成器的编码器部分,简化成了更加轻量级的网络。新的生成器可以将随机向量作为输入,从而实现一个简单而自然的多模态合成方法。


本文使用的生成器架构使用了几个带有上采样层的ResNet blocks,所有归一化层的调制参数由SPADE学习得到。由于每个residual block在不同的尺寸下运行,所以本文对语义分割图进行下采样来匹配residual block的空间分辨率。
生成器使用与pix2pixHD相同的多尺度判别器和除了最小平方损失之外的损失函数,将最小平方损失换成了hinge loss。
左图是SPADE ResBlk,在每个归一化层使用原始语义分割图调制activation。右图为生成器的架构图,去掉了pix2pixHD的下采样部分,并在每个上采样层使用SPADE ResBlk,并拥有比pix2pixHD更少的参数量。

SPADE discriminator


本文使用的判别器基于pix2pixHD使用的判别器,使用语义分割图与真是图像的连接为输入。

Multi-modal synthesis

附加一个编码器,将真实图像编码成随机向量,输入到生成器中,与生成器形成一个VAE,其中编码器尝试捕获图像的样式,生成器通过SPADE将样式和语义分割的信息结合以重建原始图像。编码器在测试时用作捕获目标图像的样式,以实现风格迁移。在训练中,添加了KL散度损失。

本文的图像编码器包含一系列步长为2的卷积层,最后通过两个linear层输出一个均值向量μ\muμ和方差向量σ\sigmaσ

实验结果



论文笔记:SPADE(CVPR 2019)-Semantic Image Synthesis with Spatially-Adaptive Normalization相关推荐

  1. 论文盘点:CVPR 2019 - 文本检测专题

    作者丨燕小花 研究方向丨计算机视觉 CRAFT 论文主要思想 本文的主要思路是先检测单个字符(character region score)及字符间的连接关系(affinity score),然后根据 ...

  2. [EGNN] Exploiting Edge Features for Graph Neural Networks 利用图神经网络的边特征 论文详解 CVPR 2019

    文章目录 1 简介 1.1 GAT和GCN的局限性 1.2 EGNN的创新点 2 相关工作 3 EGNN网络 3.1 符号定义 3.2 EGNN和GNN的对比 3.3 Doubly stochasti ...

  3. 论文笔记-Domain Adaptation for Semantic Segmentation with Maximum Squares Loss

    论文信息 论文标题:Domain Adaptation for Semantic Segmentation with Maximum Squares Loss 论文作者:Minghao Chen, H ...

  4. 【CVPR 2019】Strong-Weak Distribution Alignment for Adaptive Object Detection

    1 介绍 此文章是[CVPR 2019]的文章,主要讲述了Strong-Weak的DA方法: 2 原文链接 <Strong-Weak Distribution Alignment for Ada ...

  5. 论文笔记:CVPR 2022 Cross-Domain Adaptive Teacher for Object Detection

    摘要 我们解决了对象检测中的域适应任务,其中有注释的源域和没有注释的感兴趣的目标域之间存在域间隙(注:在一个数据集上训练模型,再另外一个数据集上进行预测性能下降很大,在一个数据集上训练好的模型无法应用 ...

  6. 论文笔记-Understanding Convolution for Semantic Segmentation

    图森和CMU的合作工作. 论文链接[https://arxiv.org/abs/1702.08502](https://arxiv.org/abs/1702.08502) 主要提出DUC(dense ...

  7. 论文笔记:ICML 2019 Simplifying Graph Convolutional Networks

    前言 随着2017年GCN概念的提出,近年来越来越多的GCN方法被提出.由于GCN本身的提出来源于深度学习中CNN和RNN的概念,因此可能会继承其中一些不必要的复杂度和冗余计算,本文提出了一种简化的图 ...

  8. 论文笔记之:Instance-aware Semantic Segmentation via Multi-task Network Cascades

    Instance-aware Semantic Segmentation via Multi-task Network Cascades Jifeng Dai Kaiming He Jian Sun ...

  9. 论文笔记:STD2P: RGBD Semantic Segmentation Using Spatio-Temporal Data-Driven Pooling

    STD2P: RGBD Semantic Segmentation Using Spatio-Temporal Data-Driven Pooling Yang He, Wei-Chen Chiu, ...

  10. 论文笔记:CVPR2022 Regional Semantic Contrast and Aggregation for Weakly Supervised Semantic Segmentation

    任务:image-level标签的弱监督分割 Motivation:numerous semantically similar but visually different instances; fo ...

最新文章

  1. Spring Cloud入门教程-Hystrix断路器实现容错和降级
  2. AD5934阻抗变换模块实验电路板
  3. python hashlib模块_python-hashlib模块
  4. Nginx在Windows上启动、停止的命令
  5. llvm编译linux,在Linux上编译LLVM/Clang 8.0.0等全部源代码
  6. Linux系统修改环境变量PATH路径
  7. 跨网段加域的一个问题
  8. python基础系列教程——数据结构(列表、元组、字典、集合、链表)
  9. TIPS:My导入数据中文乱码解决方案
  10. 漫画:什么是优先队列?
  11. 通过 IDEA 黑掉你
  12. java导出下载文件_java导出excel及下载的实现-java下载文件
  13. 小萝卜控机大师录制脚本(手机app自动化)
  14. 【情商 为什么情商比智商更重要】阅读笔记
  15. 全世界时差整理(不含夏冬令时)
  16. 最好最常用的国外邮箱推荐!注册非常简单!
  17. 防火墙的基础配置(一)
  18. Vue3.2——vue-seamless-scroll的使用
  19. 监听器(Listener)
  20. 亚马逊美国站12岁以下儿童产品 CPSIA测试标准

热门文章

  1. 真的有那么闪耀吗?让你的人物拥有真实轻盈秀发
  2. c语言车测试,贴近真实油耗 聊CATC中国汽车测试循环
  3. P3388 【模板】割点(割顶) 题解
  4. 数值积分之插值型求积公式
  5. vertica精简安装
  6. 面对海量内容,如何快速完成视频内容审核?
  7. NIMDA病毒危害及清除和免疫
  8. python123字典统计排序1省份_python 列表、字典多排序问题
  9. 三端口dcdc变换器方案,原理图及题目分析。 有整体方案。有MATLAB仿真验证
  10. 蓝牙小程序只之 wx.readBLECharacteristicValue报错10007