这是一篇来自CVPR2022关于GAN的新作:SemanticStyleGAN - Project Page

文章效果惊艳,引入了语义图进行解耦,很有新意。

目录

摘要

1、介绍

2、相关工作

latent space

Compositional Image Synthesis

Layout-based Generators

3、方法(看原文吧,xdm)

1、局部生成器

2、Fusion

3、Render

4、判别器

4、效果

摘要

stylegan为下游生成任务提供了promising prior models,但是stylegan的the latent codes是全局的(如下图,stylegan中是latent z是经过Normalize 和FC 层得到的)。这并不能很好对生成图像进行 a fine-grained control。本文提出semanticstylegan是model local semantic parts separately,重点放在生成器的改进上(往下看,其实判别器也做了进步)。实现了符合latent z对应的structure and texture(文章实验部分对这里做了可视化,看着图感觉解的挺好)。后面就是吹自己做的好了


1、介绍

首先指出在gan的生成是从latent space中random code开始的,说出传统gan不可控。说stylegan的generated image is conditioned on a set of coarse-to-fine latent codes。但是这些latent code任然很混淆(确实)。

作者说了以下两种解决方式

1、by learning a linear boundary or a neural network in the latent space of StyleGAN

2、to train a new GAN model from scratch by introducing additional supervision or inductive biases.

紧接着指出,本文的解耦是从语义mask入手的。

2、相关工作

latent space

1、manipulate the latent space of a pre-trained GAN network:trains a attribute model

2、learn a GAN with more disentangled latent space using additional supervision

Compositional Image Synthesis

这段自己看原文吧

Layout-based Generators

1、a semantic segmentation mask

2、a sketch image

nips2021的editgan也是语义生成,可以对比一下。作者表明:we build a semantic-aware generator that directly associates different local areas with latent codes, these codes can then be used to edit both local structure and texture.

这篇文章确实不一样,别人解耦的属性都是直接喂入网络,这篇文章解耦后再输出feature map和pseudo-depth。

3、方法(看原文吧,xdm)

网络架构。我们来看看怎么得到feature map 和pseudo-depth两个参数

这里的自问自答挺有意思的:

问答2挺有意思的,使用了双分支判别器来监督image和mask

1、局部生成器

这里的render输出也是两个,image和对应的mask

局部生成器也就是上面的ppt内容,这里傅里叶p代表位置信息是引用自Fourier Features Let Networks Learn High Frequency Functions in Low Dimensional Domains

2、Fusion

1、首先通过pseudo-depth生成mask

2、作为网络R的输入。公式虽然是这样,但m微调了。这里为什么不用m直接作为f的融合,原文也说到了

3、Render

渲染器和stylegan的生成器结构类似,做了微调。原文有

还说明了Render除了输出RGB图像和输出mask

4、判别器

4、效果

这里说傅里叶操作特征融合:(Fourier feature是position encoding,训练的时候时候是固定的(可以看作是stylegan2中的constant input),但测试的时候可以改变对象的位置大小,stylegan3也用到了这种input)

CVPR2022-SemanticStyleGAN相关推荐

  1. 学习笔记:SemanticStyleGAN 面向可控图像合成和编辑的组合生成先验学习

    [CVPR-2022] SemanticStyleGAN: Learning Compositional Generative Priors for Controllable Image Synthe ...

  2. 【研究生工作周报】(GAN最新论文调研)

    GAN系列最新论文调研 文章目录 GAN系列最新论文调研 前言 一.EditGAN:High-Precision Semantic Image Editing 二.TransductGAN: a Tr ...

  3. CVPR2022 | 只用一张图+相机走位,AI就能脑补周围环境,来自华人团队

    明敏 发自 凹非寺 量子位 | 公众号 QbitAI 站在门口看一眼,AI就能脑补出房间里面长什么样: 是不是有线上VR看房那味儿了? 不只是室内效果,来个远景长镜头航拍也是so easy: 而且渲染 ...

  4. CVPR2022最新106篇论文整理|包含目标检测、动作识别、图像处理等32个方向

    转自:极市平台 分类目录: 检测类 2D目标检测 3D目标检测 伪装目标检测 显著性目标检测 边缘检测 消失点检测 分割类 图像分割 语义分割 视频目标分割 人脸 人脸生成 人脸检测 图像处理 图像复 ...

  5. 只用一张图+相机走位,AI就能脑补周围环境,来自华人团队 | CVPR2022

    明敏 发自 凹非寺 量子位 | 公众号 QbitAI 站在门口看一眼,AI就能脑补出房间里面长什么样: 是不是有线上VR看房那味儿了? 不只是室内效果,来个远景长镜头航拍也是so easy: 而且渲染 ...

  6. 【学习周报9.26 ~ 10.1】Hierarchical Modular Network for Video Captioning(CVPR2022)

    学习内容: 论文:Hierarchical Modular Network for Video Captioning(CVPR2022) 论文:End-to-End Object Detection ...

  7. CVPR2022:计算机视觉中长尾数据平衡对比学习

    点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 [前言] 现实中的数据通常存在长尾分布,其中一些类别占据数据集的大部分,而大多数稀有样本包含的数量有限,使用交 ...

  8. ConvNext模型复现--CVPR2022

    ConvNext模型复现--CVPR2022 1.Abstract 2.ConvNet现代化:路线图 3.模型设计方案 3.1 Macro Design(宏观设计) 3.2 ResNext-ify 3 ...

  9. CVPR2022 | 重新审视池化:你的感受野不是最理想的

    前言 本文提出了一种简单而有效的动态优化池操作( Dynamically Optimized Pooling operation),称为DynOPool,它通过学习每一层感受野的最佳大小和形状来优化特 ...

  10. CVPR2022论文集锦 | CVPR2022最新论文 | CVPR2022审稿结果 | CVPR2022录取结果

    持续更新Github: https://github.com/Sophia-11/Awesome-CVPR-Paper CVPR2022文集正在准备,请持续关注 2021持续论文集锦百度云请在[计算机 ...

最新文章

  1. 如何处理SQL Server事务复制中的大事务操作
  2. 禁止input输入框输入指定内容
  3. Servlet: server applet与执行原理
  4. nginx linux脚本,shell脚本之nginx自动化脚本
  5. Device eth0 does not seem to be present, delaying initialization.转载
  6. 解决MariaDB无法远程连接
  7. intellij idea 高级用法之:集成JIRA、UML类图插件、集成SSH、集成FTP、Database管理
  8. 盘点物联网的4个认知误区
  9. 前端学习(2874):原生js模块化+canvas绘制弹幕
  10. (数据库系统概论|王珊)第三章关系数据库标准语言SQL-第六、七节:视图
  11. sqli-labs(50-53)
  12. BZOJ1895: Pku3580 supermemo Splay
  13. Echarts实现以秒为单位的动态三条折线图显示
  14. Testng执行顺序控制
  15. python汽车类_用Python代码实现汽车类,类用,python
  16. 如何用Phaser实现一个全家福拼图H5
  17. 为什么只有奇次谐波_什么是奇次谐波和偶次谐波?_学小易找答案
  18. 技术博客|第16期:个性化视频搜索引擎:排序篇(上)
  19. 如何提交一个高质量的bug?
  20. python判断能否组成三角形_Python练习题4.16判断是否构成三角形

热门文章

  1. 实现类似IE的松散耦合(Loosely-Coupled )效果——Window Tabifier
  2. 学生学籍管理系统 jsp mysql_学生学籍管理系统的设计与实现(JSP,MySQL)
  3. react中的css(css in js)
  4. 深入理解Video标签
  5. 小米域名拦截检测API接口
  6. 通过PWM做一个简单的呼吸灯
  7. 强化学习在业界的实际应用
  8. 万向集团要在区块链上构建智慧城市,这将如何实现?
  9. MySQL Windows安装教程
  10. java-php-python-ssm计算机网络精品课程网站计算机毕业设计