1 前言

该论文是关于GAN图像生成类的文章出自于大连理工大学并发表于CVPR2021。GAN生成能力最关键的一环在于模型利用真实数据的信息量的多少,但是GAN及其相应的变体因为利用的信息量比较单薄,所以会导致模型在训练的过程中非常脆弱,容易导致模型崩塌。

为了解决这个问题,论文中作者提出了一种新的GAN的框架












,不同于以往的GAN的判别器将样本映射为判别真假的概率值,该论文中判别器将输入样本映射成为高斯分布因子,借此充分的提取真实分布信息,作者从理论实验两方面验证了












的有效性。论文中的作者还引入了很多个小技巧来文本GAN模型训练的过程。

论文:https://openaccess.thecvf.com/content/CVPR2021/papers/

项目:https://github.com/bioinf-jku/TTUR

论文出自大连理工大学研究团队。

2 预备知识

2.1 LSGAN

与最初的








不同,










采用最小二乘法作为损失函数。它惩罚那些远离决策边界的样本,这些样本可以执行更稳定的学习过程。本文中的

























的损失函数为基础,其中目标函数为:

其中















是真实图像的分布,










是生成图像的分布。









分别表示假数据和真实数据的标签,而




表示生成器




希望判别器




相信假数据的值。

2.2 AdaIN












是针对风格传递提出的,它可以将外部风格的图像信息融合到归一化中。给定第




个卷积特征


















通过实例归一化















进行归一化,然后使用







在样式特征







上提供的相应均值和方差对其进行缩放和偏置。该操作被定义为:

在该论文中,作者使用










层将真实信息应用于生成器。

2.3 参数化

参数化技巧主要用在变分推理中梯度下降中,通过得到了多元高斯分布的因子,就可以通过参数化技巧生成该分布的样本。作者从标准高斯











中采样一个随机噪声




,然后从特定的多元高斯分布中采样可以是:












其中









分别是高斯分布的参数。

3 模型方法

由于本论文的数学符号过多,为了能够清晰的辨识,我将论文中的数学符号整理成下表。

如下图所示为












的模型结构图。判别器将图像作为输入,并输出多元高斯分布的因子









。生成器在训练过程中借助于后验模块和










从随机噪声




和后验向量




中产生图像。

3.1 分布度量 

假设:















是通过参数化技巧从两个不同的一维高斯分布















































中采样的:





















































之间的最小平方距离为:

其中对于














,如果说距离








,则可以认为分布















基本一致。可以将上公式重新简化为:



























证明:已知






















































































,则有





























,进一步可以推知:

如果








,则有



























。此时分布















一致,但前提假设是多维高斯分布的每个元素之间时相互独立的。

3.2 后验分布判别器

判别器输出的是后验分布的特征向量




,而不是一个标量的概率数值。多元高斯后验分布的两个因子分别是均值










和标准差















,其中























是多元高斯分布的维度。

给定一批图像



















,判别器同时输出









,它们表示向量















上的高斯后验分布的因子,后验分布可以表示为






















,其中




可以从真实图像分布















采样或由分布










中生成。

为了构造对抗损失,作者引入了向量




的两个先验分布

















σ




























σ








,它们是用户给出的多元高斯分布。作者将










的损失推广为高斯分布的形式,具体的损失函数表示为:

其中第一项缩短后验分布







和先验分布







之间的距离。后验分布







和先验分布







之间的距离。通过最小化























中的真实信息将被用来促进生成器的生成过程。

3.3 后验分布生成器 

生成器输入从标准高斯采样的随机噪声




以及来自后给定真实图像的编码向量




,并输出生成的图像。作者利用










来稳定生成器的训练,防止训练过程中真实信息的消失,对抗损失函数如下所示:

传统上,生成器接收从标准高斯采样的随机噪声















并用于产生图像,其中




是随机噪声的维数。作者基于这个设计出发,在给定

















的情况下,引入了一个来自于后验判别输出的后验向量









,与










一起将包含在后验中的真实信息嵌入到生成器的每一层中。

后验模块是相互独立的完全连接的层,没有任何激活功能,如模型结构图所示,它们用于将




映射到对应于不同卷积信道的不同维度的特征。除了在每一层应用真实信息之外,后验模块还提供了根据不同卷积层的需求调整信息:






















其中












中采样,给定




























是第




个后验模块。作者的方法使用后验特征作为










中的外部信息,生成器中使用的










层如下:

作者首先利用















进行归一化,使其具有零均值和单位方差,然后用具有真实信息的








的均值和方差对其进行偏置和缩放,最后将后验特征向量















加入到生成器中,以真实图像为样式参考,对生成的图像进行“样式转换”。

因此,










通过改变特征的统计信息将真实信息融合到每一层。为了在训练过程中保留真实信息,作者提出了一个正则化器









,它是用于最小化后验给定生成图像和真实图像之间的距离:

其中下标









用于区分从不同分布


























采样的图像。






表示绝对值。综上所述,生成器的总的损失函数为:
































其中




表示的是平衡系数。

4 理论分析

作者分析了

















-散度之间的关系。给定固定的




,可以推导出基于










的最优鉴别器:






最优时,正则化损失









为零。为了分析




的最优值,作者将损失









改写如下形式:

其中第一项没有




的参数,所以最优值保持不变。为了简单起见,作者在下面的等式中去掉了分布中的




,则损失可以重新写成:

进而则有:

其中,项





















是相对于变量




的,该项可以被视为一个常数值,可以把它排除在




的积分之外,进而则有:

如果
















,最小化








意味着最小化



































之间






散度。当且仅当时,达到最佳








,最优解为:

写成高斯分布的形式为:

5 实验结果

5.1 质量分析

下表给出了CIFAR10和CelebA的FID分数,可以发现










是所有基线中最好的。

下面三幅图为定性结果的展示,












生成的图片如下两幅图所示:

5.2 模块分析

下图表示了论文中












模型的四种设置的结果,该实验证了各个组件模块在












中起到的积极的作用。

如下表所示,与使用







相比,使用







来标准化










会有更高的FID分数。

5.3 收敛性分析

理论收敛分析可以通过检查全局收敛度量来验证,具体公式如下所示:

其中

































,如下图所示所示为









的训练值,这验证了












具有很好的收敛性。

备注:GAN

GAN

生成对抗网络、GAN等技术,

若已为CV君其他账号好友请直接私信。

在看,让更多人看到  

CVPR2021 P2GAN:提高图像风格迁移的鲁棒性相关推荐

  1. CVPR2021 最佳论文候选—提高图像风格迁移的鲁棒性

    1 前言 该论文出自于加州大学圣地亚哥分校并收录于CVPR2021,主要是对图像风格迁移的研究.传统的方法是由预先训练的网络提取的特征之间的相关性从而捕捉图像的视觉风格,但这种风格化质量并不稳定,当应 ...

  2. 读“基于深度学习的图像风格迁移研究综述”有感

    前言 关于传统非参数的图像风格迁移方法和现如今基于深度学习的图像风格迁移方法. 基于深度学习的图像风格迁移方法:基于图像迭代和模型迭代的两种方法的优缺点. 基于深度学习的图像风格迁移方法的存在问题及其 ...

  3. 将 TensorFlow 移植到 Android手机,实现物体识别、行人检测和图像风格迁移详细教程

    2017/02/23 更新 贴一个TensorFlow 2017开发者大会的Mobile专题演讲 移动和嵌入式TensorFlow 这里面有重点讲到本文介绍的三个例子,以及其他的移动和嵌入式方面的TF ...

  4. 图像迁移风格保存模型_图像风格迁移也有框架了:使用Python编写,与PyTorch完美兼容,外行也能用...

    原标题:图像风格迁移也有框架了:使用Python编写,与PyTorch完美兼容,外行也能用 选自Medium 作者:Philip Meier 机器之心编译 编辑:陈萍 易于使用的神经风格迁移框架 py ...

  5. 图像风格迁移基础入门及实践案例总结

    目录 1图像的不同风格 2何为图像风格迁移 2.1基础概念及方法 2.2示例 3图像风格迁移的典型研究成果 3.1deep-photo-styletransfer 3.2CycleGAN 3.3U-G ...

  6. java图像风格迁移_Python+OpenCV 图像风格迁移(模仿名画)

    现在很多人都喜欢拍照(自拍).有限的滤镜和装饰玩多了也会腻,所以就有 APP 提供了模仿名画风格的功能,比如 prisma.versa 等,可以把你的照片变成 梵高.毕加索.蒙克 等大师的风格. 这种 ...

  7. tensorflow学习笔记九:将 TensorFlow 移植到 Android手机,实现物体识别、行人检测和图像风格迁移详细教程

    2017/02/23 更新 贴一个TensorFlow 2017开发者大会的Mobile专题演讲 移动和嵌入式TensorFlow 这里面有重点讲到本文介绍的三个例子,以及其他的移动和嵌入式方面的TF ...

  8. 基于神经网络的图像风格迁移解析与实现

    概述 最近对图像风格迁移这种技术突然非常感兴趣,大概是之前读到了一篇关于对抗生成网络生成逼真人脸的论文文献,于是对这种技术很是好奇,大致了解了一下这个领域.我大致将其分为三个研究领域: 基于传统的机器 ...

  9. 图像迁移风格保存模型_CV之NS:图像风格迁移(Neural Style 图像风格变换)算法简介、关键步骤配图、案例应用...

    CV之NS:图像风格迁移(Neural Style 图像风格变换)算法简介.过程思路.关键步骤配图.案例应用之详细攻略 目录 图像风格迁移算法简介 图像风格迁移算法过程思路 1.VGG对比NS 图像风 ...

最新文章

  1. jq实现文字个数限制_Android实现类似钉钉水印背景功能
  2. Ubuntu 16.04下如何安装VMware-Workstation
  3. ESP8266在线视频网址
  4. CString原理介绍
  5. java web快速入门_Web安全快速入门
  6. 编程求以孩子兄弟表示法存储的森林的叶子结点数☆
  7. 服务器开机需要按f2才能进系统吗,win7系统电脑每次开机总要按F2才能进入系统怎么办...
  8. redis的zset的底层实现_Redis底层数据结构之 zset
  9. ICT学习笔记(3)IP编址
  10. extract-text-webpack-plugin
  11. C#正则表达式之字符替换!...
  12. ActivityMQ使用
  13. HDB3码的转换,3步完成,清晰易懂
  14. 乘风破浪的 AI 姐姐,成团首秀献唱 WAIC
  15. linux6.9 fc cache,(转载, 已看)fc-cache出错解决办法.
  16. 【我的OpenGL学习进阶之旅】关于3D模型知识之:什么是obj文件和mtl文件
  17. 一款FPGA时序电路数据画图软件
  18. 7个你绝对没用过的超强搜索引擎
  19. 中国石油大学《政治学原理》第一次在线作业
  20. php中define的参数_php中define的含义及用法详解

热门文章

  1. 网络爬虫之Url含有中文如何转码
  2. 常用损失函数(Loss Function)
  3. optimized mysql_MySQL解释计划中“Select tables optimized away”的含义
  4. 【script】python使用pymssql模块访问SQL Server(Mssql)
  5. html表格展开明细,展开/折叠HTML表格
  6. 计算机一级举报单位,2018年9月计算机一级Photoshop考试巩固练习题(三)
  7. 编写python扩展模块_《深度剖析CPython解释器》27. 使用Python/C API编写扩展模块:编写扩展模块的整体流程...
  8. 金融数学与计算机专业,金融数学专业就业方向及前景分析(解读)
  9. python图片识别是否p过_Python+Opencv进行识别相似图片
  10. 筛选平台数据包丢弃_高并发电商平台设计