注：拉到最后有视频版本哦

论文链接：https://arxiv.org/pdf/2007.06600v2.pdf

文字版

我分享一篇用无监督做语义编辑的论文，这篇文章应该是投了 nips，他官网没有更新应该是没有中

-20210308更新- CVPR2021 oral！

我还是从这四个方面来介绍

背景和动机

第一是背景，背景就是 GAN 中有很多语义属性等待我们去发掘

然后是动机，首先我们回顾下上次讲的 interfacegan，这篇文章是基于一个假设，就是在 GAN 的隐空间中，pair 的属性可以通过一个超平面去分开。但是这种做法有一定的问题，就是他处理的属性都必须先由一个标准去定义，比如年龄，随便找个网络都能回归，微笑，悲伤这类的表情也是这样。但是我们多想一步，不是所有的属性都很容易有清晰的定义的，简单来说就是没法打标签，举几个例子，比如一个人的发型，比如他的眼睛性状，肤质等等，再比如一辆车的朝向，性状，打光下来的形式，这些都没法定义。

方法

下面是文章的研究目标，因为有些特征没法打标签，就是用监督的方式没法做，所以希望提出一个无监督的方式来得到这些变化向量

然后是文章的方法，把 stylegan 的网络进行一次简化，如图所示

然后做一个假设，我们假设 FC 层的输出变化很大的时候，图片也会有很大的变化，然后看公式

为了解决上面的优化问题，文章使用了拉格朗日乘数法，把 kkt 条件加进去得到

可以看到其实这是一个特征值与特征向量的形式，然后我们把矩阵进行特征分解，得到的对角矩阵的对角是特征值，正交矩阵的列是特征向量，同时我们也可以知道，输出的特征向量，也就是我们的方向全是正交的，经过公式推导发现经过 FC 到 w 的 latent space，向量也是互相正交的

实验

然后来看实验，在实验前我说一句作者是怎么做实验的，方法不是可以算出很多个特征值和对应的特征向量嘛，特征向量就是我们要的 direction，也就是属性变化方向。作者按特征值大小排序后一个个试，找到姿态，性别，年龄等变化最大的向量，然后做实验

首先和基于采样的无监督方法做对比，第一行是 PCA 的方法，可以看到 PCA 的表现能力很弱，几乎不能编辑，第二行是文章的方法，可以看到和第三行有监督的方法已经很接近了

然后是和基于学习的无监督方法对比，可以看到，编辑效果超过 infogan

接着是和有监督的 interfacegan 做对比，第一个指标是解耦合性的评价，re-score 是编辑前后打分的变化，比如给一个人脸加姿态的变化，我们希望姿态的分数变化很大，其他的分数不变。最优结果就是对角矩阵

然后是多元性的比较，这全部是 sefa 的结果，因为 interfacegan 没法定义这些属性

可以看到变化是很多元的，比如发型颜色，发型种类等

接着是用求得的向量在真实图片上做编辑，这里的 inversion 是用的之前那篇文章，in-domain 做的，可以看到效果还是非常不错的，但我觉得整体来说效果不如有监督的 interfacegan

然后是一个泛化能力，具体来说，由于 FC 是八层的，这里做了 layer-wise 的实验，求特征值的时候只选用某几层，我们可以看到在其他模型上也能达到很不错的变化效果，这个还是很震撼的

最后一个实验是在条件 gan 上做的，可以看到在这种条件 gan 上，对不同种类的生成图片也能做一些编辑

结论

文章的结论就是用一个无监督的方式来分解 gan 中的语义信息

不足

最后是不足，第一点，就是这个工作是一个累活，我估计 100 个向量也找不到几个好用的，第二，因为假设的原因，文章的性能是很受 FC 局限的，如果 FC 没训好，那这个工作就很受影响

视频版

【不知道有没有中nips】Closed-Form Factorization of Latent Semantics in GANs

【CVPR2021】【语义编辑】SeFa(Closed-Form Factorization of Latent Semantics in GANs)论文分析相关推荐

【IJCV2020】【语义编辑】Semantic Hierarchy Emerges in Deep Generative Representations for Scene Synthesis
注:拉到最后有视频版~ 论文地址:https://genforce.github.io/higan 这次给大家分享一篇做场景编辑的文章,作者是周博磊老师组的杨策元,中的是 IJCV2020 我会从这五 ...
基于深度学习的图像语义编辑
深度学习在图像分类.物体检测.图像分割等计算机视觉问题上都取得了很大的进展,被认为可以提取图像高层语义特征.基于此,衍生出了很多有意思的图像应用. 为了提升本文的可读性,我们先来看几个效果图. 图1. ...
图像抠图的closed form算法
关于图像抠图算法,Levin等人在2007年基于图像的局部光滑假设,利用代数的方法推导出了alpha matte矩阵闭合解的形式.原文名称是"A Closed Form Solution ...
优化问题的封闭式解决方案（Closed form solution for optimization problem）
1)F范式的平方可以被写为迹的操作矩阵和它的逆矩阵相乘得到的矩阵的迹 2)F范式平方的导数和的导数等于导数的和令等式等于0,得到参考链接: Closed form solution for o ...
THML结构语义化之table/form
以table/form标签语义化,做为博客首贴应用场景1-table表格 1 <table> 2 <caption> 3 <thead> 4 <th col ...
【CVPR2020】【语义编辑】StyleRig：Rigging StyleGAN for 3D Control over Portrait Images
注:拉到最后有视频版哦~ 地址:https://gvv.mpi-inf.mpg.de/projects/StyleRig/ 这次给大家分享一篇 CVPR2020 的论文,是基于 StyleGAN 结合 ...
可视化的用Python学习线性回归，闭式求解法(closed form)
本文用Numpy生成测试数据,并且用线性回归来求解预测函数.通过Matplotlib来可视化数据和代价函数,这样我们可以对代价函数有更直观的理解. 也叫Normal Function import n ...
iview 编辑回显form校验错误
cpu:[{ required: true,message: '请输入CPU', trigger: 'blur' },{ pattern: /^[0-9]*[1-9][0-9]*$/, message ...
谷歌教机器人理解语义，像人一样学习复杂技能 | 附3篇论文
机器人可以通过机器学习获得复杂的技能,如抓取物体.开门等. 然而,学习这些技能需要我们先人工设置奖励函数,机器人随后再对它进行优化. 而人类,只通过观察别人的做法或者听别人讲,就能理解任务的目标.这依 ...

【CVPR2021】【语义编辑】SeFa(Closed-Form Factorization of Latent Semantics in GANs)论文分析

文字版

背景和动机

方法

实验

结论

不足

视频版

【CVPR2021】【语义编辑】SeFa(Closed-Form Factorization of Latent Semantics in GANs)论文分析相关推荐

最新文章

热门文章