注:拉到最后有视频版本哦

论文链接:https://arxiv.org/pdf/2007.06600v2.pdf

文字版

我分享一篇用无监督做语义编辑的论文,这篇文章应该是投了 nips,他官网没有更新应该是没有中

-20210308更新- CVPR2021 oral!

我还是从这四个方面来介绍

背景和动机

第一是背景,背景就是 GAN 中有很多语义属性等待我们去发掘

然后是动机,首先我们回顾下上次讲的 interfacegan,这篇文章是基于一个假设,就是在 GAN 的隐空间中,pair 的属性可以通过一个超平面去分开。但是这种做法有一定的问题,就是他处理的属性都必须先由一个标准去定义,比如年龄,随便找个网络都能回归,微笑,悲伤这类的表情也是这样。但是我们多想一步,不是所有的属性都很容易有清晰的定义的,简单来说就是没法打标签,举几个例子,比如一个人的发型,比如他的眼睛性状,肤质等等,再比如一辆车的朝向,性状,打光下来的形式,这些都没法定义。

方法

下面是文章的研究目标,因为有些特征没法打标签,就是用监督的方式没法做,所以希望提出一个无监督的方式来得到这些变化向量

然后是文章的方法,把 stylegan 的网络进行一次简化,如图所示

然后做一个假设,我们假设 FC 层的输出变化很大的时候,图片也会有很大的变化,然后看公式

为了解决上面的优化问题,文章使用了拉格朗日乘数法,把 kkt 条件加进去得到

可以看到其实这是一个特征值与特征向量的形式,然后我们把矩阵进行特征分解,得到的对角矩阵的对角是特征值,正交矩阵的列是特征向量,同时我们也可以知道,输出的特征向量,也就是我们的方向全是正交的,经过公式推导发现经过 FC 到 w 的 latent space,向量也是互相正交的

实验

然后来看实验,在实验前我说一句作者是怎么做实验的,方法不是可以算出很多个特征值和对应的特征向量嘛,特征向量就是我们要的 direction,也就是属性变化方向。作者按特征值大小排序后一个个试,找到姿态,性别,年龄等变化最大的向量,然后做实验

首先和基于采样的无监督方法做对比,第一行是 PCA 的方法,可以看到 PCA 的表现能力很弱,几乎不能编辑,第二行是文章的方法,可以看到和第三行有监督的方法已经很接近了

然后是和基于学习的无监督方法对比,可以看到,编辑效果超过 infogan

接着是和有监督的 interfacegan 做对比,第一个指标是解耦合性的评价,re-score 是编辑前后打分的变化,比如给一个人脸加姿态的变化,我们希望姿态的分数变化很大,其他的分数不变。最优结果就是对角矩阵

然后是多元性的比较,这全部是 sefa 的结果,因为 interfacegan 没法定义这些属性

可以看到变化是很多元的,比如发型颜色,发型种类等

接着是用求得的向量在真实图片上做编辑,这里的 inversion 是用的之前那篇文章,in-domain 做的,可以看到效果还是非常不错的,但我觉得整体来说效果不如有监督的 interfacegan

然后是一个泛化能力,具体来说,由于 FC 是八层的,这里做了 layer-wise 的实验,求特征值的时候只选用某几层,我们可以看到在其他模型上也能达到很不错的变化效果,这个还是很震撼的

最后一个实验是在条件 gan 上做的,可以看到在这种条件 gan 上,对不同种类的生成图片也能做一些编辑

结论

文章的结论就是用一个无监督的方式来分解 gan 中的语义信息

不足

最后是不足,第一点,就是这个工作是一个累活,我估计 100 个向量也找不到几个好用的,第二,因为假设的原因,文章的性能是很受 FC 局限的,如果 FC 没训好,那这个工作就很受影响

视频版

【不知道有没有中nips】Closed-Form Factorization of Latent Semantics in GANs

【CVPR2021】【语义编辑】SeFa(Closed-Form Factorization of Latent Semantics in GANs)论文分析相关推荐

  1. 【IJCV2020】【语义编辑】Semantic Hierarchy Emerges in Deep Generative Representations for Scene Synthesis

    注:拉到最后有视频版~ 论文地址:https://genforce.github.io/higan 这次给大家分享一篇做场景编辑的文章,作者是周博磊老师组的杨策元,中的是 IJCV2020 我会从这五 ...

  2. 基于深度学习的图像语义编辑

    深度学习在图像分类.物体检测.图像分割等计算机视觉问题上都取得了很大的进展,被认为可以提取图像高层语义特征.基于此,衍生出了很多有意思的图像应用. 为了提升本文的可读性,我们先来看几个效果图. 图1. ...

  3. 图像抠图的closed form算法

    关于图像抠图算法,Levin等人在2007年基于图像的局部光滑 假设,利用代数的方法推导出了alpha matte矩阵闭合解的形式.原文名称是"A Closed Form Solution ...

  4. 优化问题的封闭式解决方案(Closed form solution for optimization problem)

    1)F范式的平方可以被写为迹的操作 矩阵和它的逆矩阵相乘得到的矩阵的迹 2)F范式平方的导数 和的导数等于导数的和 令等式等于0,得到 参考链接: Closed form solution for o ...

  5. THML结构语义化之table/form

    以table/form标签语义化,做为博客首贴 应用场景1-table表格 1 <table> 2 <caption> 3 <thead> 4 <th col ...

  6. 【CVPR2020】【语义编辑】StyleRig:Rigging StyleGAN for 3D Control over Portrait Images

    注:拉到最后有视频版哦~ 地址:https://gvv.mpi-inf.mpg.de/projects/StyleRig/ 这次给大家分享一篇 CVPR2020 的论文,是基于 StyleGAN 结合 ...

  7. 可视化的用Python学习线性回归,闭式求解法(closed form)

    本文用Numpy生成测试数据,并且用线性回归来求解预测函数.通过Matplotlib来可视化数据和代价函数,这样我们可以对代价函数有更直观的理解. 也叫Normal Function import n ...

  8. iview 编辑回显form校验错误

    cpu:[{ required: true,message: '请输入CPU', trigger: 'blur' },{ pattern: /^[0-9]*[1-9][0-9]*$/, message ...

  9. 谷歌教机器人理解语义,像人一样学习复杂技能 | 附3篇论文

    机器人可以通过机器学习获得复杂的技能,如抓取物体.开门等. 然而,学习这些技能需要我们先人工设置奖励函数,机器人随后再对它进行优化. 而人类,只通过观察别人的做法或者听别人讲,就能理解任务的目标.这依 ...

最新文章

  1. glob及IO重定向
  2. P多行溢出省略号的处理
  3. 【Python学习日志】 - Numpy包
  4. html5 crosshair,嘿,纯正ROG血统 CROSSHAIR VIII IMPACT (开箱篇)最终版
  5. 推荐系统和搜索引擎的关系
  6. 修改配置nginx,限制无良爬虫频率
  7. [Regular] 4、正则表达式的匹配原理原则
  8. fopen()和fgetl()打开问件,读取内容
  9. 一位挪威博士的PolarDB资深架构师之路
  10. 【HDU 6274】Master of sequence【二分答案+下取整转换】
  11. TimesTen索引的概念与日常操作
  12. oracle大写数字转小写,求助oracle小写金额转换大写金额的函数
  13. pve 不订阅更新_炉石传说pve冒险到底好玩在哪里?绯夜千雪来告诉你!
  14. Java小游戏中加背景音乐--有图有真相
  15. c++builder 6.0中OnCliked= fun实现的原理
  16. 【数据结构】格洛克怎么上膛?栈的结构帮你解答!
  17. android百度天气接口api接口,百度天气接口api
  18. Coverage分析工具UNR的使用方法总结
  19. Particle for alexa smart home skill (1)
  20. 两个空间(N维欧氏空间、Lebesgue空间)的Holder不等式

热门文章

  1. 下载视频-you-get
  2. 强大的密码破解工具:hashcat简介与用法介绍与实例
  3. win7系统,网络ID是灰色的。就是要看网络工作组计算机的那个“网络 ID”的那个按钮。
  4. 微信开放平台扫码登陆
  5. 奇迹mu登录器工具和网站文件配置
  6. 显卡在计算机系统中的作用,显卡的作用是什么
  7. java 对List按照某个字段分组
  8. 听说你的程序又双叒叕乱码了
  9. k8s面试中最常见的50个问题(翻译)
  10. MacOS好用的系统清理工具CleanMyMac有哪些特点功能?