二次元妹子五官画风都能改,周博磊团队用无监督方法控制GAN | CVPR 2021
晓查 发自 凹非寺
量子位 报道 | 公众号 QbitAI
现在,GAN不仅能画出二次元妹子,还能精准调节五官、表情、姿势和绘画风格。
而且在调控某个因素的时候,其他条件能尽量保持不变。
这就是香港中文大学周博磊团队提出的SeFa(语义分解,Semantics Factorization),该论文最近入选了CVPR 2021(Oral)。
SeFa适用于PGGAN、StyleGAN、BigGAN和StyleGAN2等常见GAN模型,不仅对二次元妹子有效,甚至还能调控猫咪上下左右不同方向。
通过这种方法分离出映射矩阵的各个本征值,即可实现对不同图像元素的精准调控
更重要的是,SeFa无需对GAN生成的数据进行标注,它能自己找到这些元素变化对应的编码。也就说SeFa是一种无监督方法。
目前,SeFa相关代码已经开源。
周博磊教授团队的这一成果还得到了母校CSAIL实验室的转发。
无监督方法调节GAN
这些年,GAN在图像合成上取得了巨大的成功。如果想要更好的操控GAN,就需要正确识别其中语义。
但是,由于潜在空间的高维性以及图像语义的多样性,在潜在空间中寻找有效的语义非常具有挑战性。
现有一些基于监督学习的方法,通常首先对大量的潜在编码进行随机采样,然后合成大量图像,并使用一些预定义的标签对其进行注释,最后使用这些标记样本来学习潜在空间中的分离边界。
这种对大量GAN生成图片进行标注的方法,耗时耗力。
因此,作者没有直接利用合成样本作为中间步骤,而是直接研究了GAN的生成机制以解释其内部表示。
更具体地说,对于所有基于神经网络的GAN架构,都是将全连接层用作将输入潜在编码带入生成器的第一步。
这种变换实际上会滤除潜在空间中一些可忽略的因素,突显对于图像合成关键的因素。如果我们能够识别出这些重要的潜在方向,就可以控制图像生成过程。
SeFa对图像的操作,可以看做是将d维潜在空间中的对应向量z沿着n的方向进行移动。
而GAN还会将z映射到另一个m维空间的y。
最终,作者将这一问题转化为:
与其他方法对比
与现有的监督和无监督方法相比,SeFa方法能够更准确,更广泛地识别可解释的维度。而且该方法灵活通用,可适用于不同的GAN。
在下图中,SeFa(b)和无监督的GANSpace(a)、有监督的InterFaceGAN进行了定性对比。SeFa已经接近于有监督方法的效果。
和InfoGAN(a)对比发现,SeFa(b)对不同语义因素的分解程度更高,因为前者在变换人脸姿势时,发色发生了明显的变化。
SeFa不仅能处理GAN制造的图片,对真实照片也有效。利用之前周博磊团队提出的GAN反演方法,将真实照片反向投影到潜在空间,就能改变真实照片。
作者简介
这篇论文的第一作者是香港中文大学多媒体实验室的在读博士生Shen Yujun,本科毕业于清华大学。
他的研究方向是计算机视觉、深度学习、生成模型、网络解释、可解释人工智能(XAI)。
今年他已有3篇论文被CVPR 2021接收,其中两篇为Oral。之前他还在CVPR 2020上发表了2篇论文,在CVPR 2018上发表了1篇论文,总计发表了6篇CVPR。
论文的通讯作者是香港中文大学助理教授周博磊。
周博磊是MIT CSAIL实验室博士,他的研究涉及计算机视觉和机器学习,尤其是视觉场景理解和可解释AI系统。
论文地址:
https://arxiv.org/abs/2007.06600
代码地址:
https://github.com/genforce/sefa
Colab地址:
https://colab.research.google.com/github/genforce/sefa/blob/master/docs/SeFa.ipynb
— 完 —
本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。
点这里????关注我,记得标星,么么哒~
加入AI社群,拓展你的AI行业人脉
量子位「AI社群」招募中!欢迎AI从业者、关注AI行业的小伙伴们扫码加入,与50000+名好友共同关注人工智能行业发展&技术进展:
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见~
二次元妹子五官画风都能改,周博磊团队用无监督方法控制GAN | CVPR 2021相关推荐
- 港中文周博磊团队:无监督条件下GAN潜在语义识别指南
点击上方"机器学习与生成对抗网络",关注"星标" 获取有趣.好玩的前沿干货! 作者:Yujun Shen.Bolei Zhou 机器之心编译 参与:蛋酱.魔 ...
- 深度解析神经网络中每个神经元的使命 | MIT朱俊彦港中文周博磊力作
作者 | 李科雨 编辑 | 陈大鑫 我们都知道,深度神经网络擅长查找可解决大型数据集上复杂任务的分层表示. 而对我们人类来讲,应该如何理解这些学习得到的表示呢? 今天介绍的这项工作中,MIT朱俊彦团队 ...
- 港中文周博磊:十年之间的CVPR与我们(附CVPR2020部分论文链接/开源代码/解读)...
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 作者:周博磊 知乎链接:https://zhuanlan.zhihu.com/p/ ...
- NeurIPS 2021 | 港中文周博磊组:基于实例判别的数据高效生成模型
©作者 | 杨孟平 学校 | 华东理工大学 研究方向 | 深度生成模型.小样本学习 本文介绍一篇利用实例判别实现数据高效(Data Efficienct)图像生成的论文,发表在 NeurIPS 202 ...
- 周博磊自述5年研究经历:一个神经元的价值和一个神经病的坚持
一个神经元能够催生多少故事?香港中文大学信息工程系助理教授周博磊近日撰文介绍了他自 2015 年开始至今对神经元的研究经历.最近,他与 David Bau.朱俊彦等人合作的神经元研究论文发表在了 PN ...
- MIT周博磊:CV本质上是一门科学研究
雷锋网 AI 科技评论按:如果你常逛知乎,相信你对周博磊并不陌生.周博磊目前是 MIT 在读博士生:知乎深度学习(Deep Learning).机器学习.人工智能话题优秀回答者,目前有近两万的知乎关注 ...
- 香港中文大学助理教授周博磊:十年之间的CVPR与我们
作者:周博磊 知乎链接:https://zhuanlan.zhihu.com/p/108878723 又是一年一度CVPR开奖日,希望各位同学都有好收成.掐指一算,这正好是我第十年投稿了.我第一次邂逅 ...
- 【CVPR2017周博磊】Network Dissection: Quantifying Interpretability of Deep Visual Representations
Network Dissection: Quantifying Interpretability of Deep Visual Representations 论文地址:https://arxiv.o ...
- 十年学术生涯新开端:港中文助理教授周博磊宣布加入UCLA
视学算法报道 编辑:蛋酱 今天,香港中文大学信息工程系助理教授在社交媒体平台宣布,自己将于明年加入 UCLA.这一则消息受到了领域内的广泛关注. 「我将在明年初加入 UCLA 计算机科学学院,继续我的 ...
最新文章
- 黑盒测试方法之边界值分析法
- solr 下载 有dist目录的(6需要8)
- Windows下在Django中创建项目时ImportError: No module named django.core解决方法
- 前沿地带:从量子计算到量子互联网
- 学废了!提高工作效率的五个步骤! | 每日趣闻
- 调查:台湾上班族讨厌5种年会状况 最怕老板致词长
- Example of how to use both JDK 7 and JDK 8 in one build.--reference
- Xshell5 评估过期,需要采购,不能使用
- 自然哲学的数学原理_慢跑的数学原理(一):珍惜做的每一份功
- UISwitch,UISegmentedControl及UISlider的初步学习
- Java创建对象详解
- Symmetric Tree (101)
- 实现一个shell程序
- python heapq_Python成为专业人士笔记–Heapq 堆操作
- 博文视点大讲堂25期——2天玩转单反相机
- 中国期货交易技术的逆袭之路
- ISO 标准是什么 RFID标准协议中 ISO18000-6B
- 通道布线 matlab程序,快速最优通道布线算法
- 【转载】project2019安装教程
- js正则表达式把数字格式化成XXXX-XXX-XXX