点上方计算机视觉联盟获取更多干货

仅作学术分享,不代表本公众号立场,侵权联系删除

转载于:新智元

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接

大家都知道,用GAN可以进行人像的生成。

但在GAN学习的潜在空间里,人的姿势、形状和纹理样式等不同属性通常都是结合在一起的。

那么想控制某个特定部位的属性怎么办?

为此,来自上海科技大学和加州大学圣地亚哥分校的研究团队就提出了名为「SofGAN」的人像生成系统。

论文地址:https://arxiv.org/pdf/2007.03780.pdf

项目地址:https://apchenstu.github.io/sofgan/

这个系统将人像的潜在空间解耦为两个子空间:几何空间和纹理空间。

从两个子空间采样的潜在代码分别馈送到两个网络分支:一个生成具有规范姿势的肖像的3D几何图形,另一个生成纹理。

对齐的3D几何还带有语义部分分割。

编码为语义占用字段SOF,能够在任意视图上渲染一致的2D语义分割图。

然后将其与生成的纹理图融合,使用语义实例(SIW)模块,处理为人像照片。

也就是说,这个系统可以单独控制人像的头发、眼睛、眼镜、皱纹和肤色,生成高质量肖像图像。

这个方法还可以推广到各种应用中,例如制作外观一致的面部动画和动态造型。

解耦表征

这项工作的主要贡献是「解开」已学到的面部特征,例如姿势和纹理,这样SofGAN也可以生成与不正对相机的视角的图像。

作者从图像渲染系统中吸取灵感,提出了将图像场景解耦为几何空间和纹理空间的方法。

同时将传统的占用字段扩展到语义占用字段(SOF)以模拟肖像几何。

SOF描述了每个空间点在k语义类上的概率分布,包括头发、脸、脖子、衣服等。

用SofGAN合成图像步骤:

  1. 对SOF进行光线跟踪,从给定的用户特定视点获得2D分割图。

  2. 采用GAN生成器,从纹理空间采样的样式代码对每个语义区域进行纹理化。

  3. 提出语义实例(SIW)纹理模块支持动态和区域样式控制。

解耦表征能够显式控制姿势、形状和纹理样式。

从原图像开始,在第二列的图像中改变了人物的头部姿势、面部轮廓和纹理样式。

而第三列则是从不完整的segmap中生成交互式图像,用户能够逐部分添加到segmap,并即时生成彩色图像。

SIW-StyleGAN的特点之一就是语义级别的样式控制。

也就是能够根据指定的语义分割图进行区域样式调整,单独控制每个语义区域的样式。

SofGAN还可以根据全局、背景、肤色、头发等语义区域生成不同的图像。

SofGAN框架可以通过改变相机角度,从几何样本或真实图像中生成自由视点的人像图像。

SOF使用多视图语义分割图进行训练,视图之间的几何投影约束在SOF中编码,这样就能够在改变视点时保持人像的形状和表情一致。

此外,用户还能从无到有,用户逐一将各部分添加到segmap,即时生成彩色图像。

比如用哈利波特演员Daniel Radcliffe作为跟踪模板画一个人出来。

当然,这些都只是生成了静态的图像。

SofGAN还能生成动态图像。

看上去也是十分自然,非常逼真。

效果怎么样?

经过三天训练,1500次迭代,SofGAN生成的图像与英伟达的Spade和PixPixHD以及SEAN等方法相比,从单个分割图中获得的图像更逼真。

SofGAN能够生成逼真图像,因为它有以下三个特点:

1. 对单个属性进行显示控制,其余属性保持不变。

因此SofGAN可以支持相应的渲染效果,比如自由视点渲染、全局和区域样式调整、面部变形、表情编辑等。

2. 训练未配对的数据。

与之前需要使用配对/对其RGB和分割图像进行训练的方法不同,SIW模块可以使用未配对的真实世界图像和合成语义分割图直接进行训练。

3. 按需和交互式生成。

SofGAN生成器的定制架构能够从不准确甚至不完整的分割图中合成逼真的人像。因此,用户能够从一个界面像Photoshop的工具,为交互式肖像设计手绘语义轮廓。

而综合实验表明,在CelebA和FFHQ数据集上,SofGAN图像生成器都达到了SOTA FID和LPISP分数,可用于广泛的综合任务。

参考资料:

https://arxiv.org/pdf/2007.03780.pdf

-------------------

END

--------------------

我是王博Kings,985AI博士,华为云专家、CSDN博客专家(人工智能领域优质作者)。单个AI开源项目现在已经获得了2100+标星。现在在做AI相关内容,欢迎一起交流学习、生活各方面的问题,一起加油进步!

我们微信交流群涵盖以下方向(但并不局限于以下内容):人工智能,计算机视觉,自然语言处理,目标检测,语义分割,自动驾驶,GAN,强化学习,SLAM,人脸检测,最新算法,最新论文,OpenCV,TensorFlow,PyTorch,开源框架,学习方法...

这是我的私人微信,位置有限,一起进步!

王博的公众号,欢迎关注,干货多多

王博Kings的系列手推笔记(附高清PDF下载):

博士笔记 | 周志华《机器学习》手推笔记第一章思维导图

博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”

博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”

博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”

博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(上)

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(下)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(上)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(下)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(上)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(下)

博士笔记 | 周志华《机器学习》手推笔记第九章聚类

博士笔记 | 周志华《机器学习》手推笔记第十章降维与度量学习

博士笔记 | 周志华《机器学习》手推笔记第十一章稀疏学习

博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论

博士笔记 | 周志华《机器学习》手推笔记第十三章半监督学习

博士笔记 | 周志华《机器学习》手推笔记第十四章概率图模型

点分享

点收藏

点点赞

点在看

上科大提出:对抗神经网络 动态人像系统SofGAN!相关推荐

  1. ​清华大学提出基于生成对抗神经网络的自然图像多风格卡通化方法并开源代码...

    近日,清华大学刘永进教授课题组在 IEEE Transactions on Visualization and Computer Graphics 上发表论文,提出基于生成对抗神经网络的自然图像多风格 ...

  2. ​清华大学提出基于生成对抗神经网络的自然图像多风格卡通化方法并开源代码

    近日,清华大学刘永进教授课题组在 IEEE Transactions on Visualization and Computer Graphics 上发表论文,提出基于生成对抗神经网络的自然图像多风格 ...

  3. 学界 | 斯坦福提出高速视频目标检测系统NoScope:速度超现有CNN上千倍

    卷积神经网络在目标检测任务上已经取得了优良的表现,但它们的计算成本比较高.速度比较慢,不适用于大规模的实时视频处理.为了解决这个问题,斯坦福大学的几位研究者提出了一个名叫 NoScope 的系统,将目 ...

  4. KD-VLP:知识蒸馏和预训练还能这么结合?上科大IntelMSRA提出基于知识蒸馏的端到端多模态预训练模型...

    关注公众号,发现CV技术之美 本文分享论文『KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object Knowl ...

  5. 程序分析-Slice,深度神经网络动态slice

    Dynamic Slicing for Deep Neural Networks 一.Introduction 二.Motivation And Goal 2.1.Motivation 2.2.Pro ...

  6. 不仅搞定“梯度消失”,还让CNN更具泛化性:港科大开源深度神经网络训练新方法

    原文链接:不仅搞定"梯度消失",还让CNN更具泛化性:港科大开源深度神经网络训练新方法 paper: https://arxiv.org/abs/2003.10739 code: ...

  7. 准备好春招了么?上科大小哥的面试题与复习资料祝你寒假无忧

    选自Github 转载于机器之心 去年上海科技大学 AI 实验室开源了一份深度学习面试题集锦,它从数学基础.经典机器学习算法.深度学习算法以及编程语言等方面提供了众多面试题.此外,这一个项目是作者在准 ...

  8. 混合驱动的神经网络动态逆无人机机动飞行控制

    哈喽,好久不见. 本人最近都在忙硕士毕业的事,博客落下太久了,目前毕业情况尚且待定,但博客还是要追赶一下的.这次赶到11月的尾巴,把自己的课题简答介绍一下,也把之前文章串起来.如果有需要或者感兴趣的朋 ...

  9. 条件生成对抗神经网络,生成对抗网络gan原理

    关于GAN生成式对抗网络中判别器的输出的问题 . ...摘要生成式对抗网络GAN(Generativeadversarialnetworks)目前已经成为人工智能学界一个热门的研究方向.GAN的基本思 ...

最新文章

  1. Oracle Listener 动态注册 与 静态注册
  2. [Usaco2007 Dec]穿越泥地[bfs][水]
  3. 案发设计与分析 试验一
  4. linux i2c子系统看不懂啊,Linux 下的I2C子系统
  5. Spring Cloud Netflix项目进入维护模式之我见
  6. Boost:bind绑定的unique_ptr测试程序
  7. 【Linux】一步一步学Linux——trap命令(229)
  8. 机房收费系统——总结
  9. 求字符串的最长回文字串 O(n)
  10. ORACLE RAC 手动建库
  11. mysql的粗略学习
  12. VOSviewer初步学习
  13. 1. 类,对象,对象属性,对象的行为
  14. 没有你看不懂的Kmeans聚类算法
  15. VUE之高德地图轨迹绘制与轨迹回放
  16. web网页端 微信 登录 内嵌 二维码 方法
  17. 分布式协调器ZooKeeper3.4—管理员手册
  18. C#调用FFMPEG实现桌面录制(视频+音频+生成本地文件)【笔记】
  19. C++ 关于日期时间(四)asctime/ctime/gmtime/time_t/tm
  20. 学习ARM开发(6)

热门文章

  1. php解escape,PHP下escape解码函数用法示例
  2. python制作的游戏如何转化为swf_从纯Python中的Flash文件(.swf)获取维度
  3. python 引用库的点.号_给大家分享一些实用的Python库
  4. android 9.0华为荣耀,华为9款旗舰尝鲜Android 9.0 还不快去升
  5. jumpserver 重启mysql_jumpserver 常见错误解决
  6. 2运行内存多大_电脑有没有必要升到16GB内存?今年内存这么便宜?要不要抄底升级到16GB?...
  7. java author 认证_详解Java后端优雅验证参数合法性
  8. FreeRTOS任务优先级说明
  9. P1941 飞扬的小鸟
  10. Codeplus2017 12月赛——可做题1