丰色 发自 凹非寺
量子位 报道 | 公众号 QbitAI

把人的眼睛变大、把闭着的嘴合上、转动眼珠:

质量如此逼真、一点糊图的痕迹都没出现——

如果我不说,你知道这其实是GAN自己P的吗?

除了人脸,汽车啊鸟啊猫啊也都可以,比如改改车轮大小、换个车轴样式:

把小鸟的喙部变长、头抬高、胸脯变壮:

用动图展示就更炫酷了:

大点大点,圆点圆点,头发再多一点……

怎么样,这GAN的效果是不是也不输PS

一个高质量P图GAN

以上这些都来自一个叫做EditGAN的模型,可以对图像实现很多细节上的编辑同时还能保持原图质量

研究出自英伟达、多伦多大学以及MIT,相关论文已被NeurIPS 2021接收。

在此之前,大多数基于GAN的图像编辑方法往往都需要大规模数据集上的语义分割注释才能训练,并且也只能做一些有限的修改,有的甚至只是在两张图之间简单地进行插值。

EditGAN作为一种全新方法,只需少量语义标记就能训练。

它会把原图像分割成高度精细的语义块(segmentation mask),有多精细呢?

就比如下面这张人脸图,被足足按30种语义进行了分割:

而在一个交互工具中(还未开放地址),只需操作这些语义块就可以对相应部分进行修改。

EditGAN的关键思想在于利用图像和语义分割的联合分布p(x, y) 。

具体来说就是给定要编辑的新图像x,将其嵌入到EditGAN的潜空间,由于语义分割图和RGB图像共享相同的潜码,所以可以得到相应的分割图y。

接着,使用简单的交互式数字绘画或标签工具,可以根据所需的编辑手动修改分割图y。

然后进行共享潜码的优化,以保持新分割图与真实图像的RGB外观一致,如图所示:

相应的梯度则通过共享生成器反向传播而成。

结果就是潜空间中的编辑向量δw + edit

此外,EditGAN通过学习提炼各种各样的编辑向量,可以直接应用于新的图像。

还可以泛化到绘画作品上

真实质量如何?

研究人员在在四个不同类别的图像上对EditGAN进行评估:汽车(空间分辨率384×512)、鸟类(512×512)、猫(256×256)和人脸(1024×1024)。

  • 定性实验结果

将EditGAN此前学习的编辑向量应用于新图像,经过30个优化步骤的细化,EditGAN的编辑操作保持了原图像的质量。


用它进行高精度细节编辑的效果也很好,比如下面左图对轮轴的旋转,右图对瞳孔大小的修改:

在下面这种高清的图像上效果就更好了:

作者表示,目前其他方法都还不能达到这样的效果。

此外,EditGAN也有很强的泛化能力,比如在下面这种绘画等风格的人像上,做点小表情毫无违和感。

  • 定量实验结果

和基于MaskGAN的smile编辑基准的模型相比,EditGAN则实现了最佳属性精度和ID分数。

最后,和所有基于GAN的图像编辑方法一样,EditGAN仅限于应用到由GAN建模的图像上。

作者介绍

一作凌欢,多伦多大学博士生,同时在该校人工智能研究院(Vector Institute)和英伟达做研究。

共同一作Karsten Kreis,英伟达高级研究科学家,2018年以博士学位毕业德国马普高分子所。

其余作者包括:英伟达多伦多AI Lab的Li Daiqing,多伦多大学的Seung Wook Kim,以及MIT教授Antonio Torralba。

通讯作者为一作导师,多伦多大学副教授,英伟达AI总监Sanja Fidler。

论文地址:
https://arxiv.org/abs/2111.03186

项目主页:
https://nv-tlabs.github.io/editGAN/

用GAN也可以P图,效果还不输PS | 英伟达出品相关推荐

  1. GAN能合成2k高清图了!还能手动改细节 | 论文+代码,英伟达出品

    夏乙 安妮 编译整理 量子位 出品 | 公众号 QbitAI 输入一张语义地图-- 就能为你还原整个世界. 输入一张亲妈都认不出来的语义标注图-- 为你合成一张真实的人脸. 聪明的你可能已经发现,这个 ...

  2. 成熟的GAN会自己分析脸部纹理!英伟达StyleGAN团队出新作,网友:竟然还能有突破...

    杨净 发自 凹非寺 量子位 报道 | 公众号 QbitAI 换脸的GAN,还能有啥突破? 要不,分析个脸部纹理试试. 不得不说,真有点科幻电影的赶脚~ 这是英伟达最新推出GAN--Alias-Free ...

  3. drive数据集_英伟达的最强人脸GAN开源了,它吃的高清数据集也开源了

    栗子 假装发自 凹非寺 量子位 出品 | 公众号 QbitAI 你大概还没忘记,英伟达去年年底推出的GAN,它合成的人脸甚至骗得过肉眼. 如今,它终于有了自己的名字,叫StyleGAN.顾名思义,GA ...

  4. 你也能用英伟达GAN造脸了:官方实现有了,高清数据集也开源了

    栗子 假装发自 凹非寺 量子位 出品 | 公众号 QbitAI 你大概还没忘记,英伟达去年年底推出的GAN,它合成的人脸甚至骗得过肉眼. 如今,它终于有了自己的名字,叫StyleGAN.顾名思义,GA ...

  5. 一张图像百般变化,英伟达用GAN实现高精度细节P图

    在实现复杂且高精度图像编辑效果的同时,EditGAN 还能保持较高的图像质量和对象身份,英伟达在图像处理领域果然「出手不凡」. 当前,AI 驱动的照片和图像编辑技术有助于简化摄影师和内容创作者的工作流 ...

  6. 英伟达把P图软件GAN了

    晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 英伟达的最新AI工具又让网友用户们激动了. "我已经等不及了!" 一位网友在看完演示视频后表示. 对于"手残党 ...

  7. 英伟达推出GAN“超级缝合体”,输入文字草图语义图都能生成逼真照片

    晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 继GauGAN2之后,英伟达推出了一个GAN的"超级缝合体"--PoE GAN. PoE GAN可以接受多种模态的输入, ...

  8. Github开源趋势榜Top 1:英伟达升级发布二代StyleGAN,效果更完美

    整理 | Jane 出品 | AI科技大本营(ID:rgznai100) 2018 年底,英伟达借鉴风格迁移的思路,提出当时最先进的无条件生成模型-- StyleGAN ,吸引了大家广泛关注.随后,代 ...

  9. 最新3D GAN可生成三维几何数据了!模型速度提升7倍,英伟达斯坦福出品

    明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI 2D图片变3D,还能给出3D几何数据? 英伟达和斯坦福大学联合推出的这个GAN,真是刷新了3D GAN的新高度. 而且生成画质也更高,视角随 ...

最新文章

  1. linux多路由表,linux 多网卡多路由表实现策略路由
  2. 【Linux 内核 内存管理】虚拟地址空间布局架构 ① ( 虚拟地址空间布局架构 | 用户虚拟地址空间划分 )
  3. 推荐的这5个高效在线工具,每一个都很良心!
  4. C#LeetCode刷题之#717-1比特与2比特字符( 1-bit and 2-bit Characters)
  5. 相机模型和双目立体匹配
  6. 史上最快AI计算机发布!谷歌TPU V3的1/5功耗、1/30体积,首台实体机已交付
  7. mysql 查询大于某个时间_有关于mysql 时间作为条件查询,索引失效的问题。
  8. [转载]Docker的安装配置及使用详解
  9. [转]sql server性能分析--检测数据库阻塞语句
  10. 【数值分析】—— 对数函数、指数函数(数值稳定性)
  11. 揭秘黑石、橡树等巨头的不良资产赚钱术
  12. 平面向量内积坐标公式推导_向量内积的坐标表示.ppt
  13. JavaScript:Promise进阶知识
  14. STM32F429_DWM物联网开发板
  15. python 输出纯音频_提取视频中的音频python三行程序搞定
  16. 如何实现公共WiFi短信认证上网?
  17. 音视频基础:视频的编码
  18. mysql数据库中怎么删除一行_数据库教程_mysql如何删除表中一行数据?- 中国it教程网...
  19. error: no matching function for call QDebug:: QDebug
  20. 简述Java长期占据主要地位的原因

热门文章

  1. 如何解决问题:程序无法正常启动(0xc0000022)
  2. 如何使用SQL Server 2008打开和关闭IDENTITY_INSERT?
  3. 使用Project Lombok是否安全? [关闭]
  4. 你的代码糟粕比精华要多得多
  5. Android项目中使用激光推送时在模拟器上运行时报Fatal signal 11的解决
  6. TechED 2005 博客园兄弟合影
  7. linux java jdk_神级程序员教你如何10分钟在Linux上安装java的JDK?
  8. iphone全部机型_iPhone12卖爆 产业链喜迎5G时代 股价天花板打开?|iphone|iphone12|运营商|智能机...
  9. iOS10 UI教程管理层次结构
  10. Swift2.0语言教程之类的嵌套与可选链接