晓查 发自 凹非寺
量子位 报道 | 公众号 QbitAI

继GauGAN2之后,英伟达推出了一个GAN的“超级缝合体”——PoE GAN

PoE GAN可以接受多种模态的输入,文字描述图像分割草图风格都可以转化为图片。

而且它可以同时接受以上几种输入模态的任意两种组合,这便是PoE的含义。

所谓PoE是Hinton在2002年提出的“专家乘积”(product of experts)概念,每个专家(单独模型)被定义为输入空间上的一个概率模型。

而每种单独的输入模态都是合成图像必须满足的约束条件,因此满足所有约束的一组图像是满足每个约束集合的交集。

假设每种约束的联合条件概率分布都服从高斯分布,就用单条件概率分布的乘积来表述交集的分布。

在此条件下,为了使乘积分布在一个区域具有高密度,每个单独的分布需要在该区域具有高密度,从而满足每个约束。

而PoE GAN的重点是如何将每种输入混合在一起。

PoE GAN的设计

PoE GAN的生成器使用全局PoE-Net将不同类型输入的变化混合起来。

我们将每个模态输入编码为特征向量,然后使用PoE汇总到全局PoE-Net中。解码器不仅使用全局PoE-Net的输出,还直接连接分割和草图编码器,以此来输出图像。

全局PoE-Net的结构如下,这里使用一个潜在的特征矢量z0作为样本使用PoE,然后由MLP处理以输出特征向量w。

在鉴别器部分,作者提出了一种多模态投影鉴别器,将投影鉴别器推广到处理多个条件输入。

与计算图像嵌入和条件嵌入之间单个内积的标准投影鉴别器不同,这里要计算每个输入模态的内积,并将其相加以获得最终损失。

随意变换输入的GAN

PoE可以在单模态输入、多模态输入甚至无输入时生成图片。

当使用单个输入模态进行测试时,PoE-GAN的表现优于之前专门为该模态设计的SOTA方法。

例如在分割输入模态中,PoE-GAN优于此前的SPADE和OASIS。

在文本输入模态中,PoE-GAN优于文本到图像模型DF-GAN、DM-GAN+CL。

当以模式的任意子集为条件时,PoE-GAN可以生成不同的输出图像。下面展示了PoE-GAN的随机样本,条件是两种模式(文本+分割、文本+草图、分割+草图)在景观图像数据集上。

PoE-GAN甚至还能没有输入,此时PoE-GAN就会成为一个无条件的生成模型。以下是PoE-GAN无条件生成的样本。

团队介绍

论文通讯作者是英伟达著名工程师刘洺堉,他的研究重点是深度生成模型及其应用。英伟达Canvas和GauGAN等有趣的产品均出自他手。

论文一作是黄勋,北京航空航天大学本科毕业,康奈尔大学博士,现在在英伟达工作。

论文地址:
https://arxiv.org/abs/2112.05130

PoE:
https://www.cs.toronto.edu/~hinton/absps/icann-99.pdf

投影鉴别器:
https://arxiv.org/abs/1802.05637

英伟达推出GAN“超级缝合体”,输入文字草图语义图都能生成逼真照片相关推荐

  1. 英伟达推出Super显卡,老黄再现精准“刀法”,网友:都是被AMD逼的

    晓查 发自 凹非寺 量子位 出品 | 公众号 QbitAI 英伟达老黄再次展现了他精准"刀法":给自家显卡加上了Super产品线. RTX系列显卡在刚上市之时,数字后加不加&quo ...

  2. 亚马逊独霸美国安云计算未来十年订单;英伟达推出首个元宇宙平台;华为云、天翼云会合并吗?...

    NEWS 本周新闻回顾 亚马逊独霸美国安云计算未来十年订单,微软表示不服 亚马逊AWS获得美国国家安全局100亿美元云计算合同.得知亚马逊拿下订单后,微软已向政府问责提交文件,提出抗议. 最终--还是 ...

  3. 英伟达用GAN生成脑瘤图像,训练出的AI医生,准确率提高16%

    栗子脑 发自 凹非寺 量子位 出品 | 公众号 QbitAI 辅助医生做疾病诊断的AI,已越来越常见. 从前,每只AI要吃下来自放射科的许多许多图像数据,学好图中的特征,才可能出师. 数据集越大越好, ...

  4. python视频处理框架_英伟达推出适用于Python的开源视频处理框架

    NVIDIA推出了适用于Python的开源视频处理框架"VideoProcessingFramework"(VPF).据悉,VPF是一组开源的C ++库和Python绑定,可与其封 ...

  5. 英伟达又一次突破想象力!一句话实时P图在线Demo可玩,「神笔马良」升级「创世纪」...

    明敏 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 在"一句话生成照片"这件事上,英伟达又一次突破了大伙的想象力. 他们最新的AI模型GauGAN2,不仅能根据字词生 ...

  6. 英伟达推出全球首个元宇宙平台,豪砸数亿是为什么?

    编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) NVIDIA 在 SIGGRAPH 推出首个全球元宇宙平台,并赢得了最佳展示奖.目前处于公测阶段,它对 NVIDIA RTX 和 ...

  7. 英伟达推出全新DPU处理器 透露未来三年DPU发展路线图

    10月6日消息,在GTC 2020 秋季站上,NVIDIA宣布推出一款新型处理器 DPU,以及以 DOCA 为特色的数据处理单元,DOCA 是一种新型的数据中心基础架构处理器体系结构,可实现具有突破性 ...

  8. 真假黄仁勋疑云?英伟达推出全球首个元宇宙平台

    [编者按]近日,在计算机图形顶级会议ACM SIGGRAPH 2021上,英伟达介绍了公司研发的3D仿真模拟和协作平台Omniverse,并详细解释了数字假人黄仁勋的打造过程.难道英伟达今年4月的主题 ...

  9. 英伟达推出新款“煤气灶”Titan RTX,售价近2万,并开源PhysX SDK

    晓查 郭一璞 安妮 乾明 发自 凹非寺 量子位 出品 | 公众号 QbitAI 刚刚,英伟达发布Titan RTX. 和传言一样,Titan RTX配备72 颗Turing RT核心.4608颗CUD ...

最新文章

  1. #define用法集锦[修正版]
  2. 数据可视化(BI报表的开发)第四天
  3. 从特殊到一般-C#中的类
  4. Windows编程之使用外部动态链接库——纸牌
  5. cookie和session、web服务工作原理、Apache配置php扩展、php简介
  6. Flutter AnimatedSwitcher 实现优美的图片切换动画
  7. 如何看CentOS系统是32位还是64位的?
  8. iOS开发之数据存储之Preference(偏好设置)
  9. 滚动率分析(Roll Rate Analysis)
  10. QGIS导入postgresql数据库shp数据
  11. 软件评测师教程——软件测试概论
  12. Mapgis67软件实用操作
  13. BMC指定4路NCSI网口中的一路
  14. NLP 学习教程 第一节 简介
  15. Win11系统开机黑屏无法显示桌面怎么解决?
  16. 在 npm 发布中文 API 初体验——中国历代纪元
  17. 有了它,实车测试数据记录、分析、管理so easy~
  18. 12、微信前端开发利器:WeUI
  19. 植物大战僵尸(8):分析植物的攻击速度
  20. 小数点向前移动三位且保留三位小数

热门文章

  1. Java中的异常处理:何时抛出异常,何时捕获异常?
  2. 由于stdin不是终端,因此不会分配伪终端
  3. 如何解决:“ UnicodeDecodeError:#39;ascii#39;编解码器无法解码字节”
  4. [Python爬虫] 之三十:Selenium +phantomjs 利用 pyquery抓取栏目
  5. Android深度探索第四章
  6. 谈谈Ext JS的组件——布局的使用方法续一
  7. 014、Linux下vim搜索与替换
  8. 调试器定位变量的原理
  9. 鼠标滑过某一个图标时,提示讯息
  10. AnyProxy代理