英伟达推出GAN“超级缝合体”,输入文字草图语义图都能生成逼真照片
晓查 发自 凹非寺
量子位 报道 | 公众号 QbitAI
继GauGAN2之后,英伟达推出了一个GAN的“超级缝合体”——PoE GAN。
PoE GAN可以接受多种模态的输入,文字描述、图像分割、草图、风格都可以转化为图片。
而且它可以同时接受以上几种输入模态的任意两种组合,这便是PoE的含义。
所谓PoE是Hinton在2002年提出的“专家乘积”(product of experts)概念,每个专家(单独模型)被定义为输入空间上的一个概率模型。
而每种单独的输入模态都是合成图像必须满足的约束条件,因此满足所有约束的一组图像是满足每个约束集合的交集。
假设每种约束的联合条件概率分布都服从高斯分布,就用单条件概率分布的乘积来表述交集的分布。
在此条件下,为了使乘积分布在一个区域具有高密度,每个单独的分布需要在该区域具有高密度,从而满足每个约束。
而PoE GAN的重点是如何将每种输入混合在一起。
PoE GAN的设计
PoE GAN的生成器使用全局PoE-Net将不同类型输入的变化混合起来。
我们将每个模态输入编码为特征向量,然后使用PoE汇总到全局PoE-Net中。解码器不仅使用全局PoE-Net的输出,还直接连接分割和草图编码器,以此来输出图像。
全局PoE-Net的结构如下,这里使用一个潜在的特征矢量z0作为样本使用PoE,然后由MLP处理以输出特征向量w。
在鉴别器部分,作者提出了一种多模态投影鉴别器,将投影鉴别器推广到处理多个条件输入。
与计算图像嵌入和条件嵌入之间单个内积的标准投影鉴别器不同,这里要计算每个输入模态的内积,并将其相加以获得最终损失。
随意变换输入的GAN
PoE可以在单模态输入、多模态输入甚至无输入时生成图片。
当使用单个输入模态进行测试时,PoE-GAN的表现优于之前专门为该模态设计的SOTA方法。
例如在分割输入模态中,PoE-GAN优于此前的SPADE和OASIS。
在文本输入模态中,PoE-GAN优于文本到图像模型DF-GAN、DM-GAN+CL。
当以模式的任意子集为条件时,PoE-GAN可以生成不同的输出图像。下面展示了PoE-GAN的随机样本,条件是两种模式(文本+分割、文本+草图、分割+草图)在景观图像数据集上。
PoE-GAN甚至还能没有输入,此时PoE-GAN就会成为一个无条件的生成模型。以下是PoE-GAN无条件生成的样本。
团队介绍
论文通讯作者是英伟达著名工程师刘洺堉,他的研究重点是深度生成模型及其应用。英伟达Canvas和GauGAN等有趣的产品均出自他手。
论文一作是黄勋,北京航空航天大学本科毕业,康奈尔大学博士,现在在英伟达工作。
论文地址:
https://arxiv.org/abs/2112.05130
PoE:
https://www.cs.toronto.edu/~hinton/absps/icann-99.pdf
投影鉴别器:
https://arxiv.org/abs/1802.05637
英伟达推出GAN“超级缝合体”,输入文字草图语义图都能生成逼真照片相关推荐
- 英伟达推出Super显卡,老黄再现精准“刀法”,网友:都是被AMD逼的
晓查 发自 凹非寺 量子位 出品 | 公众号 QbitAI 英伟达老黄再次展现了他精准"刀法":给自家显卡加上了Super产品线. RTX系列显卡在刚上市之时,数字后加不加&quo ...
- 亚马逊独霸美国安云计算未来十年订单;英伟达推出首个元宇宙平台;华为云、天翼云会合并吗?...
NEWS 本周新闻回顾 亚马逊独霸美国安云计算未来十年订单,微软表示不服 亚马逊AWS获得美国国家安全局100亿美元云计算合同.得知亚马逊拿下订单后,微软已向政府问责提交文件,提出抗议. 最终--还是 ...
- 英伟达用GAN生成脑瘤图像,训练出的AI医生,准确率提高16%
栗子脑 发自 凹非寺 量子位 出品 | 公众号 QbitAI 辅助医生做疾病诊断的AI,已越来越常见. 从前,每只AI要吃下来自放射科的许多许多图像数据,学好图中的特征,才可能出师. 数据集越大越好, ...
- python视频处理框架_英伟达推出适用于Python的开源视频处理框架
NVIDIA推出了适用于Python的开源视频处理框架"VideoProcessingFramework"(VPF).据悉,VPF是一组开源的C ++库和Python绑定,可与其封 ...
- 英伟达又一次突破想象力!一句话实时P图在线Demo可玩,「神笔马良」升级「创世纪」...
明敏 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 在"一句话生成照片"这件事上,英伟达又一次突破了大伙的想象力. 他们最新的AI模型GauGAN2,不仅能根据字词生 ...
- 英伟达推出全球首个元宇宙平台,豪砸数亿是为什么?
编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) NVIDIA 在 SIGGRAPH 推出首个全球元宇宙平台,并赢得了最佳展示奖.目前处于公测阶段,它对 NVIDIA RTX 和 ...
- 英伟达推出全新DPU处理器 透露未来三年DPU发展路线图
10月6日消息,在GTC 2020 秋季站上,NVIDIA宣布推出一款新型处理器 DPU,以及以 DOCA 为特色的数据处理单元,DOCA 是一种新型的数据中心基础架构处理器体系结构,可实现具有突破性 ...
- 真假黄仁勋疑云?英伟达推出全球首个元宇宙平台
[编者按]近日,在计算机图形顶级会议ACM SIGGRAPH 2021上,英伟达介绍了公司研发的3D仿真模拟和协作平台Omniverse,并详细解释了数字假人黄仁勋的打造过程.难道英伟达今年4月的主题 ...
- 英伟达推出新款“煤气灶”Titan RTX,售价近2万,并开源PhysX SDK
晓查 郭一璞 安妮 乾明 发自 凹非寺 量子位 出品 | 公众号 QbitAI 刚刚,英伟达发布Titan RTX. 和传言一样,Titan RTX配备72 颗Turing RT核心.4608颗CUD ...
最新文章
- #define用法集锦[修正版]
- 数据可视化(BI报表的开发)第四天
- 从特殊到一般-C#中的类
- Windows编程之使用外部动态链接库——纸牌
- cookie和session、web服务工作原理、Apache配置php扩展、php简介
- Flutter AnimatedSwitcher 实现优美的图片切换动画
- 如何看CentOS系统是32位还是64位的?
- iOS开发之数据存储之Preference(偏好设置)
- 滚动率分析(Roll Rate Analysis)
- QGIS导入postgresql数据库shp数据
- 软件评测师教程——软件测试概论
- Mapgis67软件实用操作
- BMC指定4路NCSI网口中的一路
- NLP 学习教程 第一节 简介
- Win11系统开机黑屏无法显示桌面怎么解决?
- 在 npm 发布中文 API 初体验——中国历代纪元
- 有了它,实车测试数据记录、分析、管理so easy~
- 12、微信前端开发利器:WeUI
- 植物大战僵尸(8):分析植物的攻击速度
- 小数点向前移动三位且保留三位小数
热门文章
- Java中的异常处理:何时抛出异常,何时捕获异常?
- 由于stdin不是终端,因此不会分配伪终端
- 如何解决:“ UnicodeDecodeError:#39;ascii#39;编解码器无法解码字节”
- [Python爬虫] 之三十:Selenium +phantomjs 利用 pyquery抓取栏目
- Android深度探索第四章
- 谈谈Ext JS的组件——布局的使用方法续一
- 014、Linux下vim搜索与替换
- 调试器定位变量的原理
- 鼠标滑过某一个图标时,提示讯息
- AnyProxy代理