晓查 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

让AI认得图像,根据自己的理解给出一段叙述,已经不是什么新鲜事了。从图像到文字容易,把这个过程反过来却很难。

让AI画图有了成熟的解决方案,GAN就是是一个好办法,但是它通畅并不能按要求随心所欲造出图像。

而微软和京东AI研究院合作提出的ObjGAN就能做到这一点。ObjGAN可以理解一段说明文字,生成草图布局,并根据确切描述完善图像细节。

他们的文章《Object-driven Text-to-Image Synthesis via Adversarial Training》已经被正在加州长滩举办的学术会议CVPR 2019收录。

应付多种场景

研究人员在文章中说,ObjGAN的生成器能够利用细节单词和对象级信息来逐步细化合成图像。这使得ObjGAN在生成图像细节时比之前的研究要强得多。

ObjGAN能生成多种场景下的小狗:一只棕色小狗躺在床上,或者是一只黑色小狗叼飞盘。

左边是真实场景,中间两张由P-AttnGAN生成,右边两张由ObjGAN生成

如果说简单场景还看不出ObjGAN的厉害之处,那么下面两幅场景可以说是远远把对手甩在身后了。

上一张是酒店房间,下一张是多种蔬菜水果,这两种场景下的对象非常多,P-AttnGAN已经翻车,除了画面混乱外,它还发生了理解错误的问题,把蓝色属性错误地放在床这个物体上。

为了证明Obj-GAN的泛化能力,研究人员不仅让它生成真实生活中的场景,甚至连不合常理的结果也可以“强行”生成。

比如让汽车火车停在水面上,让喵咪去叼飞盘或者下海游泳。

在客观指标上,Obj-GAN在大规模COCO基准测试的各种指标上优于先前的水平,Inception分数提高到了27,大大高于P-AttnGAN只有20左右的得分,FID也降低到了25.85。

ObjGAN原理

由文字描述生成图像的难点在于,如何让AI理解场景中多个对象之间的关系。ObjGAN通过关注文本描述中最相关的单词和预先生成的语义布局来合成对象。

以前的方法使用仅为单个对象提供粗粒度信号的图像-描述对,即使是性能最佳的模型也难以生成语义上有意义包含多个对象的图片。

为了克服这些问题,研究人员提出了一种新的对象驱动的注意图像生成器,将图像生成分为构图和精细化图像两步。

此外,他们还提出了一种新的基于Fast R-CNN的逐对象鉴别器,提供关于合成对象是否与文本描述和预先生成布局匹配的识别信号。

最后,微软在这方面的研究不止ObjGAN一篇论文,他们还与腾讯AI研究院StoryGAN,也是从文本描述生成图像,同样被今年的CVPR收录。

传送门

论文地址:
https://arxiv.org/abs/1902.10740

PyTorch实现已开源:
https://github.com/jamesli1618/Obj-GAN

AI社群 | 与优秀的人交流

精选直播 | 大牛的观点碰撞

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !

给GAN一句描述,它就能按要求画画,微软CVPR新研究 | 附PyTorch代码相关推荐

  1. 巧断梯度:单个loss实现GAN模型(附开源代码)

    作者丨苏剑林 单位丨广州火焰信息科技有限公司 研究方向丨NLP,神经网络 个人主页丨kexue.fm 我们知道普通的模型都是搭好架构,然后定义好 loss,直接扔给优化器训练就行了.但是 GAN 不一 ...

  2. 在TensorFlow中对比两大生成模型:VAE与GAN(附测试代码)

    来源:机器之心 本文长度为3071字,建议阅读6分钟 本文在 MNIST 上对VAE和GAN这两类生成模型的性能进行了对比测试. 项目链接:https://github.com/kvmanohar22 ...

  3. GAN和PS合体会怎样?东京大学图像增强新研究:无需配对图像,增强效果还可解释...

    十三 发自 凹非寺  量子位 报道 | 公众号 QbitAI GAN和PS合体,会擦出怎样的火花? 在让图像变美的这条道路上,方法可谓是层出不穷. 过去,若是有大量的原始图像和增强图像,那么我们就可以 ...

  4. NVIDIA新作解读:用GAN生成前所未有的高清图像(附PyTorch复现) | PaperDaily #15

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  5. OpenCV LATCH Matching描述符匹配算法的实例(附完整代码)

    OpenCV LATCH Matching描述符匹配算法的实例 OpenCV LATCH Matching描述符匹配算法的实例 OpenCV LATCH Matching描述符匹配算法的实例 #inc ...

  6. OpenCV HoG描述符的实例(附完整代码)

    OpenCV HoG描述符的实例 OpenCV HoG描述符的实例 OpenCV HoG描述符的实例 #include <opencv2/objdetect.hpp> #include & ...

  7. OpenCV检测计算并匹配BRISK和AORB KAZE描述的实例(附完整代码)

    OpenCV检测计算并匹配BRISK和AORB KAZE描述的实例 OpenCV检测计算并匹配BRISK和AORB KAZE描述的实例 OpenCV检测计算并匹配BRISK和AORB KAZE描述的实 ...

  8. gan 总结 数据增强_吴恩达Deeplearning.ai国庆上新:GAN专项课程

    Coursera 刚刚上新了 GAN 的专项课程,或许在这个国庆假期,你应该学习一波了. 作者:蛋酱 生成对抗网络(Generative Adversarial Network,GAN)是当前功能最强 ...

  9. 视频直接变漫画!GAN又有了新玩法 | Demo+代码+论文

    乾明 发自 凹非寺  量子位 报道 | 公众号 QbitAI GAN,又有了新"玩法". 最近,一个能够将视频直接转化成漫画的工具,引发了很大关注. 它的效果是这样的: Twitt ...

最新文章

  1. C++ __gnu_pbds(平板电视)超详细教程(C++内置的平衡树,字典树,hash)
  2. 特征选择、特征选择方法
  3. SAP WM 确认TO单据的时候修改目的地Storage Bin
  4. python文件中数字排序_Python 对输入的数字进行排序的方法
  5. deepin V20 启用Nvidia驱动方法
  6. 点击调用ajax,jQuery ajax在点击时调用,仅工作一次
  7. 介绍理想工作计算机 英语作文,我的理想工作英语作文(精选5篇)
  8. 编程判断元素归类_如何使用jquery判断一个元素是否含有一个指定的类(class)...
  9. Maven 打成 Webjar的方法
  10. Markdown入门
  11. 计算机课堂听课情况记录表模板,【教师听课记录表】_教师听课评课记录表模板Word版...
  12. matlab 求二值图像图形的面积和重心
  13. 《实战》基于情感词典的文本情感分析与LDA主题分析
  14. GStreamer的Decodebin插件
  15. 周期信号的傅里叶级数
  16. 计算机操作系统软件序列号,怎么找我电脑操作系统的序列号?
  17. 计算机声声慢音乐,有没有适合声声慢的背景音乐
  18. JavaFX战旗类游戏开发 第一课 概述
  19. 网络攻防|CVE-2021-42287、CVE-2021-42278域内提权
  20. Vivado与Modelsim联合仿真配置【图文并茂】

热门文章

  1. Ubuntu16.04 LTS上安装Go1.10
  2. C++ assert 断言使用
  3. [Contest20170910]string
  4. awk中的NR和FNR
  5. redhat-problem to be research
  6. 如何解决 SQL Server 2000 中的连接问题
  7. iOS进阶之底层原理-isa与对象
  8. web前端学习day_04:jQuery框架
  9. 计算机及网络应用基础思维导图_计算机基础/算法/面试题 PDF+思维导图下载
  10. iar升级芯片库_顶10个GPU!阿里巴巴重磅发布含光800芯片