Root 假装发自 凹非寺
量子位 出品 | 公众号 QbitAI

一个设计师拿到简(mo)单(hu)需求的日常。

帮我做个海报吧。

我要个浪漫的场景,两个人在海边走,有日落,海浪,远山那种。



 “上辈子伤天害理,这辈子来做设计”
Source:人类关怀计划

If有一款神器,可以根据文本生成图像,快速做出一般客户需求的海报,设计师们也许就可以把更多的时间用在创意上了。

文本转图像算法

其实已经有了。李飞飞斯坦福团队今年发表在CVPR论文Image Generation from Scene Graphs就和这个应用相关。

在计算机视觉领域,已经有了不少团队造出能直接把文本转成图像的算法。此前表现最好的是2017年在ICCV上露面的StackGAN,由港中大和百度研究院共同出品。

我们先来看看它的表现:

第一题:

This bird is white with some black on its head and wings, and has a long orange beak.

“画一只白鸟,头部和翅膀带点黑shaǐ,还有个很细长的橘黄色喙。”



 效果惊人

再来看看第二题:

A sheep by another sheep standing on the grass with sky above and a boat in the ocean by a tree behind the sheep.

“画两只羊站草原上,要有云,远方还有海,海上还得有只船。对了羊后边还要加棵树。”



 效果感人

对于语义简单的句子,StackGAN还能hold住,可是句子中有多个物体且位置关系复杂的话,这个生成的图像完全不能用了。

为了解决这个问题,李飞飞携团队,Justin Johnson和Agrim Gupta想出了一个办法:先把文本处理一下,把句子中的物体及他们的相对位置用一个物体关系图(Scene Graph)表示出来,然后再交给模型处理。

像这样。



然后生成出来的图果然好多了,更贴近真实世界(虽然还有点模糊)。



加一步,多面临三重挑战

为了生成更符合物理世界规律的图像,生成过程中所用到素材必须取自真实世界的图像。

因此,第一个挑战就是要构建一个能处理真实图像的输入处理器。

除此之外,生成的每一个物体都必须看起来真实,而且能正确反映出多个物体的空间透视关系。

最后一个,就是整个图中所有物体整合到一起,得是看起来是自然和谐不别扭的。

训练过程简介

先是选Visual Genome和COCO两个数据集里的图片作为素材源。只挑那些含有3~8个物体的图片。

然后把这些图片人工地给出物体关系图。像这样:



然后用模型预测物体之间的位置,大概给出一个图片元素的布局。



最后根据多个判别模型保证输出的图像是符合真实感知的。



整个训练过程如下图:



但图像效果够不够真,自己不好说了算。

因此李飞飞团队在Amazon Mechanical Turk平台上找了人帮忙做评估。和StackGAN相比,合成效果好了一倍。



最后,附论文地址:https://arxiv.org/abs/1804.01622

你可能感兴趣

AI学会视觉推理,“脑补”看不清的物体 | 李佳李飞飞等的CVPR论文

这么多人,AI怎么知道你说的是哪个? | 李飞飞团队CVPR论文+代码

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。


量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


李飞飞CVPR最新论文 | 「文本转图」效果优化可多一步:物体关系描述相关推荐

  1. 李飞飞划重点的「具身智能」,走到哪一步了?

    来源:选自Quanta magazine 作者:Allison Whitten 编译:机器之心 编辑:张倩 在前段时间的一篇文章中,李飞飞指出了计算机视觉未来的几个重要方向,其中最重要的一个就是具身智 ...

  2. 李飞飞团队最新论文:如何对图像中的实体精准“配对”?

    编译 | 费棋 出品 | AI科技大本营(公众号ID:rgznai100) [导语]近日,李飞飞的斯坦福大学视觉实验室发布了一篇即将在 CVPR 2018上要介绍的论文 Referring Relat ...

  3. 李飞飞团队最新论文:如何对图像中的实体精准“配对”?(附代码论文)

    来源:AI科技大本营(公众号ID:rgznai100) 编译:费棋 本文共5749字,建议阅读10分钟. 近日,李飞飞的斯坦福大学视觉实验室发布了一篇即将在 CVPR 2018上要介绍的论文 Refe ...

  4. 李飞飞团队最新研究 :「四步」AI方案助老人抵抗新冠肺炎,联合学习降低个人隐私风险

    自2018年回归学术界后,李飞飞教授便很少对外露面,近日在一次斯坦福的线上会议,让我们有机会了解她与团队的最新研究--<AI-ASSISTED IN-HOME ELDERLY CARE AMID ...

  5. 李飞飞团队最新论文:基于anchor关键点的类别级物体6D位姿跟踪

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 简介 作者提出了一种基于RGB-D的深度学习方法6PACK,能够实时的跟踪已知类别物体.通过学习用少量 ...

  6. 传统的6d位姿估计fangfa1_李飞飞团队最新论文:基于anchor关键点的类别级物体6D位姿跟踪...

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 简介 作者提出了一种基于RGB-D的深度学习方法6PACK,能够实时的跟踪已知类别物体.通过学习用少量 ...

  7. 智源社区AI周刊No.100:李飞飞等最新文章:社会化人工智能;DreamFusion:Google发布“文本-3D”生成新成果...

    汇聚每周AI观点.研究和各类资源,不错过真知灼见和重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 编辑精选 1. 斯坦福大学李飞飞等最新文章:社会化人工智能 查看详情 近日,斯坦福大学计算机系的 R ...

  8. AIGC爆发,千亿美元赛道,斯坦福李飞飞团队最新报告!!!

    来源:新智元 近日,李飞飞领导的斯坦福HAI研究院发布了关于「生成式AI」的观点报告. 报告指出,当前大多数生成式人工智能都是由基础模型驱动的. 这些模型为我们的生活.社区以及社会带来的机会是巨大的, ...

  9. 全球首发,国产开源「文本-视频生成」模型!免费在线体验,一键实现视频生成自由...

    来源:新智元 去年4月,OpenAI发布的DALL-E 2用更高的分辨率.更真实的图像生成以及更准确地理解自然描述,横扫整个AIGC领域. 不过图像生成真正进入全民化还要数Stable Diffusi ...

最新文章

  1. idea配置tomcat以及环境变量
  2. 在JAVA语言程序中main_在Java程序main方法中,正确的参数是
  3. php 之 ajax,PHP之AJAX
  4. mysql支持的时区列表_mysql按天分组支持时区
  5. 必须声明标量变量 @sum_level。_ES6系列—新的变量声明方式
  6. POJ3259-负权回路判定
  7. c#日期转换周几_C#中获取任意日期为星期几三种方法分享
  8. PostgreSQL11.7逻辑复制压测
  9. yosemite php gd,Yosemite下配置PHP支持GD库FreeType
  10. 考驾照科目一考试很顺利
  11. linux寻找依赖文件
  12. CTF 湖湘杯 2018 WriteUp (部分)
  13. 模糊综合评价模型原理及matlab实现
  14. 好用的qq群管机器人插件 附教程
  15. DIY一个正弦表计算器,用于单片机查表生成正弦波
  16. am5728 中断的使用
  17. 使用gif.js根据视频片段生成GIF图
  18. 商品规格表的制作 mysql_商品规格设计
  19. 为什么?------”人的天性总是高估自己,而低估别人“
  20. 第一篇:爬虫基本原理

热门文章

  1. mysql php错误处理函数_PHP 错误处理
  2. 如何利用计算机系统原理做文件保护,计算机系统设计原理(影印版).docx
  3. git分支拉项目_Git 拉取 GitLab 分支上的项目
  4. java jxl读取xlsx_Java添加、读取Excel公式
  5. php解决mysql主从同步_mysql 主从同步原理
  6. 堆积密度怎么做_seo关键词究竟应该怎么优化
  7. opencv中java的dmatch_关于OpenCV的那些事——ORB的brief描述子(256bit)的match心得
  8. 机器学习算法_机器学习算法之PCA算法
  9. php 设置多个html条件_PHP-FPM是个啥
  10. xgboost算法_xgboost算法过程推导