李飞飞CVPR最新论文 | 「文本转图」效果优化可多一步:物体关系描述
Root 假装发自 凹非寺
量子位 出品 | 公众号 QbitAI
一个设计师拿到简(mo)单(hu)需求的日常。
帮我做个海报吧。
我要个浪漫的场景,两个人在海边走,有日落,海浪,远山那种。
△ “上辈子伤天害理,这辈子来做设计”
Source:人类关怀计划
If有一款神器,可以根据文本生成图像,快速做出一般客户需求的海报,设计师们也许就可以把更多的时间用在创意上了。
文本转图像算法
其实已经有了。李飞飞斯坦福团队今年发表在CVPR论文Image Generation from Scene Graphs就和这个应用相关。
在计算机视觉领域,已经有了不少团队造出能直接把文本转成图像的算法。此前表现最好的是2017年在ICCV上露面的StackGAN,由港中大和百度研究院共同出品。
我们先来看看它的表现:
第一题:
This bird is white with some black on its head and wings, and has a long orange beak.
“画一只白鸟,头部和翅膀带点黑shaǐ,还有个很细长的橘黄色喙。”
△ 效果惊人
再来看看第二题:
A sheep by another sheep standing on the grass with sky above and a boat in the ocean by a tree behind the sheep.
“画两只羊站草原上,要有云,远方还有海,海上还得有只船。对了羊后边还要加棵树。”
△ 效果感人
对于语义简单的句子,StackGAN还能hold住,可是句子中有多个物体且位置关系复杂的话,这个生成的图像完全不能用了。
为了解决这个问题,李飞飞携团队,Justin Johnson和Agrim Gupta想出了一个办法:先把文本处理一下,把句子中的物体及他们的相对位置用一个物体关系图(Scene Graph)表示出来,然后再交给模型处理。
像这样。
然后生成出来的图果然好多了,更贴近真实世界(虽然还有点模糊)。
加一步,多面临三重挑战
为了生成更符合物理世界规律的图像,生成过程中所用到素材必须取自真实世界的图像。
因此,第一个挑战就是要构建一个能处理真实图像的输入处理器。
除此之外,生成的每一个物体都必须看起来真实,而且能正确反映出多个物体的空间透视关系。
最后一个,就是整个图中所有物体整合到一起,得是看起来是自然和谐不别扭的。
训练过程简介
先是选Visual Genome和COCO两个数据集里的图片作为素材源。只挑那些含有3~8个物体的图片。
然后把这些图片人工地给出物体关系图。像这样:
然后用模型预测物体之间的位置,大概给出一个图片元素的布局。
最后根据多个判别模型保证输出的图像是符合真实感知的。
整个训练过程如下图:
但图像效果够不够真,自己不好说了算。
因此李飞飞团队在Amazon Mechanical Turk平台上找了人帮忙做评估。和StackGAN相比,合成效果好了一倍。
最后,附论文地址:https://arxiv.org/abs/1804.01622
你可能感兴趣
AI学会视觉推理,“脑补”看不清的物体 | 李佳李飞飞等的CVPR论文
这么多人,AI怎么知道你说的是哪个? | 李飞飞团队CVPR论文+代码
— 完 —
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
李飞飞CVPR最新论文 | 「文本转图」效果优化可多一步:物体关系描述相关推荐
- 李飞飞划重点的「具身智能」,走到哪一步了?
来源:选自Quanta magazine 作者:Allison Whitten 编译:机器之心 编辑:张倩 在前段时间的一篇文章中,李飞飞指出了计算机视觉未来的几个重要方向,其中最重要的一个就是具身智 ...
- 李飞飞团队最新论文:如何对图像中的实体精准“配对”?
编译 | 费棋 出品 | AI科技大本营(公众号ID:rgznai100) [导语]近日,李飞飞的斯坦福大学视觉实验室发布了一篇即将在 CVPR 2018上要介绍的论文 Referring Relat ...
- 李飞飞团队最新论文:如何对图像中的实体精准“配对”?(附代码论文)
来源:AI科技大本营(公众号ID:rgznai100) 编译:费棋 本文共5749字,建议阅读10分钟. 近日,李飞飞的斯坦福大学视觉实验室发布了一篇即将在 CVPR 2018上要介绍的论文 Refe ...
- 李飞飞团队最新研究 :「四步」AI方案助老人抵抗新冠肺炎,联合学习降低个人隐私风险
自2018年回归学术界后,李飞飞教授便很少对外露面,近日在一次斯坦福的线上会议,让我们有机会了解她与团队的最新研究--<AI-ASSISTED IN-HOME ELDERLY CARE AMID ...
- 李飞飞团队最新论文:基于anchor关键点的类别级物体6D位姿跟踪
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 简介 作者提出了一种基于RGB-D的深度学习方法6PACK,能够实时的跟踪已知类别物体.通过学习用少量 ...
- 传统的6d位姿估计fangfa1_李飞飞团队最新论文:基于anchor关键点的类别级物体6D位姿跟踪...
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 简介 作者提出了一种基于RGB-D的深度学习方法6PACK,能够实时的跟踪已知类别物体.通过学习用少量 ...
- 智源社区AI周刊No.100:李飞飞等最新文章:社会化人工智能;DreamFusion:Google发布“文本-3D”生成新成果...
汇聚每周AI观点.研究和各类资源,不错过真知灼见和重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 编辑精选 1. 斯坦福大学李飞飞等最新文章:社会化人工智能 查看详情 近日,斯坦福大学计算机系的 R ...
- AIGC爆发,千亿美元赛道,斯坦福李飞飞团队最新报告!!!
来源:新智元 近日,李飞飞领导的斯坦福HAI研究院发布了关于「生成式AI」的观点报告. 报告指出,当前大多数生成式人工智能都是由基础模型驱动的. 这些模型为我们的生活.社区以及社会带来的机会是巨大的, ...
- 全球首发,国产开源「文本-视频生成」模型!免费在线体验,一键实现视频生成自由...
来源:新智元 去年4月,OpenAI发布的DALL-E 2用更高的分辨率.更真实的图像生成以及更准确地理解自然描述,横扫整个AIGC领域. 不过图像生成真正进入全民化还要数Stable Diffusi ...
最新文章
- idea配置tomcat以及环境变量
- 在JAVA语言程序中main_在Java程序main方法中,正确的参数是
- php 之 ajax,PHP之AJAX
- mysql支持的时区列表_mysql按天分组支持时区
- 必须声明标量变量 @sum_level。_ES6系列—新的变量声明方式
- POJ3259-负权回路判定
- c#日期转换周几_C#中获取任意日期为星期几三种方法分享
- PostgreSQL11.7逻辑复制压测
- yosemite php gd,Yosemite下配置PHP支持GD库FreeType
- 考驾照科目一考试很顺利
- linux寻找依赖文件
- CTF 湖湘杯 2018 WriteUp (部分)
- 模糊综合评价模型原理及matlab实现
- 好用的qq群管机器人插件 附教程
- DIY一个正弦表计算器,用于单片机查表生成正弦波
- am5728 中断的使用
- 使用gif.js根据视频片段生成GIF图
- 商品规格表的制作 mysql_商品规格设计
- 为什么?------”人的天性总是高估自己,而低估别人“
- 第一篇:爬虫基本原理
热门文章
- mysql php错误处理函数_PHP 错误处理
- 如何利用计算机系统原理做文件保护,计算机系统设计原理(影印版).docx
- git分支拉项目_Git 拉取 GitLab 分支上的项目
- java jxl读取xlsx_Java添加、读取Excel公式
- php解决mysql主从同步_mysql 主从同步原理
- 堆积密度怎么做_seo关键词究竟应该怎么优化
- opencv中java的dmatch_关于OpenCV的那些事——ORB的brief描述子(256bit)的match心得
- 机器学习算法_机器学习算法之PCA算法
- php 设置多个html条件_PHP-FPM是个啥
- xgboost算法_xgboost算法过程推导