雷锋网 AI 科技评论按:目前基于描述的绘图机器人在图像生成质量以及包含多个目标和丰富关系的更复杂场景中生成图像仍然存在较大挑战。来自微软人工智能研究院 、JD 人工智能研究院及纽约州立大学奥尔巴尼分校的众多相关学者正在开发一项新的人工智能技术,相关机器人可以从类似于说明的日常场景描述文本中生成图像,其显著提高了生成图像的质量,相关成果发表在微软官网博客上,雷锋网 AI 科技评论编译如下。

如果你被要求画这样一张图片——几个穿着滑雪服的人站在雪地里,你很可能会先在画布中间合理位置画出三四个人的轮廓,然后继续画他们脚下的滑雪板。虽然没有具体说明,但你可能会决定给每个滑雪者都增加一个背包,以配合他们预期的运动。最后,你会仔细地填充细节,也许把他们的衣服涂成蓝色,围巾涂成粉色,把所有的背景都涂成白色,让这些人看起来更真实,并确保他们周围的环境符合描述。最后,为了使场景更加生动,你甚至可以用一些棕色的石头与白雪对比突出表示这些滑雪者在山里。

现在有一个机器人可以做到这一切。

微软研究院正在开发的新的人工智能技术可以理解自然语言描述,绘制图像布局草图,合成图像,然后根据提供的布局和单个词汇细化细节。换句话说,这个机器人可以从类似于说明的日常场景描述文本中生成图像。根据于加利福利亚州长滩市举行的 CVPR 2019 上发表的文章「Object-driven Text-to-Image Synthesis via Adversarial Training」所述,标准测试结果表明,相对于前一代最先进的复杂日常场景文本转图像技术,上述机器人有成熟的机制,可显著提高生成图像的质量。该论文是微软人工智能研究院 Pengchuan Zhang、 Qiuyuan Huang、 Jianfeng Gao,微软的 Lei Zhang,JD 人工智能研究院的 Xiaodong He,以及纽约州立大学奥尔巴尼分校 Wenbo Li、Siwei Lyu(Wenbo Li 曾在微软人工智能研究院实习)合作的成果。

基于描述的绘图机器人面临两个主要挑战。第一个挑战是在日常场景中会出现很多种类的物体,机器人应该能理解所有种类的物体并将其画出来。前述文本转图像生成方法使用图像—说明对,这些方法仅为生成单个目标提供非常粗粒度的监督信号,限制了它们对物体的图像生成质量。在这项新技术中,研究人员使用了 COCO 数据集,该数据集包含 80 个常见目标分类里面 150 万个目标实例的标签和分割图,使得机器人能够学习这些目标的概念和外观。这种用于目标生成的细粒度监督信号显著提高了这些常见目标类型的生成质量。

第二个挑战是理解和生成一个场景中多个目标之间的关系。在几个特定领域,例如人脸、鸟类和常见目标,在生成只包含一个主要目标的图像方面已经取得了巨大的成功。然而,在文本转图像的生成技术中,在包含多个目标和丰富关系的更复杂场景中生成图像仍然是一个重大的挑战。这个新的绘图机器人从 COCO 数据集共现模式中学会了生成目标的布局,然后根据预先生成的布局生成图像。

目标驱动的专注图像生成

微软人工智能研究院的绘图机器人核心是一种被称为生成式对抗网络( GAN)的技术。GAN 由两个机器学习模型组成:一个是根据文本描述生成图像的生成器,另一个是根据文本描述判断生成图像可靠性的鉴别器。生成器试图让假照片通过鉴别器,而鉴别器不希望被愚弄。两者共同工作,鉴别器推动生成器趋向完美。

绘图机器人在一个包含 10 万幅图像的数据集上进行训练,每个图像都有突出的目标标签和分割图,以及五个不同的标题,允许模型构思单个目标和目标之间的语义关系。例如,GAN 在比较有狗和没有狗的描述的图像时,学习狗应该是什么样子。

GANs 在生成只包含一个突出目标,例如人脸、鸟类或狗的图像时表现很好,但是在生成更复杂的日常场景时,图像生成的质量就会停滞不前,比如描述为「一个戴头盔的女人正在骑马」的场景(参见图 1)。这是因为这类场景包含了多个目标(女人、头盔、马),这些目标之间有着丰富的语义关系(女人戴头盔、女人骑马)。机器人首先必须理解这些概念,并将它们放在具有意义的布局的图像中。然后,需要一个更强的监督信号来教 GANs 进行目标生成和布局生成,从而完成语言理解与图像生成任务。

图 1:具有多个目标和关系的复杂场景

当人类绘制这些复杂的场景时,我们首先决定绘制的主要目标,并通过在画布上为这些目标设置边框来进行布局。然后,通过反复检查该目标相应的描述来实现对每个目标的聚焦。为了捕捉人类的上述特点,研究人员创造了一种被他们称为目标驱动的专注 GAN,或 ObjGAN,来对人类以目标为注意力中心的行为进行数学建模。ObjGAN 通过将输入文本分解成单独的单词并将这些单词与图像中的特定目标进行匹配,从而实现上述人类的特点。

人类通常会从两个方面来改进绘图:单个目标的真实感和图像补丁的质量。ObjGAN 通过引入两个鉴别器来模拟这种行为---智能目标鉴别器和智能补丁鉴别器。智能目标鉴别器试图确定生成的目标是否真实,以及该目标是否与语句描述一致。智能补丁鉴别器试图判断这个补丁是否真实,以及这个补丁是否与语句描述一致。

相关工作:故事可视化

最先进的文本转图像模型能够基于单一语句描述生成真实的鸟类图像。然而,文本转图像生成技术可以远远不止基于单一语句合成单一图像。由微软研究院 Jianfeng Gao,微软动态 365 人工智能研究员 Zhe Gan、Jingjing Liu 和 Yu Cheng,杜克大学 Yitong Li、David Carlson 和 Lawrence Carin,腾讯人工智能研究院 Yelong Shen,以及卡耐基梅隆大学 Yuexin Wu 所著的论文「StoryGAN: A Sequential Conditional GAN for Story Visualization」中更进一步的提出了一个称之为故事可视化的新任务。给定一个多语句段落,该段落构成的完整故事可以被可视化,即生成一系列的图像,且每个语句对应一个图像。这是一个具有挑战性的任务,因为绘图机器人不仅需要想象一个适合故事的场景,为故事中出现的不同角色之间的交互建模,而且还必须能够在动态场景和角色之间保持全局一致性。这一挑战还没有任何单一图像或视频生成方法能够解决。

研究人员提出了一种基于序列条件 GAN 框架新的故事-图像-序列生成模型,称之为 StoryGAN。该模型的独特之处在于,它由一个可以动态跟踪故事流的深层上下文编码器和两个故事与图像层级的鉴别器组成,从而增强图像质量和生成序列的一致性。StoryGAN 还可以自然地扩展为交互式图像编辑,其可以根据文本指令按顺序编辑输入的图像。在这种情况下,一系列用户指令将作为「故事」输入。因此,研究人员修改了现有的数据集,创建了 CLEVR-SV 和 Pororo-SV 数据集,如图 2 所示。

图 2:简单图像生成 VS 故事可视化

实际应用——一个真实的故事

在实际应用中,文本转图像生成技术可以作为画家和室内设计师的素描助手,也可以作为声控照片编辑工具。随着计算能力的提高,研究人员设想了一种基于剧本生成动画电影的技术,能使动画制作者的工作产量变大,同时省去一些手工劳动。

目前,生成的图像与照片的真实感相差甚远。生成的图像中单个物体几乎都会暴露出缺陷,比如模糊的人脸或变形的公交车。这些缺陷清楚地表明,该图像是电脑生成而非人类创造。尽管如此,ObjGAN 图像的质量明显好于以前同类中最好的 GAN 图像,并且在通往通用人工智能的道路上起到了里程碑作用。

人工智能和人类要共享同一个世界,就必须要有一种与他人互动的方式。语言和视觉是人类和机器相互作用最重要的两种方式。文本转图像生成技术是语言视觉多模态智能研究的重要内容之一。

ObjGAN 和 StoryGAN 的开源代码请在 GitHub 上查看。

via:Microsoft blog

ObjGAN:https://arxiv.org/pdf/1902.10740.pdf

StoryGAN:https://arxiv.org/abs/1812.02784

雷锋网 AI 科技评论编译整理。雷锋网

obj模型转json模型_微软文字转图像技术又进化,提出两种 GAN 的升级模型 | CVPR 2019...相关推荐

  1. [统计]_怎样用数据炒菜:统计建模的两种文化

    这是之前发在个人公众号上的文章,希望能对读者有帮助. 现在我们经常能听到一个概念叫做"大数据",顾名思义,那就是海量的数据,如果再说大一点,那就是天量的数据,但是光有数据也不行,我 ...

  2. 模型预测控制的缺点_华北电力大学 刘英培等:适用于风电并网的VSCHVDC系统模型预测控制...

    点击上方<电力自动化设备>可一键关注! 本文受国家自然科学基金项目(51607069)和中央高校基本科研业务费专项资金项目(2016MS88,2017MS091)资助. (以下为本文主干内 ...

  3. 从零学习Vue - 02模板语法、el与data两种写法、mvvm模型、数据代理

    root容器里的代码被称为模板,有了模板会有特殊的模板语法.Vue模板中语法有两大类,一类是插值语法,另一类是指令语法. 插值语法 功能:用于解析标签体内容.写法:{{xxx}},xxx为js表达式, ...

  4. excel 重复方差分析_如何在Excel中运行方差方差分析的两种方法

    excel 重复方差分析 Recently, we looked at how to Perform a One-Way Analysis of Variance in Excel. In today ...

  5. java 不重启部署_编译Java类后不重启Tomcat有两种方式:热部署、热加载

    不重启Tomcat有两种方式:热部署.热加载 热部署:容器状况在运行时重新部署整个项目.这类环境下一般整个内存会清空,重新加载,这类方式 有可能会造成sessin丢失等环境.tomcat 6确实可以热 ...

  6. mes实施顾问前景如何_国匠智能制造培训|MES的两种实施顾问类型

    MES项目实施顾问是一份极具挑战的工作,需具备大量的专业知识,以及丰富的实施经验.下面就为大家介绍最常见的两种MES实施顾问类型,希望对大家就如何成为一名成功的MES实施顾问有所启发. 一.保姆型实施 ...

  7. 怎么把好几行弄成一行_将多行内容合并成一行的两种方式

    在利用Unix操作系统在实现一些具体应用的时候,可能需要把某些显示的结果进行行与行之间的合并.如现在需要用Unix操作系统设计一个彩票软件,每一张彩票上最多可以打印五注内容.在Unix操作系统的数据文 ...

  8. 微软e5服务器,Windows 10 Enterprise E3/E5两种选择,你要哪个

    Enterprise E3/E5用户将能够选择两种服务选项.他们可以选择Current Branch of Windows 10 Enterprise, Windows 10 Enterprise E ...

  9. 模型训练 准确率下降_手写批量线性回归算法:在Python3中梯度下降方法实现模型训练

    在这篇文章中,我们将看一个使用NumPy作为数据处理库的Python3编写的程序,来了解如何实现使用梯度下降法的(批量)线性回归. ​ 我将逐步解释代码的工作原理和代码的每个部分的工作原理. ​ 我们 ...

最新文章

  1. 谷歌-百度世界杯大数据预测,哪家更准?
  2. 支付宝人脸数据被共享?李开复道歉
  3. 『ACM-算法-二分法』算法竞赛进阶指南--在单调递增序列a中查找大于等于X的数中最小的一个,即X或X的后继
  4. 联发科推出5G处理器天玑720 采用台积电7nm工艺制造
  5. PDF阅读器使用技巧
  6. ios github客户端_GitHub推出本地iOS和Android客户端
  7. linux运行多线程语句,linux多线程中使用system函数后时而程序崩溃,求助!!!...
  8. linux如何生成awr报告,手工生成AWR报告方法记录
  9. 哈希列表、哈希链、哈希树
  10. 电子计算机出现的背景,世界第一台电子计算机产生的背景是什么
  11. 华为 OSPF虚链路出现环路了,如何解决?
  12. JSP时间TimeControl
  13. 北京地铁线路色值颜色
  14. 【后厂村】打工人的愿望
  15. 如何通过短视频源码快速开发短视频APP
  16. TWINSNOW - Snowflakes 哈希
  17. 【CentOS 7笔记35】,几个特殊符号和一些常用命令#171117
  18. 图书信息管理系统(三)
  19. png转pdf, pdf转png
  20. Qt SQL:QSqlField、QSqlRecord、QSqlIndex、QSqlError

热门文章

  1. PHP的PHPStorm的使用姿势
  2. PHP的display_errors与error_reporting
  3. ajax无刷新页面切换,历史记录后退前进解决方案
  4. mysql-5.6.16-win32_mysql-5.6.16-win32免安装配置方法
  5. mysql死锁和索引的关系_奇怪的mysql死锁,当有外键索引的时候,会需要请求对关联表的锁吗?...
  6. :/index.php,http://localhost/my/INDEX.PHP/INDEX/INDEX无法正常运行:解决时找不到Options FollowSymLinks谢谢...
  7. 【sprinb-boot】改造成 spring-cloud 项目
  8. matplotlib库绘图基础
  9. 计算机课题推荐人意见,课题推荐人意见怎么写
  10. pandas最大的时间间隔_pandas计算最大连续间隔的方法