来源:AI科技评论

作者:OpenAI

编译:贝爽、陈大鑫

前几个月GPT-3刚刚问世的时候,能够根据一段话就写出一个小说、一段哲学语录,就足以令AI圈为之感到兴奋。

然而2020年刚刚开始没多久,OpenAI又实现一重大突破!

OpenAI最新发布了一个名叫 DALL·E 的神经网络模型,它可以魔法一般按照自然语言文字描述直接生成对应图片!

效果如下所示:

文本提示:鳄梨形状的扶手椅。

AI生成的图像:

这生产效果真是堪称神奇!自然语言与视觉的壁垒正在被逐渐打通。

OpenAI 联合创始人、首席科学家 Ilya Sutskever 在推特上发文表示道:人工智能的长期目标是构建多模态神经网络,即AI能够学习不同模态之间的概念(文本和视觉领域为主),从而更好地理解世界。而 DALL·E 和 CLIP 使我们更接近“多模态 AI 系统”这一目标。

吴恩达对OpenAI也表示祝贺,并挑选了自己最喜欢的蓝色衬衫 + 黑色长裤的AI 生成图。

Keras创始人François Chollet感叹这看起来非常酷,尤其是“图像生成”的部分。

“从原理上来看,它应该就是GPT-3在文本合成图像方向上的扩展版本。”

DALL·E 实际上是GPT-3的120亿参数版本,经过训练可以从文本描述中生成图像。OpenAI发现它具有多种功能,包括创建拟人化的动物和物体、以合理的方式组合无关概念、渲染文本并将转换应用于现有的图像。

DALL·E这个名字是不是听起来很有熟悉感,其实OpenAI使用了画家萨尔瓦多·达利(Salvador Dalí)和皮克斯(Pixar)的WALL·E的复合来命名模型。

图注:西班牙超现实主义画家萨尔瓦多·达利

图注:电影机器人总动员中的WALL·E

以下是DALL·E的几个演示案例。

文本提示:穿着芭蕾舞短裙的萝卜宝宝在遛狗。

AI生成的图像:

文本提示:写有“openai”字样的店铺。

AI生成的图像:

文本+图像提示:参照上面的猫在下面生成草图

AI生成的图像:

GPT-3已经向我们展示,可以用语言来指示大型神经网络执行各种文本生成任务。Image GPT则表明,同样类型的神经网络也可以用来生成高保真的图像。OpenAI进一步扩展了这些发现,以表明通过语言操纵视觉概念是触手可及的。

与GPT-3一样,DALL·E是一种Transformer语言模型。OpenAI认为,涉及生成模型的工作可能会产生重大而广泛的社会影响。因此未来,OpenAI会计划分析像DALL·E这样的模型如何与社会问题联系起来,例如对某些工作流程和专业的经济影响,模型输出中可能存在的偏见以及该技术所隐含的长期道德挑战。

1

DALL·E的能力 

DALL·E能够为多语言成分结构的各种句子创造似是而非的图像。研究人员通过一些交互视觉效果举例说明了这一点。在下面的案例中,每个视觉效果的文本提示都是通过CLIP重新排序后,从512个文本提示中的前32个获得的,不采取任何手动选取(cherry-picking)。

控制属性

研究人员测试了DALL·E修改目标物体的能力,包括修改相应的属性以及出现的次数。

文本提示:五边形的绿色钟

AI生成的图像:

绘制多边形物体

同时控制多个目标物体、它们的属性和它们的空间关系是一个新的挑战。

例如,“一只戴着红帽子、黄手套、蓝衬衫和绿裤子的刺猬”。要正确地解释这句话,DALL·E 不仅要正确地将每件衣服与动物组合在一起,还要将(帽子、红色)、(手套、黄色)、(衬衫、蓝色)和(裤子,绿色)形成各种联想,而且不能混淆它们。

文本提示:一堆三维立方体:红色的立方体在绿色立方体的顶部。绿色立方体在中间。蓝色立方体在底部。

AI生成的图像:

虽然DALL·E确实为少量目标的属性和位置提供了某种程度的可控性,但成功率取决于标题文本的语言措辞。随着目标的增多,DALL·E容易混淆目标与颜色之间的关联,成功率会急剧降低。研究人员注意到,在这些场景中,DALL·E对于标题文本的重新表述是脆弱的:可替代的、语义上等价的标题文本通常不会产生正确的解释。

可视化透视与三维

研究人员发现DALL·E还能够控制场景的视点和渲染场景的3D样式。

文本提示:坐在田野上的体素化模型水豚。

AI生成的图像:

为了进一步验证DALL·E的这个能力,研究人员测试了DALL·E在同等视角下重复绘制知名人物头部的能力,并发现DALL·E可以成功恢复旋转头部的平滑动画。

文本提示:荷马半身像

AI生成的图像:

DALL·E能够将某些类型的光学畸变(Optical Distortions)应用到具体场景中,正如我们在“鱼眼透镜视图(Fisheye Lens View)”和“球形全景图(Spherical Panorama.)”等场景中看到的那样。它促使研究人员探索其产生光学反射的能力。

文本提示:一个白色的立方体看着自己在镜子里的倒影;一个白色的立方体看着镜子里的自己。

AI生成的图像:

可视化内部和外部结构

“特写镜头(Extreme Close-up View)”和“x射线(X-Ray)”风格的案例使研究人员进一步探索了DALL·E运用横截面视角绘制内部结构和用宏观图像绘制外部结构的能力。

文本提示:核桃的横截面图。

AI生成的图像:

推断上下文细节

将文本翻译成图像的任务是不明确的:一个标题文本通常可以对应无限多种图像,换句话说,图像不是唯一确定的。例如,假如标题文本是“日出时,坐在田野上的水豚的绘画像。根据水豚的方位,可能需要画一个阴影,但这个细节没有被明确提及。

研究人员探讨了DALL·E在以下三种情况下解决无规范标准问题的能力:改变风格、设置和时间;在各种不同的情况下绘制同一目标图像;在生成目标图像上书写指定文本。

文本提示:带有蓝色草莓图案的彩色玻璃窗。

AI生成的图像:

利用不同程度的可靠性,DALL·E为通过自然语言实现3D渲染引擎功能提供了一种途径。它可以独立地控制少量目标的属性,并在有限的范围内控制目标的数量以及它们之间的排列方式。它还可以控制渲染场景的位置和角度,并且根据角度和照明条件生成精确且规范的已知目标。

与3D渲染引擎不同,3D渲染引擎的输入必须明确且完整,当标题文本暗示图像必须包含未明确的特定细节时,DALL·E通常能够“填补空白”。

应用案例

接下来,研究人员探讨了上述功能在时尚设计和室内设计中的应用。

文本提示:一位穿着橘色和黑色相间衬衫的男性人体模特。

AI生成的图像:

文本提示:客厅中有两个白色的扶手椅和一幅斗兽场的画,这幅画挂在现代样式壁炉的上方。

AI生成的图像:

组合不相关的概念

语言的构成本质使人们能够将概念描述集成在一起,用以描述真实和虚构的事物。OpenAI发现,DALL·E还具有将完全不同的idea结合起来以合成物体的能力,其中有些物体不可能在现实世界中存在。OpenA在两种情况下探索这种能力:将各种概念的特质传递给动物,以及从不相关的概念中汲取灵感来设计产品。

文本提示:竖琴状的蜗牛

AI生成的图像:

文本提示:鳄梨形状的扶手椅。

AI生成的图像:

动物插图描述

在上一部分中探讨了DALL·E在生成真实物体的图像时结合无关概念的能力。接下来,OpenAI通过在艺术的背景下的三种插图探索这种能力:动物和物体的拟人化版本、动物嵌合体、表情符号。

文本提示:穿着芭蕾舞短裙的萝卜宝宝在遛狗。

AI生成的图像:

文本提示:长颈鹿乌龟合体的专业高质量插图,模仿乌龟的长颈鹿,由乌龟变成的长颈鹿。

AI生成的图像:

文本提示:一个专业的高质量的恋爱波霸珍珠奶茶表情符号

AI生成的图像:

零样本视觉推理 

可以仅根据说明和提示来指示GPT-3执行多种任务,而无需任何额外训练。例如,当提示短语“将‘在公园里walking狗的人’被翻译成法语:”时,GPT-3会回答“un homme quipromèneson chien dans le parc。此功能称为零样本推理。

OpenAI发现DALL·E将此功能扩展到了视觉领域,并且在以正确的方式提示时,能够执行多种图像到图像的翻译任务。

文本+图像提示:参照上面的猫在下面生成草图。

AI生成的图像:

文本+图像提示:画出和上面一样的茶壶,并在茶壶上写上“GPT”。

AI生成的图像:

OpenAI惊讶地发现DALL·E居然有这种神奇的能力,因为他们没有对神经网络或训练程序进行任何修改。

受这些结果的启发,OpenAI通过在Raven的渐进矩阵上进行测试来衡量DALL·E对于解决类推推理问题的能力,这是一种视觉智商测试,在20世纪得到了广泛应用。

文本+图像提示:一个几何形状序列。

AI生成的图像:

地理知识

OpenAI 发现DALL·E了解地理事实、地标和街区。它对这些概念的了解在某些方面出奇地精确,而在另一些方面却有缺陷。

文本提示:中国食物的图片。

AI生成的图像:

文本+图像提示:旧金山金门大桥的图片。

AI生成的图像:

时间知识

除了探索DALL·E关于随空间变化的概念的知识外,OpenAI还探索了其随时间变化的概念的知识。

文本+图像提示:从20年代起发明的电话的照片。

AI生成的图像:

2

总结:方法和先前工作

DALL·E是一个仅有解码器的Transformer架构,它可以接收1280个token的文本和图像作为单个流(文本为256个token,图像为1024个token),并对它们全部进行自动回归建模。

它的64个自注意力层中的每一个都具有注意力mask,使每个图像token都可以匹配所有文本token。DALL·E对文本token使用标准的因果mask,以行、列或卷积注意模式对图像token使用稀疏注意,具体取决于层数。

OpenAI计划在下一篇论文中提供有关DALL·E架构和训练过程的详细信息。

与VQVAE-2中使用的rejection sampling类似,OpenAI使用CLIP对每个文本生成的512个采样中的前32个进行排名。此过程也可以看作是一种语言指导的搜索,会对样本质量产生巨大影响。

如下图所示,使用CLIP对DALL·E中的样本进行重新排序,可以大大提高样本的一致性和质量。

文本提示:穿着芭蕾舞短裙的萝卜宝宝在遛狗。

AI生成的图像:

Henry AI Labs在YouTube上分享了一个视频,简要介绍了OpenAI的DALL-E模型,并表示“希望可以清楚说明深度神经网络中文本和图像是如何作为张量统一的。”

由于是非官方解释,仅供参考。

最后,大家对DALL·E 这个的神经网络模型有什么应用上的期待呢?二维设计师?

又会觉得它会引导什么AI革命吗?又或者觉得它会存在很多不可避免的限制?

原文链接:

https://openai.com/blog/dall-e/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力...相关推荐

  1. 文本合成图像栩栩如生,仿佛拥有人类的语言想象力:OpenAI祭出120亿参数魔法模型!...

    点击上方"机器学习与生成对抗网络",关注"星标" 获取有趣.好玩的前沿干货! 作者 | OpenAI 来源 | AI科技评论 编译 | 贝爽.陈大鑫 前几个月G ...

  2. 输入文本就可建模渲染了?!OpenAI祭出120亿参数魔法模型!

    转自:https://new.qq.com/omn/20210111/20210111A0CBRD00.html 2021刚刚开启,OpenAI又来放大招了! 能写小说.哲学语录的GPT-3已经不足为 ...

  3. 大神开源AI代码!这次我也可以亲自上手、模仿OpenAI利用文本合成图像啦!

    作者 | 耳洞打三金 大家好我是三金,相信大家都还记得上周报道的OpenAI新出的名叫DALL.E的120亿参数神经网络模型,它可以魔法一般按照自然语言文字描述直接生成对应图片! 效果如下所示: 文本 ...

  4. GPT-4前奏?OpenAI发布120亿参数图像版GPT-3

    编辑:贾伟 梦佳 继GPT-3的颠覆之后,即将出道的 GPT-4 会走向何方?这一问题牵动着很多人的心. 在不久前,OpenAI的联合创始人.首席科学家IIya Sutskever 曾在吴恩达编辑的 ...

  5. 千亿参数大模型首次被撬开!Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公布...

    梦晨 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI圈发生了一件轰动的事情-- Meta AI开放了一个"重达" ...

  6. 千亿参数大模型首次被撬开:Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公布

    千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI圈发生了一件轰动的事情-- Meta AI开放了一个"重达"1750亿参数的大语言模型OPT-175B,不仅参数比GP ...

  7. #今日论文推荐# 千亿参数大模型首次被撬开,Meta复刻GPT-3“背刺“OpenAI,完整模型权重及训练代码全公布

    #今日论文推荐# 千亿参数大模型首次被撬开!Meta复刻GPT-3"背刺"OpenAI,完整模型权重及训练代码全公布 千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI ...

  8. 专访唐杰:万亿参数大模型只是一个开始

    机器之心原创 作者:闻菲 智源悟道团队不仅会在「大」这条路上走下去,还将对构建「神经-符号结合模型」进行更深入和底层的探索. 图灵写于 1950 年的论述<计算机器与智能>被誉为人工智能的 ...

  9. 商汤首付56亿!上海建成亚洲最大AI“发电厂”,万亿参数大模型训练无压力

    梦晨 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 刚刚,商汤又多了一项"亚洲第一". 就在上海临港,商汤自建的人工智能计算中心(AIDC)交付使用,一举成为亚洲最大的AI ...

最新文章

  1. 22年前被嘲养猪的北大学子,如今带领200多户住上别墅,90后研究生也跟他加入养猪行列...
  2. Hibernate 缓存机制
  3. SQL Server DBA工作内容详解
  4. 基于区块链的健康链系统设计与实现(4)系统实现
  5. ORACLE 11G DATA GUARD配置之Dataguard简介
  6. C++ STL 容器元素排列之next_permutation和prev_permutation的使用示范
  7. Android指定SDK编译版本
  8. netbeasn支持php7吗,php7+nginx+netbeans使用debug配置注意
  9. selenium弹窗无法定位_Selenium异常集锦
  10. @Resource和@Autowired小笔记
  11. 【零基础Eviews实例】01异方差的检验与修正
  12. 二类查询(中兴笔试)
  13. C++信息学奥赛一本通_2060
  14. USBclean for Mac(U盘病毒查杀工具)
  15. 加拿大 生物工程计算机最好的学校,加拿大哪些大学有生物工程本科专业?这五大院校是理科与工科的完美结合!...
  16. PHP配置优化《MordenPHP》
  17. 服务器打补丁重启时候系统掉,服务器自动重启我的服务器windowssever高级版,但每次开 爱问知识人...
  18. 跟我一起学Linux系统编程006C-进程内存分配,堆分配brk、malloc、free
  19. 触发器referencing old as old new as new
  20. 机器学习实战——逻辑回归和线性判别分析

热门文章

  1. php nobody,linux – 运行FastCGI / PHP-FPM(作为用户“nobody”)在PHP Sessions文件夹上设置什么权限/所有权?...
  2. python3的自学之路--3_python的数据类型
  3. 华为云永久修改主机名
  4. 12款福克斯后座中置灯加开关
  5. s5pv210开发与学习:1.3之SD卡学习
  6. 按成绩统计各层次学生(附随机生成学生姓名和成绩),现已解决
  7. NC81 二叉搜索树的第k个结点
  8. 黎曼zeta函数不需解析延拓
  9. 群晖文件服务器ds918,群晖ds918+评测 安全而又强大
  10. 项目支付接入支付宝【沙箱环境】