输入文本就可建模渲染了？！OpenAI祭出120亿参数魔法模型！

转自：https://new.qq.com/omn/20210111/20210111A0CBRD00.html

2021刚刚开启，OpenAI又来放大招了！

能写小说、哲学语录的GPT-3已经不足为奇？那就来一个多模态『图像版GPT-3』。

今天，OpenAI重磅推出了最新语言模型—DALL·E，它是GPT-3的120亿参数版本，可以魔法一般按照自然语言文字描述直接生成对应图片！

比如，在DALL·E模型中输入“穿芭蕾舞短裙、正在遛狗的萝卜宝宝”，它就可以生成这样一张图片：

输入“鳄梨形状的扶手椅”，就是这样：

甚至输入“含OpenAI字样的店铺”，它也能成生成多种设计图

DALL·E这项神技能冲上了各大社交平台的热搜。

Keras创始人Fran ois Chollet特意发文称：

这看起来非常酷，尤其是“图像生成”的部分。从原理上来看，它应该就是GPT-3在文本合成图像方向上的扩展版本。

AI大神吴恩达也第一时间转推点赞，还顺带挑选了一张满意的蓝色衬衫 + 黑色长裤的AI 生成图。

OpenAI 联合创始人、首席科学家 Ilya Sutskever 在推特上发文表道：人工智能的长期目标是构建多模态神经网络，即AI能够学习不同模态之间的概念（文本和视觉领域为主），从而更好地理解世界。而 DALL·E 和 CLIP 使我们更接近“多模态 AI 系统”这一目标。

值得一提的是，DALL·E的命名也很特别。这个善于绘画创作的模型名称来源于人类艺术家萨尔瓦多·达利（Salvador Dalí）和皮克斯（Pixar）机器人WALL·E名称的结合。

接下来，我们来详细介绍一下它还有哪些硬核能力。

DALL·E的能力

DALL·E能够为多语言成分结构的各种句子创造似是而非的图像。研究人员通过一些交互视觉效果举例说明了这一点。在下面的案例中，每个视觉效果的文本提示都是通过CLIP重新排序后，从512个文本提示中的前32个获得的，不采取任何手动选取（cherry-picking）。

控制属性

研究人员测试了DALL·E修改目标物体的能力，包括修改相应的属性以及出现的次数。

文本提示：五边形的绿色钟。

绘制多个目标

同时控制多个目标物体、以及它们的属性、空间关系是一个全新的挑战。

例如，“一只戴着红帽子、黄手套、蓝衬衫和绿裤子的刺猬”。要正确地解释这句话，DALL·E 不仅要正确地将每件衣服与动物组合在一起，还要将（帽子、红色）、（手套、黄色）、（衬衫、蓝色）和（裤子，绿色）形成各种联想，而且不能混淆它们。

文本提示：一堆三维立方体：红色的立方体在绿色立方体的顶部；绿色立方体在中间；蓝色立方体在底部。

虽然DALL·E确实为少量目标的属性和位置提供了某种程度的可控性，但成功率取决于标题文本的语言措辞。

随着目标的增多，DALL·E容易混淆目标与颜色之间的关联，成功率会急剧降低。研究人员注意到，在这些场景中，DALL·E对于标题文本的重新表述是脆弱的、可替代的，语义上等价的标题文本通常不会产生正确的解释。

可视化透视与三维

研究人员发现DALL·E还能够控制场景的视点和渲染场景的3D样式。

文本提示：坐在田野上的体素化模型水豚。

为了进一步验证DALL·E的这个能力，研究人员测试了DALL·E在同等视角下重复绘制知名人物头部的能力，并发现DALL·E可以成功恢复旋转头部的平滑动画。

文本提示：荷马半身像。

DALL·E能够将某些类型的光学畸变（Optical Distortions）应用到具体场景中，正如我们在“鱼眼透镜视图（Fisheye Lens View）”和“球形全景图（Spherical Panorama.）”等场景中看到的那样。它促使研究人员探索其产生光学反射的能力。

文本提示：一个白色的立方体看着自己在镜子里的倒影；一个白色的立方体看着镜子里的自己。

可视化内部和外部结构

“特写镜头（Extreme Close-up View）”和“x射线（X-Ray）”风格的案例使研究人员进一步探索了DALL·E运用横截面视角绘制内部结构和用宏观图像绘制外部结构的能力。

文本提示：核桃的横截面图。

推断上下文细节

将文本翻译成图像的任务是不明确的：一个标题文本通常可以对应无限多种图像，换句话说，图像不是唯一确定的。例如，假如标题文本是“日出时，坐在田野上的水豚的绘画像。根据水豚的方位，可能需要画一个阴影，但这个细节没有被明确提及。

研究人员探讨了DALL·E在以下三种情况下解决无规范标准问题的能力：改变风格、设置和时间；在各种不同的情况下绘制同一目标图像；在生成目标图像上书写指定文本。

文本提示：带有蓝色草莓的彩色玻璃窗。

利用不同程度的可靠性，DALL·E为通过自然语言实现3D渲染引擎功能提供了一种途径。它可以独立地控制少量目标的属性，并在有限的范围内控制目标的数量以及它们之间的排列方式。它还可以控制渲染场景的位置和角度，并且根据角度和照明条件生成精确且规范的已知目标。

与3D渲染引擎不同，3D渲染引擎的输入必须明确且完整，当标题文本暗示图像必须包含未明确的特定细节时，DALL·E通常能够“填补空白”。

应用案例

研究人员探讨了上述功能在时尚设计和室内设计中的应用。

文本提示：一位穿着橘色和黑色相间衬衫的男性人体模特。

文本提示：客厅中有两个白色的扶手椅和一幅斗兽场的画，这幅画挂在现代样式壁炉的上方。AI生成的图像：

组合不相关的概念

语言的构成本质使人们能够将概念描述集成在一起，用以描述真实和虚构的事物。OpenAI发现，DALL·E还具有将完全不同的idea结合起来以合成物体的能力，其中有些物体不可能在现实世界中存在。

OpenA在两种情况下探索这种能力：将各种概念的特质传递给动物，以及从不相关的概念中汲取灵感来设计产品。

文本提示：竖琴状的蜗牛。

在上一部分中探讨了DALL·E在生成真实物体的图像时结合无关概念的能力。接下来，OpenAI通过在艺术的背景下的三种插图探索这种能力：动物和物体的拟人化版本、动物嵌合体、表情符号。

文本提示：长颈鹿乌龟合体的专业高质量插图，模仿乌龟的长颈鹿，由乌龟变成的长颈鹿。

零样本视觉推理

可以仅根据说明和提示来指示GPT-3执行多种任务，而无需任何额外训练。例如，当提示短语“将‘在公园里walking狗的人’被翻译成法语：”时，GPT-3会回答“un homme quipromèneson chien dans le parc。此功能称为零样本推理。

OpenAI发现DALL·E将此功能扩展到了视觉领域，并且在以正确的方式提示时，能够执行多种图像到图像的翻译任务。

文本+图像提示：参照上面的猫在下面生成草图。

OpenAI惊讶地发现DALL·E居然有这种神奇的能力，因为他们没有对神经网络或训练程序进行任何修改。

受这些结果的启发，OpenAI通过在Raven的渐进矩阵上进行测试来衡量DALL·E对于解决类推推理问题的能力，这是一种视觉智商测试，在20世纪得到了广泛应用。

文本+图像提示：一个几何形状序列。

地理知识

OpenAI 发现DALL·E了解地理事实、地标和街区。它对这些概念的了解在某些方面出奇地精确，而在另一些方面却有缺陷。

文本提示：中国食物的图片。

时间知识

除了探索DALL·E关于随空间变化的概念的知识外，OpenAI还探索了其随时间变化的概念的知识。

文本+图像提示：20年代发明的电话。

总结：方法和先前工作

DALL·E是一个仅有解码器的Transformer架构，它可以接收1280个token的文本和图像作为单个流（文本为256个token，图像为1024个token），并对它们全部进行自动回归建模。

它的64个自注意力层中的每一个都具有注意力mask，使每个图像token都可以匹配所有文本token。DALL·E对文本token使用标准的因果mask，以行、列或卷积注意模式对图像token使用稀疏注意，具体取决于层数。

OpenAI计划在下一篇论文中提供有关DALL·E架构和训练过程的详细信息。

与VQVAE-2中使用的rejection sampling类似，OpenAI使用CLIP对每个文本生成的512个采样中的前32个进行排名。此过程也可以看作是一种语言指导的搜索，会对样本质量产生巨大影响。

GPT-3已经向我们展示，可以用语言来指示大型神经网络执行各种文本生成任务。Image GPT则表明，同样类型的神经网络也可以用来生成高保真的图像。OpenAI进一步扩展了这些发现，以表明通过语言操纵视觉概念是触手可及的。

与GPT-3一样，DALL·E是一种Transformer语言模型。OpenAI认为，涉及生成模型的工作可能会产生重大而广泛的社会影响。因此未来，OpenAI会计划分析像DALL·E这样的模型如何与社会问题联系起来，例如对某些工作流程和专业的经济影响，模型输出中可能存在的偏见以及该技术所隐含的长期道德挑战。

最后，大家对DALL·E 这个的神经网络模型有什么应用上的期待呢？二维设计师？

又会觉得它会引导什么AI革命吗？又或者觉得它会存在很多不可避免的限制？

输入文本就可建模渲染了？！OpenAI祭出120亿参数魔法模型！相关推荐

文本合成图像栩栩如生，仿佛拥有人类的语言想象力：OpenAI祭出120亿参数魔法模型！...
点击上方"机器学习与生成对抗网络",关注"星标" 获取有趣.好玩的前沿干货! 作者 | OpenAI 来源 | AI科技评论编译 | 贝爽.陈大鑫前几个月G ...
OpenAI祭出120亿参数魔法模型！从文本合成图像栩栩如生，仿佛拥有人类的语言想象力...
来源:AI科技评论作者:OpenAI 编译:贝爽.陈大鑫前几个月GPT-3刚刚问世的时候,能够根据一段话就写出一个小说.一段哲学语录,就足以令AI圈为之感到兴奋. 然而2020年刚刚开始没多久,O ...
GPT-4前奏？OpenAI发布120亿参数图像版GPT-3
编辑:贾伟梦佳继GPT-3的颠覆之后,即将出道的 GPT-4 会走向何方?这一问题牵动着很多人的心. 在不久前,OpenAI的联合创始人.首席科学家IIya Sutskever 曾在吴恩达编辑的 ...
千亿参数大模型首次被撬开！Meta复刻GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布...
梦晨萧箫发自凹非寺量子位 | 公众号 QbitAI 千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI圈发生了一件轰动的事情-- Meta AI开放了一个"重达" ...
千亿参数大模型首次被撬开：Meta复刻GPT-3“背刺”OpenAI，完整模型权重及训练代码全公布
千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI圈发生了一件轰动的事情-- Meta AI开放了一个"重达"1750亿参数的大语言模型OPT-175B,不仅参数比GP ...
#今日论文推荐# 千亿参数大模型首次被撬开,Meta复刻GPT-3“背刺“OpenAI，完整模型权重及训练代码全公布
#今日论文推荐# 千亿参数大模型首次被撬开!Meta复刻GPT-3"背刺"OpenAI,完整模型权重及训练代码全公布千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI ...
Meta复刻GPT-3“背刺”OpenAI，千亿参数大模型权重及训练代码全公布，中文开发者可用吗？
Meta (原Facebook)开放了一个"高达"1750亿参数的预训练大语言模型OPT-175B,不仅参数比GPT-3的3750亿更少,效果还完全不输GPT-3-- 之前GPT- ...
OpenAI魔法模型DALL-E论文、代码公布！
来源:AI科技评论编译:AI科技评论 OpenAI在1月5日公布DALL-E模型以来,人们都惊艳于模型的语言想象力是如此丰富和细致.如今,我们终于等到了论文的公布,从而得以了解DALL-E天马行空创 ...
不用1750亿！OpenAI CEO放话：GPT-4参数量不增反减
视学算法报道来源:AIM 编辑:好困 [新智元导读]不要100万亿!也不要10万亿!更不要1750亿!GPT-4参数量竟然比GPT-3还少! GPT-4官宣? ‍ 近日,OpenAI的首席执 ...

输入文本就可建模渲染了？！OpenAI祭出120亿参数魔法模型！

输入文本就可建模渲染了？！OpenAI祭出120亿参数魔法模型！相关推荐

最新文章

热门文章