转自:https://new.qq.com/omn/20210111/20210111A0CBRD00.html

2021刚刚开启,OpenAI又来放大招了!

能写小说、哲学语录的GPT-3已经不足为奇?那就来一个多模态『图像版GPT-3』。

今天,OpenAI重磅推出了最新语言模型—DALL·E,它是GPT-3的120亿参数版本,可以魔法一般按照自然语言文字描述直接生成对应图片!

比如,在DALL·E模型中输入“穿芭蕾舞短裙、正在遛狗的萝卜宝宝”,它就可以生成这样一张图片:

输入“鳄梨形状的扶手椅”,就是这样:

甚至输入“含OpenAI字样的店铺”,它也能成生成多种设计图

DALL·E这项神技能冲上了各大社交平台的热搜。

Keras创始人Fran ois Chollet特意发文称:

这看起来非常酷,尤其是“图像生成”的部分。从原理上来看,它应该就是GPT-3在文本合成图像方向上的扩展版本。

AI大神吴恩达也第一时间转推点赞,还顺带挑选了一张满意的蓝色衬衫 + 黑色长裤的AI 生成图。

OpenAI 联合创始人、首席科学家 Ilya Sutskever 在推特上发文表道:人工智能的长期目标是构建多模态神经网络,即AI能够学习不同模态之间的概念(文本和视觉领域为主),从而更好地理解世界。而 DALL·E 和 CLIP 使我们更接近“多模态 AI 系统”这一目标。

值得一提的是,DALL·E的命名也很特别。这个善于绘画创作的模型名称来源于人类艺术家萨尔瓦多·达利(Salvador Dalí)和皮克斯(Pixar)机器人WALL·E名称的结合。

接下来,我们来详细介绍一下它还有哪些硬核能力。

1

DALL·E的能力

DALL·E能够为多语言成分结构的各种句子创造似是而非的图像。研究人员通过一些交互视觉效果举例说明了这一点。在下面的案例中,每个视觉效果的文本提示都是通过CLIP重新排序后,从512个文本提示中的前32个获得的,不采取任何手动选取(cherry-picking)。

控制属性

研究人员测试了DALL·E修改目标物体的能力,包括修改相应的属性以及出现的次数。

文本提示:五边形的绿色钟。

绘制多个目标

同时控制多个目标物体、以及它们的属性、空间关系是一个全新的挑战。

例如,“一只戴着红帽子、黄手套、蓝衬衫和绿裤子的刺猬”。要正确地解释这句话,DALL·E 不仅要正确地将每件衣服与动物组合在一起,还要将(帽子、红色)、(手套、黄色)、(衬衫、蓝色)和(裤子,绿色)形成各种联想,而且不能混淆它们。

文本提示:一堆三维立方体:红色的立方体在绿色立方体的顶部;绿色立方体在中间;蓝色立方体在底部。

虽然DALL·E确实为少量目标的属性和位置提供了某种程度的可控性,但成功率取决于标题文本的语言措辞。

随着目标的增多,DALL·E容易混淆目标与颜色之间的关联,成功率会急剧降低。研究人员注意到,在这些场景中,DALL·E对于标题文本的重新表述是脆弱的、可替代的,语义上等价的标题文本通常不会产生正确的解释。

可视化透视与三维

研究人员发现DALL·E还能够控制场景的视点和渲染场景的3D样式。

文本提示:坐在田野上的体素化模型水豚。

为了进一步验证DALL·E的这个能力,研究人员测试了DALL·E在同等视角下重复绘制知名人物头部的能力,并发现DALL·E可以成功恢复旋转头部的平滑动画。

文本提示:荷马半身像。

DALL·E能够将某些类型的光学畸变(Optical Distortions)应用到具体场景中,正如我们在“鱼眼透镜视图(Fisheye Lens View)”和“球形全景图(Spherical Panorama.)”等场景中看到的那样。它促使研究人员探索其产生光学反射的能力。

文本提示:一个白色的立方体看着自己在镜子里的倒影;一个白色的立方体看着镜子里的自己。

可视化内部和外部结构

“特写镜头(Extreme Close-up View)”和“x射线(X-Ray)”风格的案例使研究人员进一步探索了DALL·E运用横截面视角绘制内部结构和用宏观图像绘制外部结构的能力。

文本提示:核桃的横截面图。

推断上下文细节

将文本翻译成图像的任务是不明确的:一个标题文本通常可以对应无限多种图像,换句话说,图像不是唯一确定的。例如,假如标题文本是“日出时,坐在田野上的水豚的绘画像。根据水豚的方位,可能需要画一个阴影,但这个细节没有被明确提及。

研究人员探讨了DALL·E在以下三种情况下解决无规范标准问题的能力:改变风格、设置和时间;在各种不同的情况下绘制同一目标图像;在生成目标图像上书写指定文本。

文本提示:带有蓝色草莓的彩色玻璃窗。

利用不同程度的可靠性,DALL·E为通过自然语言实现3D渲染引擎功能提供了一种途径。它可以独立地控制少量目标的属性,并在有限的范围内控制目标的数量以及它们之间的排列方式。它还可以控制渲染场景的位置和角度,并且根据角度和照明条件生成精确且规范的已知目标。

与3D渲染引擎不同,3D渲染引擎的输入必须明确且完整,当标题文本暗示图像必须包含未明确的特定细节时,DALL·E通常能够“填补空白”。

应用案例

研究人员探讨了上述功能在时尚设计和室内设计中的应用。

文本提示:一位穿着橘色和黑色相间衬衫的男性人体模特。

文本提示:客厅中有两个白色的扶手椅和一幅斗兽场的画,这幅画挂在现代样式壁炉的上方。AI生成的图像:

组合不相关的概念

语言的构成本质使人们能够将概念描述集成在一起,用以描述真实和虚构的事物。OpenAI发现,DALL·E还具有将完全不同的idea结合起来以合成物体的能力,其中有些物体不可能在现实世界中存在。

OpenA在两种情况下探索这种能力:将各种概念的特质传递给动物,以及从不相关的概念中汲取灵感来设计产品。

文本提示:竖琴状的蜗牛。

在上一部分中探讨了DALL·E在生成真实物体的图像时结合无关概念的能力。接下来,OpenAI通过在艺术的背景下的三种插图探索这种能力:动物和物体的拟人化版本、动物嵌合体、表情符号。

文本提示:长颈鹿乌龟合体的专业高质量插图,模仿乌龟的长颈鹿,由乌龟变成的长颈鹿。

零样本视觉推理

可以仅根据说明和提示来指示GPT-3执行多种任务,而无需任何额外训练。例如,当提示短语“将‘在公园里walking狗的人’被翻译成法语:”时,GPT-3会回答“un homme quipromèneson chien dans le parc。此功能称为零样本推理。

OpenAI发现DALL·E将此功能扩展到了视觉领域,并且在以正确的方式提示时,能够执行多种图像到图像的翻译任务。

文本+图像提示:参照上面的猫在下面生成草图。

OpenAI惊讶地发现DALL·E居然有这种神奇的能力,因为他们没有对神经网络或训练程序进行任何修改。

受这些结果的启发,OpenAI通过在Raven的渐进矩阵上进行测试来衡量DALL·E对于解决类推推理问题的能力,这是一种视觉智商测试,在20世纪得到了广泛应用。

文本+图像提示:一个几何形状序列。

地理知识

OpenAI 发现DALL·E了解地理事实、地标和街区。它对这些概念的了解在某些方面出奇地精确,而在另一些方面却有缺陷。

文本提示:中国食物的图片。

时间知识

除了探索DALL·E关于随空间变化的概念的知识外,OpenAI还探索了其随时间变化的概念的知识。

文本+图像提示:20年代发明的电话。

2

总结:方法和先前工作

DALL·E是一个仅有解码器的Transformer架构,它可以接收1280个token的文本和图像作为单个流(文本为256个token,图像为1024个token),并对它们全部进行自动回归建模。

它的64个自注意力层中的每一个都具有注意力mask,使每个图像token都可以匹配所有文本token。DALL·E对文本token使用标准的因果mask,以行、列或卷积注意模式对图像token使用稀疏注意,具体取决于层数。

OpenAI计划在下一篇论文中提供有关DALL·E架构和训练过程的详细信息。

与VQVAE-2中使用的rejection sampling类似,OpenAI使用CLIP对每个文本生成的512个采样中的前32个进行排名。此过程也可以看作是一种语言指导的搜索,会对样本质量产生巨大影响。

GPT-3已经向我们展示,可以用语言来指示大型神经网络执行各种文本生成任务。Image GPT则表明,同样类型的神经网络也可以用来生成高保真的图像。OpenAI进一步扩展了这些发现,以表明通过语言操纵视觉概念是触手可及的。

与GPT-3一样,DALL·E是一种Transformer语言模型。OpenAI认为,涉及生成模型的工作可能会产生重大而广泛的社会影响。因此未来,OpenAI会计划分析像DALL·E这样的模型如何与社会问题联系起来,例如对某些工作流程和专业的经济影响,模型输出中可能存在的偏见以及该技术所隐含的长期道德挑战。

最后,大家对DALL·E 这个的神经网络模型有什么应用上的期待呢?二维设计师?

又会觉得它会引导什么AI革命吗?又或者觉得它会存在很多不可避免的限制?

输入文本就可建模渲染了?!OpenAI祭出120亿参数魔法模型!相关推荐

  1. 文本合成图像栩栩如生,仿佛拥有人类的语言想象力:OpenAI祭出120亿参数魔法模型!...

    点击上方"机器学习与生成对抗网络",关注"星标" 获取有趣.好玩的前沿干货! 作者 | OpenAI 来源 | AI科技评论 编译 | 贝爽.陈大鑫 前几个月G ...

  2. OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力...

    来源:AI科技评论 作者:OpenAI 编译:贝爽.陈大鑫 前几个月GPT-3刚刚问世的时候,能够根据一段话就写出一个小说.一段哲学语录,就足以令AI圈为之感到兴奋. 然而2020年刚刚开始没多久,O ...

  3. GPT-4前奏?OpenAI发布120亿参数图像版GPT-3

    编辑:贾伟 梦佳 继GPT-3的颠覆之后,即将出道的 GPT-4 会走向何方?这一问题牵动着很多人的心. 在不久前,OpenAI的联合创始人.首席科学家IIya Sutskever 曾在吴恩达编辑的 ...

  4. 千亿参数大模型首次被撬开!Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公布...

    梦晨 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI圈发生了一件轰动的事情-- Meta AI开放了一个"重达" ...

  5. 千亿参数大模型首次被撬开:Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公布

    千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI圈发生了一件轰动的事情-- Meta AI开放了一个"重达"1750亿参数的大语言模型OPT-175B,不仅参数比GP ...

  6. #今日论文推荐# 千亿参数大模型首次被撬开,Meta复刻GPT-3“背刺“OpenAI,完整模型权重及训练代码全公布

    #今日论文推荐# 千亿参数大模型首次被撬开!Meta复刻GPT-3"背刺"OpenAI,完整模型权重及训练代码全公布 千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI ...

  7. Meta复刻GPT-3“背刺”OpenAI,千亿参数大模型权重及训练代码全公布,中文开发者可用吗?

    Meta (原Facebook)开放了一个"高达"1750亿参数的预训练大语言模型OPT-175B,不仅参数比GPT-3的3750亿更少,效果还完全不输GPT-3-- 之前GPT- ...

  8. OpenAI魔法模型DALL-E论文、代码公布!

    来源:AI科技评论 编译:AI科技评论 OpenAI在1月5日公布DALL-E模型以来,人们都惊艳于模型的语言想象力是如此丰富和细致.如今,我们终于等到了论文的公布,从而得以了解DALL-E天马行空创 ...

  9. 不用1750亿!OpenAI CEO放话:GPT-4参数量不增反减

      视学算法报道   来源:AIM 编辑:好困 [新智元导读]不要100万亿!也不要10万亿!更不要1750亿!GPT-4参数量竟然比GPT-3还少! GPT-4官宣? ‍ 近日,OpenAI的首席执 ...

最新文章

  1. 解决nginx 502 bad gateway--团队的力量
  2. Swift 中的内存管理详解
  3. 2021全国高校计算机能力挑战赛(初赛)C语言试题四
  4. 赛迪研究院可以入编吗_对医护来说,拥有编制很重要吗?
  5. 多伦多大学和清华大学创新创业论坛,数据科学研究院建言献策
  6. 万能makefile深入浅出 - 第三篇
  7. spring源码阅读(1/4) - Bean生成
  8. 前端笔记-Vue框架的基本认识
  9. 网站运营过程中经常触碰的几大误区
  10. win访问linux NFS磁盘映射共享驱动器卡顿
  11. OpenCVForUnity色度图
  12. 区县级应急综合管理系统功能
  13. mysql 查看校对集_MySQL教程之校对集问题
  14. cassandra java cql_使用Cassandra CQL Java Driver 访问Lindorm
  15. Available-Python-Tuf
  16. MATLAB学习笔记(一)常值函数与跳变函数的绘制
  17. 【转载】Microsoft 365 E5邮件API调用自动订阅无限续订服务
  18. ⑮霍兰德EA*型如何选专业?高考志愿填报选专业
  19. HDOJ 5498 Tree
  20. QT程序打包--教你做一个可安装的应用程序

热门文章

  1. 南加大计算机游戏专业,南加州大学游戏设计项目有哪些课程?
  2. 汽车ISP的“去留”之谜
  3. brpc线程模型学习
  4. LeetCode——桶的思想
  5. 「云安全」 什么是云访问安全代理(CASB )?
  6. 盖茨基金会宣布再追加捐赠1.5亿美元,支持全球新冠肺炎响应行动
  7. 中位数--《算法竞赛进阶指南》(货仓选址和七夕祭问题详解)
  8. termux使用教程python-利用Termux超级终端在手机上运行Python开发环境
  9. 利安德巴赛尔启动韩国年产能40万吨的聚丙烯生产设施;固特异完成收购固铂轮胎 | 能动...
  10. iOS 下一维码与二维码识别相关资料