独家 | OpenAI的DALL·E模型使人类更接近通用人工智能（附链接）

作者：Orhan G. Yalçın

翻译：欧阳锦

校对：詹好

本文约2300字，建议阅读6分钟

本文通过对OpenAI新发表的关于基于GPT-3的DALL·E新模型的概括介绍，让读者对这个表现惊人的模型有了初步的了解。与此同时，作者也对该模型提出了一些引人深思的疑问。

标签：通用智能，GPT-3，图像分类，DALL·E，OpenAI

建立在革命性的GPT-3模型之上的DALL·E可以从纯文本描述中生成惊人的图像。

Figure 1. 艺术家萨尔瓦多·达利（Salvador Dalí）和皮克斯（Pixar）的WALL·E的肖像画。图片来自Yuyeung Lau于网站 Unsplash

在新年假期期间，你可能会错过一条AI界的一些最新动态：OpenAI于2021年1月5日发布了一种革命性的模型：DALL·E。DALL·E这个名称是由西班牙超现实主义画家萨尔瓦多·达利（著名的西班牙加泰罗尼亚画家，因其超现实主义作品而闻名）和皮克斯（Pixar）的科幻机器人WALL·E来命名的。

西班牙加泰罗尼亚画家

https://baike.baidu.com/item/%E5%8A%A0%E6%B3%B0%E7%BD%97%E5%B0%BC%E4%BA%9A

超现实主义作品

https://baike.baidu.com/item/%E8%B6%85%E7%8E%B0%E5%AE%9E%E4%B8%BB%E4%B9%89/3388

科幻机器人WALL·E

https://www.pixar.com/feature-films/walle

Open AI的一篇关于DALL·E文章（A portmanteau of the artist Salvador Dalí and Pixar’s WALL·E）介绍说，DALL·E对空间、时间和逻辑等概念有很好的理解。

这篇文章将快速概述什么是DALL·E，它的用途，它如何工作以及它的意义。但是，在此之前，我们需要了解一下Open AI。

什么是Open AI？

OpenAI是一个位于旧金山的非营利性人工智能研究和在研实验室，由埃隆·马斯克（Elon Musk），萨姆·奥特曼（Sam Altman）等人于2015年创立。他们承诺投资10亿美元用于开发可持续和安全的AI系统。OpenAI实验室成立的主要目的是关注人工智能的存在风险（即一个人工智能的巨大进步有一天可能导致人类灭绝或其他无法挽回的全球性灾难）。即使埃隆·马斯克（Elon Musk）已经从OpenAI董事会辞职，但他仍然是实验室的捐助者。这家非营利性母公司OpenAI Inc.也拥有一个营利性OpenAI LP公司。2019年，微软向营利性子公司OpenAI LP投资了10亿美元。

Open AI开发了近年来最激动人心的语言模型之一的Generative Pre-trained Transformer 3（GPT-3）。该语言模型因为一些惊人的应用程序而非常受欢迎（请查看视频链接以观看14个基于OpenAI的GPT-3 API的应用程序展示）https://youtu.be/G6Z_S6hs29s

今天我们要介绍的DALL·E也是基于GPT-3来进行开发的。接下来，就让我们来了解一下什么是DALL·E吧。

什么是DALL·E

Open AI研究人员在有120亿参数GPT-3的版本（因为GPT-3有多个变体）的上构建了DALL·E。这个基于Transformer的神经网络可以根据图像-文本的的大型数据集来进行训练，得到一个仅仅一句文本的描述即可生成对应图像的模型。

DALL·E实现了一些惊人的功能，例如创建拟人化（即类人）的动物和对象、文本渲染、对既有图像的转换，以及将某些对象或概念合并至单个图像中等。它甚至还可以补全图像的缺失部分。

具体来说，DALL·E的功能包括一下部分

更改对象的属性以及对象在图像中出现的次数：

Figure 2. 文字提示：一组放在桌上的眼镜合集（截图来自于作者）

同时绘制多个对象并控制它们的空间关系：

Figure 3. 文字提示：一个绿色大方块上的红色小方块（截图来自于作者）

控制场景的视点和渲染场景的3D样式：

Figure 4. 文字提示：田地中水豚的近距离特写视图（截图来自于作者）

可视化对象的内部和外部结构：

Figure 5. 文字提示：核桃的横截面图（截图来自于作者）

推断上下文详细信息：

Figure 6. 文字提示：写有“openai”字样的店面（截图来自于作者）

根据给定的描述创建时尚和室内设计作品：

Figure 7. 文字提示：一个穿着黑色皮夹克和金色百褶裙的女模特（截图来自于作者）

结合不相关的概念并创建逼真的对象：

Figure 8. 文字提示：由竖琴制成的蜗牛；带有竖琴纹理的蜗牛。（截图来自于作者）

基于给定描述的绘制动物和拟人化蔬菜：

Figure 9. 文字提示：穿着芭蕾裙遛狗的小白萝卜插画（截图来自于作者）

可以进行零样本学习的视觉推理人物：

Figure 10. 文字提示：与下方草图完全一样的上方的猫（截图来自于作者）

对地理事实，地标和街区进行推理：

Figure 11. 文字提示：一张中国食物的照片（截图来自于作者）

用时间信息推理并使用时间信息：

Figure 12. 文字提示：一张来自各个年代的手机照片（截图来自于作者）)

如你所见，这些结果令人难以置信。图8和图9尤其让我印象深刻。尽管如此，我们仍然应该对结果保持怀疑态度。以下是对DALL·E模型的一些怀疑的思考。

对DALL·E的怀疑思考

总而言之，不得不说的是，DALL·E的功能的确令人印象深刻。但是关于这个你可能正在思考的模型，我想提出几点怀疑。

Figure 13. 图片来自Emily Morter 于网站Unsplash

没有完整论文支撑？

我们对DALL·E功能的全部了解是基于Open AI发布的博客文章。尽管该模型的结果令人印象深刻，但有关该方法的完整论文尚未发表。因此，在完全确信DALL·E可以做到博客文章所描述的一切之前，有关该模型的完整论文的发表是更值得期待的事。

选择性偏差？

可能会误导读者的一件事是，DALL·E的结果可能是被精心挑选过的。即使在该博客文章中曾提到这些结果不是被挑选出来的，但是用于测试或训练的文本描述/提示仍可能是被精心挑选的。我认为论文中的基准分析或许会解决此问题。

DALL·E通向通用人工智能的漫漫长路？

Open AI这篇博客文章中所展示的结果非常惊人，人们可能会认为该模型几乎可以实现类人智力。然而，过去一些同样被认为具有革命性意义的模型均失败了。我认为，要诱导这些模型犯下基础性的错误似乎并不是困难的事（尽管它看上去很鲁棒）。检验这个假设的唯一方法就是使用该模型（从而查看能否诱导该模型犯下基础性的错误）。但是，目前Open AI还没有公布除这篇博客文章以外有关该模型的其他细节。

结束语

本文快速概述了Open AI的新革命性模型DALL·E。看起来DALL·E仅通过使用文本描述/提示就可以完成一些图像生成和分类任务。尽管市场上已经有了几种类似的可以通过文本描述完成图像生成和分类的解决方法，但Open AI似乎走得更远，并改善了现有的技术。

然而，由于我们既无权访问该模型，也无权访问该论文，因此仍有一些未解决的问题需要讨论并探索。一旦论文发表或者提供了对模型的访问，我们就可以对这个优秀的模型进行测试，并获得更好的灵感。

通过邮件订阅以获取更完整内容

如果你想访问作者在Google Colab上其他教程文章的代码，并及时收到其最新内容，请考虑订阅。如果你对深度学习感兴趣，也可以查看作者的人工智能内容指南。最后，如果你想阅读Open AI发布的原始博客文章，请单击下方链接。

https://medium.us4.list-manage.com/subscribe?u=bf0e9524ea3d765ba10131675&id=52221072de

链接：

https://openai.com/blog/dall-e/

原文标题：

OpenAI’s New Model DALL·E Brings Us One Step Closer to General AI

原文链接：

https://towardsdatascience.com/openais-new-model-dall-e-brings-us-one-step-closer-to-general-ai-4abfe9cf9cfc

编辑：王菁

校对：林亦霖

译者简介

欧阳锦，我是一名即将去埃因霍芬理工大学继续攻读数据科学专业的硕士生。本科毕业于华北电力大学，自己喜欢的科研方向是隐私安全中的数据科学算法。有很多爱好和兴趣（摄影、运动、音乐），对生活中的事情充满兴趣，是个热爱钻研、开朗乐观的人。为了更好地学习自己喜欢的专业领域，希望能够接触到更多相关的事物以开拓自己的眼界和思路。

翻译组招募信息

工作内容：需要一颗细致的心，将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生，或在海外从事相关工作，或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到：定期的翻译培训提高志愿者的翻译水平，提高对于数据科学前沿的认知，海外的朋友可以和国内技术应用发展保持联系，THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利：来自于名企的数据科学工作者，北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载，请在开篇显著位置注明作者和出处（转自：数据派ID：DatapiTHU），并在文章结尾放置数据派醒目二维码。有原创标识文章，请发送【文章名称-待授权公众号名称及ID】至联系邮箱，申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱（见下方）。未经许可的转载以及改编者，我们将依法追究其法律责任。

点击“阅读原文”拥抱组织