作者:Orhan G. Yalçın

翻译:欧阳锦

校对:詹好

本文约2300字,建议阅读6分钟

本文通过对OpenAI新发表的关于基于GPT-3的DALL·E新模型的概括介绍,让读者对这个表现惊人的模型有了初步的了解。与此同时,作者也对该模型提出了一些引人深思的疑问。

标签:通用智能,GPT-3,图像分类,DALL·E,OpenAI

建立在革命性的GPT-3模型之上的DALL·E可以从纯文本描述中生成惊人的图像。

Figure 1. 艺术家萨尔瓦多·达利(Salvador Dalí)和皮克斯(Pixar)的WALL·E的肖像画。图片来自Yuyeung Lau于网站 Unsplash

在新年假期期间,你可能会错过一条AI界的一些最新动态:OpenAI于2021年1月5日发布了一种革命性的模型:DALL·E。DALL·E这个名称是由西班牙超现实主义画家萨尔瓦多·达利(著名的西班牙加泰罗尼亚画家,因其超现实主义作品而闻名)和皮克斯(Pixar)的科幻机器人WALL·E来命名的。

西班牙加泰罗尼亚画家

https://baike.baidu.com/item/%E5%8A%A0%E6%B3%B0%E7%BD%97%E5%B0%BC%E4%BA%9A

超现实主义作品

https://baike.baidu.com/item/%E8%B6%85%E7%8E%B0%E5%AE%9E%E4%B8%BB%E4%B9%89/3388

科幻机器人WALL·E

https://www.pixar.com/feature-films/walle

Open AI的一篇关于DALL·E文章(A portmanteau of the artist Salvador Dalí and Pixar’s WALL·E)介绍说,DALL·E对空间、时间和逻辑等概念有很好的理解。

这篇文章将快速概述什么是DALL·E,它的用途,它如何工作以及它的意义。但是,在此之前,我们需要了解一下Open AI。

什么是Open AI?

OpenAI是一个位于旧金山的非营利性人工智能研究和在研实验室,由埃隆·马斯克(Elon Musk),萨姆·奥特曼(Sam Altman)等人于2015年创立。他们承诺投资10亿美元用于开发可持续和安全的AI系统。OpenAI实验室成立的主要目的是关注人工智能的存在风险(即一个人工智能的巨大进步有一天可能导致人类灭绝或其他无法挽回的全球性灾难)。即使埃隆·马斯克(Elon Musk)已经从OpenAI董事会辞职,但他仍然是实验室的捐助者。这家非营利性母公司OpenAI Inc.也拥有一个营利性OpenAI LP公司。2019年,微软向营利性子公司OpenAI LP投资了10亿美元。

Open AI开发了近年来最激动人心的语言模型之一的Generative Pre-trained Transformer 3(GPT-3)。该语言模型因为一些惊人的应用程序而非常受欢迎(请查看视频链接以观看14个基于OpenAI的GPT-3 API的应用程序展示)https://youtu.be/G6Z_S6hs29s

今天我们要介绍的DALL·E也是基于GPT-3来进行开发的。接下来,就让我们来了解一下什么是DALL·E吧。

什么是DALL·E

Open AI研究人员在有120亿参数GPT-3的版本(因为GPT-3有多个变体)的上构建了DALL·E。这个基于Transformer的神经网络可以根据图像-文本的的大型数据集来进行训练,得到一个仅仅一句文本的描述即可生成对应图像的模型。

DALL·E实现了一些惊人的功能,例如创建拟人化(即类人)的动物和对象、文本渲染、对既有图像的转换,以及将某些对象或概念合并至单个图像中等。它甚至还可以补全图像的缺失部分。

具体来说,DALL·E的功能包括一下部分

  • 更改对象的属性以及对象在图像中出现的次数:

Figure 2. 文字提示:一组放在桌上的眼镜合集(截图来自于作者)

  • 同时绘制多个对象并控制它们的空间关系:

Figure 3. 文字提示:一个绿色大方块上的红色小方块(截图来自于作者)

  • 控制场景的视点和渲染场景的3D样式:

Figure 4. 文字提示:田地中水豚的近距离特写视图(截图来自于作者)

  • 可视化对象的内部和外部结构:

Figure 5. 文字提示:核桃的横截面图(截图来自于作者)

  • 推断上下文详细信息:

Figure 6. 文字提示:写有“openai”字样的店面(截图来自于作者)

  • 根据给定的描述创建时尚和室内设计作品:

Figure 7. 文字提示:一个穿着黑色皮夹克和金色百褶裙的女模特(截图来自于作者)

  • 结合不相关的概念并创建逼真的对象:

Figure 8. 文字提示:由竖琴制成的蜗牛;带有竖琴纹理的蜗牛。(截图来自于作者)

  • 基于给定描述的绘制动物和拟人化蔬菜:

Figure 9. 文字提示:穿着芭蕾裙遛狗的小白萝卜插画(截图来自于作者)

  • 可以进行零样本学习的视觉推理人物:

Figure 10. 文字提示:与下方草图完全一样的上方的猫(截图来自于作者)

  • 对地理事实,地标和街区进行推理:

Figure 11. 文字提示:一张中国食物的照片(截图来自于作者)

  • 用时间信息推理并使用时间信息:

Figure 12. 文字提示:一张来自各个年代的手机照片(截图来自于作者))

如你所见,这些结果令人难以置信。图8和图9尤其让我印象深刻。尽管如此,我们仍然应该对结果保持怀疑态度。以下是对DALL·E模型的一些怀疑的思考。

对DALL·E的怀疑思考

总而言之,不得不说的是,DALL·E的功能的确令人印象深刻。但是关于这个你可能正在思考的模型,我想提出几点怀疑。

Figure 13. 图片来自Emily Morter 于网站Unsplash

没有完整论文支撑?

我们对DALL·E功能的全部了解是基于Open AI发布的博客文章。尽管该模型的结果令人印象深刻,但有关该方法的完整论文尚未发表。因此,在完全确信DALL·E可以做到博客文章所描述的一切之前,有关该模型的完整论文的发表是更值得期待的事。

选择性偏差?

可能会误导读者的一件事是,DALL·E的结果可能是被精心挑选过的。即使在该博客文章中曾提到这些结果不是被挑选出来的,但是用于测试或训练的文本描述/提示仍可能是被精心挑选的。我认为论文中的基准分析或许会解决此问题。

DALL·E通向通用人工智能的漫漫长路?

Open AI这篇博客文章中所展示的结果非常惊人,人们可能会认为该模型几乎可以实现类人智力。然而,过去一些同样被认为具有革命性意义的模型均失败了。我认为,要诱导这些模型犯下基础性的错误似乎并不是困难的事(尽管它看上去很鲁棒)。检验这个假设的唯一方法就是使用该模型(从而查看能否诱导该模型犯下基础性的错误)。但是,目前Open AI还没有公布除这篇博客文章以外有关该模型的其他细节。

结束语

本文快速概述了Open AI的新革命性模型DALL·E。看起来DALL·E仅通过使用文本描述/提示就可以完成一些图像生成和分类任务。尽管市场上已经有了几种类似的可以通过文本描述完成图像生成和分类的解决方法,但Open AI似乎走得更远,并改善了现有的技术。

然而,由于我们既无权访问该模型,也无权访问该论文,因此仍有一些未解决的问题需要讨论并探索。一旦论文发表或者提供了对模型的访问,我们就可以对这个优秀的模型进行测试,并获得更好的灵感。

通过邮件订阅以获取更完整内容

如果你想访问作者在Google Colab上其他教程文章的代码,并及时收到其最新内容,请考虑订阅。如果你对深度学习感兴趣,也可以查看作者的人工智能内容指南。最后,如果你想阅读Open AI发布的原始博客文章,请单击下方链接。

订阅:

https://medium.us4.list-manage.com/subscribe?u=bf0e9524ea3d765ba10131675&id=52221072de

链接:

https://openai.com/blog/dall-e/

原文标题:

OpenAI’s New Model DALL·E Brings Us One Step Closer to General AI

原文链接:

https://towardsdatascience.com/openais-new-model-dall-e-brings-us-one-step-closer-to-general-ai-4abfe9cf9cfc

编辑:王菁

校对:林亦霖

译者简介

欧阳锦,我是一名即将去埃因霍芬理工大学继续攻读数据科学专业的硕士生。本科毕业于华北电力大学,自己喜欢的科研方向是隐私安全中的数据科学算法。有很多爱好和兴趣(摄影、运动、音乐),对生活中的事情充满兴趣,是个热爱钻研、开朗乐观的人。为了更好地学习自己喜欢的专业领域,希望能够接触到更多相关的事物以开拓自己的眼界和思路。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

点击“阅读原文”拥抱组织

独家 | OpenAI的DALL·E模型使人类更接近通用人工智能(附链接)相关推荐

  1. 2023年AI大模型市场研究报告:迈向通用人工智能,大模型拉开新时代序幕

    省时查报告-专业.及时.全面的行研报告库 省时查方案-专业.及时.全面的营销策划方案库 [免费下载]2023年4月份热门报告合集 万字干货:ChatGPT的工作原理 无需翻墙,ChatGPT直接使用 ...

  2. 独家 | 展望未来:数据科学、数据工程及技术(附链接)

    作者:SeattleDataGuy (Zack Shapiro)翻译:殷之涵 校对:欧阳锦本文约2800字,建议阅读8分钟本文通过6位科技工作者的观察及感受,为大家介绍2021年即将发生在数据科学及数 ...

  3. 独家 | 构建符合道德规范的用于人才管理的AI(附链接)

    作者:Tomas Chamorro-Premuzic,Frida Polli,Ben Dattner 翻译:wwl 校对:吴金笛 本文约2800字,建议阅读5分钟 在人才管理中,相较于依赖招聘经理的人 ...

  4. 独家 | 为什么要尝试A/B测试的贝叶斯方法(附链接)

    作者:Michael Armanious 翻译:欧阳锦 校对:阿笛 本文约3400字,建议阅读8分钟 本文通过一个A/B测试的实例,介绍了贝叶斯方法的各种优点和具体的实现方法,同时也将贝叶斯推断方法与 ...

  5. 百度CTO王海峰:大模型的发展,为通用人工智能带来曙光

    5月25日至30日,由科技部.国家发展改革委.工业和信息化部.国务院国资委.中国科学院.中国工程院.中国科协.北京市政府共同主办的中关村论坛在京召开,来自80多个国家和地区的科学家.企业家汇聚中关村, ...

  6. 独家 | 你的神经网络不起作用的37个理由(附链接)

    作者:Slav Ivanov 翻译:吴金笛 校对:丁楠雅 本文约4400字,建议阅读12分钟. 本文列举了在搭建神经网络过程中的37个易错点,并给出了解决建议. 有一个网络已经训练了12个小时.一切看 ...

  7. 独家 | 13大技能助你成为超级数据科学家!(附链接)

    翻译:张睿毅 校对:王威力 本文约4000字,建议阅读8分钟. 本文为你介绍超级数据科学家的13大基本技能. (链接:https://www.linkedin.com/feed/update/ urn ...

  8. 独家 | 在PyTorch中用图像混合(Mixup)增强神经网络(附链接)

    作者:Ta-Ying Cheng翻译:陈之炎校对:车前子本文约2000字,建议阅读5分钟随机混合图像,效果是不是会更好? 标签:神经网络.图像混合 一直以来,在深度学习领域,图像分类是呈指数级增长的课 ...

  9. 独家 | 一文读懂概率论学习:贝叶斯理论(附链接)

    作者:Jaime Zornoza 翻译:李 洁 校对:郑 滋 本文长度约为3400字,建议阅读10分钟 本文为大家详细介绍了概念学习中常见的贝叶斯理论. 通过一个简单示例,了解概率的基本定理之一. 本 ...

最新文章

  1. lvs和keepalives
  2. Sublime Text3激活
  3. 前端面试高频题:删除数组重复元素的多种方法
  4. 大数据互联网架构阶段 Spring框架导致的406错误
  5. 网络编程释疑之:TCP协议的“流”特性
  6. urllib 模块学习
  7. 多次执行sql 后卡住_解Bug之路记一次中间件导致的慢SQL排查过程
  8. oracle约束 关闭,Oracle约束管理脚本
  9. 说说Android的广播(4) - 前台队列为什么比后台队列快?
  10. Python的切片操作
  11. android 头像存储,安卓裁剪上传保存头像
  12. tar命令--解压缩
  13. matlab ofdm qpsk,Matlab关于ofdm系统qpsk调制、awgn信道下的仿真
  14. 使用软件测试路由器性能报告,路由器软件测试报告.doc
  15. 游戏中的心理学(四):让用户掏腰包的秘密
  16. 关于Java堆栈的理解与说明
  17. 爬取豆瓣短评之《后来的我们》-------后来的我们没有故事
  18. 系统运维工程师都要会什么?
  19. 计算机桌面文件为何不能剪贴,复制粘贴,详细教您电脑复制粘贴不能用了怎么解决...
  20. 提问的价值,你了解多少?

热门文章

  1. 浆轮机器人:游泳池漂浮碎屑的清理大师
  2. nchar 和 nvarchar
  3. 通过window.open下载pdf或直接打开文件
  4. 日企面试官谈赴日开发工作
  5. 【2019.05】极验滑动验证码破解 geetest
  6. arcgis server 学习(一) 地图要素查询
  7. 谷粒商城-04-P44-P60
  8. 苏亚星显示没有登录的服务器,VOD直播工具使用 直播站管理工具的使用 苏亚星VOD点播(直播)系统.doc...
  9. COGS 775. 山海经 【线段树】
  10. 西安未来国际java,新开工!西安文化CBD国际商业中心来了!2020 级重点建设项目发布...