独家 | 这张骑马的宇航员图片是AI感知世界的一个里程碑(附链接)
文:Will Douglas Heaven April 6, 2022(2022 年4月6日)翻译:陈超校对:zrx本文约3400字,建议阅读10分钟本文介绍了DALL-E的升级版,DALL-E 2对于人工智能的意义。
DALL-E
2021年初OpenAI的制图神经网络DALL-E一经发布,该项目便以新方法整合不同概念的类人化能力得到瞩目。DALL-E根据需求制作的图片是超现实且卡通化的,他们展现出了AI已经学会了世界是如何融合在一起的关键课程。DALL-E的鳄梨手扶椅具有鳄梨和椅子的关键特征;穿着tutu裙遛狗的胡萝卜腰上穿着tutu裙,手里拿着牵狗绳。
今天旧金山的实验室发布了DALL-E的升级版,DALL-E 2。它产出的图片质量更高,更容易使用,且不像原始版本-将会开放给大众(最终)。DALL-E 2可能最后甚至会延伸当前对于人工智能的定义,推动我们去检验这个概念并决定它到底意味着什么。
“从DALL-E到DALL-E 2的跨越让人想起GPT-2到GPT-3的跨越”,西雅图艾伦人工智能研究所(AI2)的Oren Etzioni这样说道。GPT-3也是有OpenAI所发的。
“泰迪熊像疯狂的科学家一样混合闪光的化学品,蒸汽朋克”/“一个庞大的家族带着帽子依偎在火炉旁的35毫米微距胶片摄影”
像DALL-E这样的图片生成模型在短短几年里实现了巨大突破。在2020年,AI2展示了可通过提示(例如“三个人在沙发上打游戏”)生成图片的神经网络。虽然图像是扭曲模糊的,但是仍可辨认。去年,中国科技巨头百度使用模型ERNIE-ViLG在原有DALL-E图片质量的基础上做了进一步优化。
DALL-E 2则发展得更快。它的作品可谓令人惊艳:它可以生成近乎照片真实感的生成宇航员骑马、泰迪熊科学家或者维米尔风格海獭图片。OpenAI提供的范例(见下图),以及上周公司给我展示的示例,都是经过精挑细选的。即便如此,图片品质也十分出色。
“你可以将该神经网络视为将超凡之美成为一种服务”OpenAI的联合创始人及首席科学家Ilya Sutskever如是说。“它一直都在制作一些让你叹为观止的东西”。
DALL-E 2更好的性能取决于它的完全重新设计。最初版本或多或少可以看成是GPT-3的延伸版。在许多方面,GPT-3就像是增强自动机:用几个单词或者句子启动,接下来它就可以自己工作,预测接下来序列中的几百个单词。DALL-E也是相似的工作模式,但是是作用于像素。当它收到一个文本提示之后,它通过预测猜测接下来最有可能出现的像素序列“完成”该文本,从而生成图像。
DALL-E 2并不是基于GPT-3。在引擎盖之下,他通过两阶段起作用。首先,它使用OpenAI的语言模型CLIP,该模型可以将文字描述与图片进行匹配,并翻译成文本提示,进入捕获图片匹配提示(根据CLIP)的关键特征的中介模式。第二,DALL-E 2运行一种叫做差分模型的神经网络并生成满足CLIP模型的图片。
差分模型基于已经被随机像素点完全扭曲的图片进行训练。他们已经学会了如何将这些图片转换成原始的形式。在DALL-E 2中,没有现存的图片。所以差分模型对随机像素点采样,在CLIP的指导下,从头开始将其转换为匹配文字提示的新图片。
差分模型使得DALL-E 2比DALL-E更快生成高分辨率图片。“这使得更实用且使用起来体验感更佳,”OpenAI的Aditya Ramesh这样说。
在样例当中,Ramesh和他的同事向我展示了刺猬使用计算器,柯基和熊猫下象棋,披着拿破仑外衣的猫手中拿着一片芝士的图片。我对此奇怪的角色阵容进行了评论。“费力想这些提示线索,一天很容易就过去了,”他说。
乔纳斯·维米尔的戴珍珠耳环的少女风海獭/约翰·奥杜邦风格的野外的朱鹭
DALL-E 2仍然会有马失前蹄的时候。例如,它可能会纠结与一条要求它结合两种或多种客体,每种有着两类或更多特质的提示,比如“红色方块在蓝色方块之上。”OpenAI认为这是因为CLIP并不总是能将属性和客体正确联系起来。
除了消除文本提示外,DALL-E 2还可以生成图片的变异。Ramesh拿出他在他家公寓外拍的街头艺术照片。AI迅速开始生成墙上有着不同绘画的场景的替代版本。每一幅新图片都能用于开启他们自己的变化序列。“这种反馈循环对设计者来说十分有用”,Ramesh说。
之前的用户,一个叫做Holly Herndon的艺术家,说她正使用DALL-E 2创造墙面尺寸的合成图。“我可以把巨幅的艺术作品一件件拼合起来,就像拼凑毯子,或者叙事旅行,”她说。“感觉像在新媒体中工作一样。”
用户注意
DALL-E 2看起来比以前的版本更像一个打磨的产品。这不是目的,Ramesh说。但是OpenAI确实计划在最初面向小部分信任用户发布后再向公众发布DALL-E 2,就像GPT-3一样。(你可以在此处获取授权https://labs.openai.com/waitlist)
GPT-3可能会产生有病毒的文本。但是OpenAI说它已经采纳了来自GPT-3用户的反馈并训练一个更安全的版本,叫做InstructGPT。公司希望遵从于DALL-E 2相似的路径,也是由用户反馈塑造的。OpenAI将会鼓励最初用户破坏AI,并用于生成令人反感或有伤害性的图片。通过解决这些问题,OpenAI将会使DALL-E 2惠及更广泛的人群。
OpenAI也为DALL-E发布了用户政策,禁止要求AI生成冒犯性的图片-非暴力或色情-并且非政治性的图片。为了阻止深度伪造,用户将不被允许要求DALL-E生成真实人类的图片。
一碗看起来像羊毛织成的怪兽的汤/一只穿戴黑色贝雷帽和高领毛衣的柴犬
除了用户政策,OpenAI也从DALL-E 2的训练集中删掉了特定类型的图片,包括了那些表现图形暴力的。OpenAI也说他们会聘人专门鉴定平台上生成的每一张图片。
“我们的主要目标是在我们开始更广泛共享之前获得系统的一系列反馈,”OpenAI的Prafulla Dhariwal这样说。“我希望最终它可以使用,因此开发者可以在上面开发APP。”
创造性智力
多任务AI可以观察世界并处理跨多模态概念-像语言和视觉-这是迈向更普遍意义的智力的重要一步。DALL-E 2就是最好的例子之一。
但是当Etzioni对DALL-E2生成的图片而印象深刻之时,他对AI整体的进步到底意味着什么十分关心。“这种进步不会让我们更接近AGI,”他说。“我们已经知道AI可以显著更优地使用深度学习来解决简单任务。但是仍然是由人类来形成这些任务并给予深度学习的进程序列。”
对Mark Riedl,亚特拉大佐治亚理工学院的AI研究员,创造力是一种测量智力水平的好方法。不同于需要一个通过对话来迷惑人类的机器的图灵测试,Riedl的Lovelace2.0测试是根据他对创造事物的响应程度来判断机器的智力水平,例如“火星上的企鹅穿着太空服溜机器狗旁边是圣诞老人。”
(图片来自https://twitter.com/jmhessel/status/1511757848442654721)
DALL-E在这项测试上得分很好。但是智力是一个量表。当我们开发了越来越好的机器之后,我们的智力测试也需要更新。许多聊天机器人现在非常擅长模仿人类对话,并且在有限场景下通过图灵测试。但是他们仍然缺乏心智。
然而我们关于“创造”和“理解”的意义的想法也会改变,Riedl说。“这些术语可能定义有问题且有待辩论。”例如,一个蜜蜂理解黄色的重要性因为它要利用这条信息。“如果我们将理解定义为人类的理解,那么AI系统还差得远,”Riedl这样说。
“但是我也会质疑这些绘画生成系统有一些与人类重合的基本理解,”他说。“他们可以像人类一样在萝卜身上同样的位置画上tutu裙。”
像蜜蜂一样,DALL-E 2基于信息,生成符合人类预期的图片。像DALL-E的AI要求我们考虑这些问题以及这些术语到底意味着什么。
OpenAI很清楚自己现在处在什么位置。“我们的目标是创造一般智力,”Dhariwal说。“建立DALL-E 2这样联系视觉和语言的模型是我们教会机器人去按照人类的方式感知世界并最终开发AGI的宏伟目标里的关键一步。”
原文标题:
This horse-riding astronaut is a milestone in AI’s journey to make sense of the world
原文链接:
https://www.technologyreview.com/2022/04/06/1049061/dalle-openai-gpt3-ai-agi-multimodal-image-generation/
编辑:王菁
校对:林亦霖
译者简介
陈超,北京大学应用心理硕士在读。本科曾混迹于计算机专业,后又在心理学的道路上不懈求索。越来越发现数据分析和编程已然成为了两门必修的生存技能,因此在日常生活中尽一切努力更好地去接触和了解相关知识,但前路漫漫,我仍在路上。
翻译组招募信息
工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。
你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。
其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。
点击文末“阅读原文”加入数据派团队~
转载须知
如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。
发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。
点击“阅读原文”拥抱组织
独家 | 这张骑马的宇航员图片是AI感知世界的一个里程碑(附链接)相关推荐
- 独家 | 利用AI进行高精度图像编辑︰EditGAN(附链接)
作者︰Nathan Horrocks 翻译︰Gabriel Ng 校对:张睿毅本文约3300字,建议阅读5分钟 本文为大家介绍了如何利用AI进行高精度图像编辑. 处理猫咪.汽车.甚至是古董画的照片,对 ...
- 独家 | Transformer的可视化理解——深入本质探索其优良表现的原因(附链接)...
作者:Ketan Doshi 翻译:欧阳锦校对:和中华本文约3800字,建议阅读10分钟本文通过可视化的方式清晰地展示了Transformer的工作本质,并从本质中探索了它具有优良表现的原因. 关键字 ...
- 独家 | 2020年22个广泛使用的数据科学与机器学习工具(附链接)
作者:RAM DEWANI 翻译:欧阳锦 校对:陈汉青 本文长度为4600字,建议阅读11分钟 本文为大家从两个方面--大数据和数据科学,介绍了本年度的22个被广泛使用的数据科学和机器学习工具.结合了 ...
- 独家 | 最新NLP架构的直观解释:多任务学习– ERNIE 2.0(附链接)
作者:Michael Ye 翻译:陈雨琳 校对:吴金笛 本文约1500字,建议阅读7分钟. 本文将介绍多任务学习. 科技巨头百度于今年早些时候发布了其最新的NLP架构ERNIE 2.0,在GLUE基准 ...
- 独家 | 图解BiDAF中的单词嵌入、字符嵌入和上下文嵌入(附链接)
作者:Meraldo Antonio 翻译:张玲 校对:吴金笛 本文约5200字,建议阅读15分钟. 本文重点讲解机器问答任务中常见机器学习模型BiDAF是如何利用单词.字符和上下文3种嵌入机制将单词 ...
- 独家 | 别用csv存储了-这种文件格式比csv快150倍(附链接)
作者: Dario Radečić 翻译:王可汗 校对:张达敏本文约1200字,建议阅读5分钟本文介绍了一种运行速度大大提高的数据格式. csv会浪费您的时间.磁盘空间和金钱.是时候结束了. csv并 ...
- 独家 | 准确度VS速度——数据科学家能从搜索中学到什么?(附链接)
作者:Radu Miclaus,Lucidworks人工智能产品总监 翻译:陈 丹 校对:吴金笛 本文长度约为2600字,建议阅读5分钟 本文作者从搜索的角度告诉我们抉择准确度和速度的重要性,以及 ...
- 360金融首席科学家张家兴:只靠AI Lab做不好AI中台 | 独家专访
「AI 技术生态论」 人物访谈栏目是 CSDN 发起的百万人学 AI 倡议下的重要组成部分.通过对 AI 生态顶级大咖.创业者.行业 KOL 的访谈,反映其对于行业的思考.未来趋势判断.技术实践,以及 ...
- 这是一张很有趣的图片, 通常女性会先看到月亮, 男性会先看到人脸. 如果相反, 表示你体内的异性荷尔蒙偏高哦!...
这是一张很有趣的图片, 通常女性会先看到月亮, 男性会先看到人脸. 如果相反, 表示你体内的异性荷尔蒙偏高哦! 四不像...
最新文章
- Spring MVC静态资源处理(转)
- 找出数组中未出现的最小正整数
- python中not加变量是_MyPython--基础篇--变量
- 【华为云技术分享】云小课 | 购买的数据盘在服务器看不到?磁盘初始化很重要!
- 从“专用”到“通用” 阿里平头哥野心何在?
- 计算机网络在实践中的应用,计算机网络技术在实践中的应用
- 使用jquery 动态操作添加/删除tr td
- Layui 数据表格table 重载reload 保留上次where条件的问题
- MATLAB eof用法,经验正交函数分析法(EOF)在matlab上的实现
- cesium加载天地图矢量地图设置为暗黑系风格地图【独门秘方】
- firefox主页被360篡改_IE浏览器主页被劫持,如何解决主页被篡改问题?
- Windbg命令学习1(vertarget和lm和lmvm)
- 华三防火墙添加web用户_h3c防火墙用户名密码怎么样设置
- Java双列集合之Map以及斗地主案列
- horovod 安装及使用
- CentOS 7 操作防火墙
- 1-fastfds 环境搭建
- Linux视窗系统:QT使用GPU渲染
- andt-pro:搭建一个ant-design-pro项目(模板)
- testbed笔记:基类或者成员对象的构造函数调用问题