杨净 箫萧 发自 凹非寺
量子位 报道 | 公众号 QbitAI

2021年一开始,OpenAI在GPT-3方向上的又一重要突破,让吴恩达等大佬激动了。

之前给GPT-3一段话,就能写出一段小说。

现在它成功跨界——可以按照文字描述、生成对应图片!

简直就是“甲方克星、乙方福音”,提需求爱描述的甲方老板,现在直接哔哔就能立竿见影得到效果图。

比如你输入“OpenAI公司门面”,它就能给出设计图:

这个新的AI,叫做DALL·E(Dali + Wall-E)。

除了生成现实中的图片外,DALL·E还能按要求设计出“一颗白菜穿着芭蕾舞裙在遛狗”,妥妥的漫画风。

从“五边形闹钟”到“牛油果形状的座椅”,只要你的想象力够丰富,DALL·E全都能画出来。

技术上更厉害的是,OpenAI透露这个AI是基于GPT-3而构建,仅使用了120亿个参数样本,相当于GPT-3参数量的十四分之一

于是效果一出,吴恩达、Keras之父等纷纷转发、点赞。堪称2021年第一个令人兴奋的AI技术突破。

看吴恩达老师pick的这个demo效果,以后是想直接描述生成自己想要的工装?

“图像版”GPT-3,还自带排名

生成这些优秀作品的,是一个名为DALL·E的结构。

DALL·E的名字,来源于大艺术家达利(Dalí)和皮克斯动画《机器人总动员》中的主角“瓦力”(WALL·E)。

本质上,它就是一个被重新训练过的“120亿参数版”GPT-3,能根据一段文字描述,生成对应的图像。

为了让DALL·E能“识字画图”,研究者们用包含各种“文本-图像”组合的数据集,来训练DALL·E。

这其中,DALL·E以单数据流的形式,一次性接收1280个字符(token),其中256个字符分配给文字,其余的1024个则分配给图像。

DALL·E将对这些输入信息进行建模,利用自注意力层的注意力遮罩,确保每一个输入的图像字符,都与所有输入的文字字符关联。

然后DALL·E将根据文本,通过最大似然估计,逐个字符生成图像。它不仅能从文字中,生成一整幅草图,还能重新生成图像中的任何一块矩形区域。

这就完了?

当然没有,我们最终看到的作品,其实只是DALL·E创作的一部分,即“优秀作品选”

也就是说,还需要一个网络CLIP,来对它生成的这些作品进行排名、打分。

越是CLIP看得懂、匹配度最高的作品,分数就会越高,排名也会越靠前。

这种结构,有点像是利用生成对抗文本,以合成图像的GAN。不过,相比于利用GAN扩大图像分辨率、匹配图像-文本特征等方法,CLIP则选择了直接对输出进行排名。

据研究人员表示,CLIP网络的最大意义在于,它缓解了深度学习在视觉任务中,最大的两个问题。

首先,它降低了深度学习需要的数据标注量。相比于手动在ImageNet上,用文字描述1400万张图像,CLIP直接从网上已有的“文字描述图像”数据中进行学习。

此外,CLIP还能“身兼多职”,在各种数据集上的表现都很好(包括没见过的数据集)。但此前的大部分视觉神经网络,只能在训练的数据集上有不错的表现。

例如,CLIP与ResNet101相比,在各项数据集上都有不错的检测精度,然而ResNet101在除了ImageNet以外的检测精度上,表现都不太好。

具体来说,CLIP用到了零样本学习(zero-shot learning)、自然语言理解和多模态学习等技术,来完成图像的理解。

例如,描述一只斑马,可以用“马的轮廓+虎的皮毛+熊猫的黑白”。这样,网络就能从没见过的数据中,找出“斑马”的图像。

最后,CLIP将文本和图像理解结合起来,预测哪些图像,与数据集中的哪些文本能完成最好的配对。

此次生成的Demo图像,正是从512个样本中,用CLIP选出的前32个样本。研究人员强调,整个过程他们全程没有参与

有哪些初步效果?

此次上线的Demo,大致分成这几类效果。

控制变量,修改物体的属性(数量、颜色)。

甚至,还可以加上个年代属性。输入文字:电话。

那这个电话放在未来呢?竟然会是这个亚子。

同时控制多个对象。比如,戴红色帽子,黄色手套,蓝色衬衫和绿色裤子的企鹅。

说实话,要换成是我,我一个也画不出来。(手动裂开)

推断细节。正如上文举的例子,“沐浴在朝阳中的田间水豚”。

单从文字上看,还有很多细节需要考究:水豚位置,阴影有无,绘画风格。但这些,似乎都没有难倒DALL·E

大佬们纷纷给出好评

对于OpenAI这个新鲜出炉的DALL·E,大佬们也纷纷发表了自己的看法。

Keras创始人@François Chollet表示,这看起来非常酷,尤其是“图像生成”部分。

从原理上来看,应该就是GPT-3在文本合成图像方向上的扩展版。

OpenAI的CTO Greg Brockman在转发DALL·E后,更是立刻获得了1.4k的赞。

英伟达的机器学习专家Ming-Yu Liu,也送上了自己的祝福。

他表示,这样的模型在文本转图像的能力上,简直超乎想象。

当然,也有对这种方法的限制感到困惑的学者。

来自哈佛的助理教授Tomer Ullman,在对DALL·E的能力表示惊叹时,也提出了对于模型泛化能力限制的疑惑。

他认为,如果能生成“绿方块上的红方块”,模型理应也能生成“蓝方块上的绿方块上的红方块”?

希望这样的模型,能在提升泛化等能力后,真正被用来减轻设计师们的负担。

当然,如果再开一开脑洞的话,应用前景可能不止于减轻负担。

如果效果足够好,还要什么乙方设计师?

以及像动画、影视等领域,是不是未来剧本一放,AI就能给你出成果了?

参考链接:
https://openai.com/blog/dall-e/
https://openai.com/blog/clip/
https://twitter.com/fchollet/status/1346558591835070464
https://twitter.com/gdb/status/1346554999241809920
https://twitter.com/liu_mingyu/status/1346573218270724097
https://twitter.com/TomerUllman/status/1346556192907255808

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

加入AI社群,与优秀的人同行

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

吴恩达新年公开推荐这个设计师,上千人点赞相关推荐

  1. 突发!吴恩达确诊新冠,46岁生日还有不到3个月

    编辑:好困 袁榭 [新智元导读]当代人工智能领域最权威的学者之一吴恩达,于2022年2月8日晨在自己推特上宣布新冠检测结果阳性,不过症状轻微. 北京时间,2022年2月8日早上6点,吴恩达新冠病毒检测 ...

  2. 吴恩达,确诊新冠阳性!

    编 | 好困 袁榭 源 | 新智元 [导读]当代人工智能领域最权威的学者之一吴恩达,于2022年2月8日晨在自己推特上宣布新冠检测结果阳性,不过症状轻微. 北京时间,2022年2月8日早上6点,吴恩达 ...

  3. 吴恩达,确诊新冠阳性

    点击"开发者技术前线",选择"星标"让一部分开发者看到未来 转载自:新智元  |  编辑:好困 袁榭 [导读]当代人工智能领域最权威的学者之一吴恩达,于2022 ...

  4. 吴恩达,45岁生日快乐!提出著名二八定律:80%数据+20%模型=更好的AI

    吴恩达发推称,「大家为自己送上最好的礼物就是,观看这个视频观看并提出自己的见解.让大家的工作从以模型为中心向以数据为中心的AI转变.」 在这个视频中,吴恩达提出了著名二八定律:80%的数据+20%的模 ...

  5. 吴恩达:机器学习应以数据为中心

    源 | 新智元 今天是吴恩达45岁生日.他是国际最权威的ML学者之一,学生遍布世界各地.在最近的一期线上课程中,吴恩达提出了以模型为中心向以数据为中心的AI. 吴恩达发推称,「大家为自己送上最好的礼物 ...

  6. 吴恩达卷积神经网络 笔记,吴恩达 深度神经网络

    如何评价吴恩达的学术地位 吴恩达(AndrewNg),斯坦福计算机系的副教授,师从机器学习的大师级人物MichaelI.Jordan. 同门师兄弟包括ZoubinGhahramani,TommiJaa ...

  7. 吴恩达卷积神经网络笔记,吴恩达人工智能公开课

    吴恩达是个谁 吴恩达(1976-,英文名:AndrewNg),华裔美国人,是斯坦福大学计算机科学系和电子工程系副教授,人工智能实验室主任.吴恩达是人工智能和机器学习领域国际上最权威的学者之一. 吴恩达 ...

  8. 神经网络 卷积神经网络,卷积神经网络 吴恩达

    吴恩达的人物经历 吴恩达1976年出生于伦敦,父亲是一位香港医生,英文名叫AndrewNg,吴恩达年轻时候在香港和新加坡度过. 1992年吴恩达就读新加坡莱佛士书院,并于1997年获得了卡内基梅隆大学 ...

  9. 吴恩达机器学习入门 2018 高清视频公开,还有习题解答和课程拓展,网友:找不到理由不学!...

    贾浩楠 发自 凹非寺 量子位 报道 | 公众号 QbitAI 机器学习入门课程哪家最强? 斯坦福吴恩达的CS229称第二,恐怕没人敢称第一. 最近,吴恩达在斯坦福的最新CS229 2018课程,已经完 ...

最新文章

  1. 给SAP系统安装联机帮助(事务码SR13)
  2. 早停 tf.keras.callbacks.EarlyStopping() 详解【TensorFlow2入门手册】
  3. css 样式三元运算_CSS扩展语言——Sass入门指南
  4. Linux网络编程 -- socketpair的使用
  5. 【C】C语言结构体指针的语法
  6. 算法题目——二次函数三分求极值(HDU-3714)
  7. python读取栅格gdal库下载链接
  8. python中赋值运算符有哪些_Python代码中有哪些赋值运算符呢?
  9. hibernate mysql longblob_为什么不能将JPA / hibernate映射到MySQL blob类型?
  10. 95 后程序员一出校门就拿年薪 30多万?
  11. QT修改应用程序图标
  12. CMMI3过程改进项目计划
  13. fio: engine libaio not loadable
  14. java 串口 rxtx_java使用RXTX进行串口通信
  15. 苹果电脑(Mac)如何进行大小写和中英文的切换
  16. 【Day2.2】海边行宫忘忧宫——“爱与希望”之宫
  17. 肠道微生物群在冠心病中的作用
  18. 0.96寸OLED的使用
  19. 详解电容触控芯片与指纹芯片的研发与生产流程
  20. ESP32入门-NVS的flash读写测试

热门文章

  1. LeetCode集锦(八) - 第26题 Remove Duplicates From Sorted Array
  2. 源码编译 busybox
  3. 即将开源 | 2亿用户背后的Flutter应用框架Fish Redux
  4. java面向对象第一章
  5. RocketMQ与Kafka对比(18项差异)
  6. POJ 1364:King(差分约束)
  7. Matlab绘图函数一览
  8. 类风湿性关节炎患者腕关节的多普勒超声积分与OMERACT RAMRIS骨髓水肿和滑膜相关...
  9. portlet 与 servlet 的关系
  10. ios iphonex适配