我跪了！OpenAI发布DALL·E 2！AI化身「现实主义画师」，有详细论文！

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

作者 | Ailleurs、钱磊

转载自：AI科技评论 | 编辑：陈彩娴

大家还记得去年 1 月 OpenAI 发布的 120 亿参数魔法模型 DALL·E 吗？

当时，DALL·E 的画风是这样的：

只要「阅读」文本，DALL·E 就能根据文本的内容「自动」生成栩栩如生的大师级画像。因此，当时一经发布，DALL·E 就火遍了 AI 圈，吸粉无数，也让 Language-Vision（文本-视觉）方向又火了一把。

就在今天！时隔一年后，OpenAI 结合 CLIP，又发布了 DALL·E 的第二个版本——DALL·E 2.0！

相比 DALL·E 1.0，DALL·E 2.0 可以生成更真实和更准确的画像：综合文本描述中给出的概念、属性与风格等三个元素，生成「现实主义」图像与艺术作品！分辨率更是提高了4倍！

比如，当提示文本中分别包含「概念」“An astronaut ”（一个宇航员）、「属性」“riding a horse”（在骑一匹马）和「风格」“in a phtprealistic style”（超现实风格）时：

文本提示：An astronaut + riding a horse + in a phtprealistic style（一个宇航员+骑马+超现实风格）

DALL·E 2可以生成如下这些同时包含三种元素的图像：

在满足三种给定元素的基础上，它可是充分发挥了自己的「想象力」，不仅马的姿态各不相同，而且给宇航员穿上了样式各异的服装，场景也是十分丰富，草地上、山顶上、星空中......

神不神奇！牛不牛！

让我们来欣赏 DALL·2.0 的大师作品！

如果你想要变换文本中概念、属性和风格三个元素中的一个或多个，比如保留「概念」“一个宇航员”和「属性」“在骑一匹马”，而将超现实主义风格替换为波普艺术家安迪·沃霍尔的风格，DALL·E 2也可以「轻松」转换它的绘画风格：

文本提示：An astronaut + riding a horse + in the style of Andy Warhol （一个宇航员+在骑一匹马+安迪·沃霍尔的风格）

DALL·E 2生成的图像：

文本提示：An astronaut + riding a horse + as a pencil drawing（一个宇航员+在骑一匹马+铅绘风格）

DALL·E 2生成的图像：

文本提示：An astronaut + lounging in a tropical resort in space + in a vaporwave style（一个宇航员+在太空热带度假胜悠哉地躺着+蒸汽波风格）

DALL·E 2生成的图像：

文本提示：Teddy bears + mixing sparkling chemicals as mad scientists + as a 1990s Saturday morning cartoon（泰迪熊们+正在像疯狂的科学家一样混合着冒泡的化学物质+20世纪90年代的周六早间卡通片风格）

DALL·E 2生成的图像：

文本提示：Teddy bears+shopping for groceries+in the style of ukiyo-e（泰迪熊+购买杂货+浮世绘风格）

DALL·E 2生成的图像：

文本提示：Teddy bears+shopping for groceries+in ancient Egypt（泰迪熊+购买杂货+古埃及风格）

DALL·E 2生成的图像：

文本提示：A bowl of soup+that is a portal to another dimension+as digital art（一碗汤+通往另一个维度的门户+数字艺术风格）

DALL·E 2生成的图像：

文本提示：A bowl of soup+as a planet in the universe+as a 1960s poster（一碗汤+宇宙中的一个星球+1960年代海报风格）

DALL·E 2生成的图像：

文本提示：A bowl of soup+as a planet in the universe+as digital art（一碗汤+宇宙中的一个星球+数字艺术风格）

DALL·E 2生成的图像：

DALL·E 2.0 的其他功能

1、图像编辑

DALL·E 2 可以根据自然语言描述的标题对现有图像进行逼真的编辑，比如，在考虑阴影、反射和纹理的同时增加或删除图中的某个元素。示例如下：

文本描述的编辑需求：选择一个位置在图中添加火烈鸟。

原图 vs. DALL·E 2编辑后的图像：

文本描述的编辑需求：选择一个位置在图中添加柯基。

原图 vs. DALL·E 2编辑后的图像：

2、风格变体

DALL·E 2 可以拍摄一张图片，然后根据原图制作出同一个风格的不同画像。示例如下：

原图 1：

DALL·E 2 创造的同一风格图像：

原图 2：

DALL·E 2 创造的同一风格图像：

原图 3：

DALL·E 2 创造的同一风格图像：

原图 4：

DALL·E 2 创造的同一风格图像：

对于AI从文本生成的图像，我们非常看重的一点当然是图像的分辨率了，图像的分辨率越高，像素数量就越多，图像也就越清晰和逼真。与DALL·E 1相比，DALL·E 2的分辨率提高了4倍！

比如，对于同样的文本提示：

文本提示：a painting of a fox sitting in a field at sunrise in the style of Claude Monet（一只狐狸坐在日出时的田野里+克劳德·莫奈风格）

下面两张图分别是DALL·E 1 和DALL·E 2所生成图像的对比：

对比之下，DALL·E 1 生成的图像可以说是很模糊了，甚至根本看不出「日出」在哪里，「狐狸」只显露出它的头部，「田野」也不太有田野的样子，而且在整体风格上与画家莫奈的印象派风格相去甚远。

而在DALL·E 2的魔法手笔下，图像质量显著提高，「日出」和「田野」都很生动，小狐狸端坐在草地上，姿态可爱。这幅画作色彩更加丰富，使用了更多的复色，对光影的描绘更加接近莫奈的风格。

总体来说，相比 DALL·E 1.0，DALL·2 显然能 hold 住元素更丰富、色彩更饱满的图像。不再是简单的单一物品描述，而是对一个场景的整体表达，故事更完整，想象力也更丰富！

更详细的内容，可以查看 DALL·E 2 的相关研究论文：

论文地址：https://cdn.openai.com/papers/dall-e-2.pdf

收下我的膝盖……

参考链接：https://openai.com/dall-e-2/

ICCV和CVPR 2021论文和代码下载

后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集

后台回复：ICCV2021，即可下载ICCV 2021论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码，或者添加微信：CVer6666，即可添加CVer小助手微信，便可申请加入CVer-Transformer或者目标检测 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注：研究方向+地点+学校/公司+昵称（如Transformer或者目标检测+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群▲扫码或加微信: CVer6666，进交流群
CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！▲扫码进群
▲点击上方卡片，关注CVer公众号整理不易，请点赞和在看

我跪了！OpenAI发布DALL·E 2！AI化身「现实主义画师」，有详细论文！相关推荐

我跪了！OpenAI 发布 DALL·E 2，AI 化身「现实主义画师」，有详细论文
作者 | Ailleurs.钱磊,本文转自AI科技评论大家还记得去年 1 月 OpenAI 发布的 120 亿参数魔法模型 DALL·E 吗?当时,DALL·E 的画风是这样的: 只要「阅读」文本, ...
腾讯AI Lab「云深」与成都先导合作「AI+药物」，发布骨架跃迁新算法
感谢阅读腾讯AI Lab微信号第131篇文章.本文将介绍腾讯AI Lab「云深」联合成都先导发布骨架跃迁新算法,实验合成7个有效化合物. 腾讯AI Lab「云深」平台在药物发现 AI 算法研究领域取得 ...
2020 Kaggle年度报告发布：美国公司最容易「人均百万」，90%数据科学家坚持终生学习...
来源:机器之心本文约2000字,建议阅读5分钟近日,Kaggle 正式发布了 2020 年度报告,总共调查了 2 万多名开发者,但美国实体清单上的个人 / 实体代表除外. Kaggle 是重要的数 ...
OpenAI发布通用人工智能路线图：AGI比想象中来得更快
来源:机器之心本文约2600字,建议阅读5分钟通用人工智能的出现可能只是技术发展历程中的一个小节点,因为 AGI 或许可以加速自身的进步,从而以指数方式扩展能力. 在 ChatGPT 引爆科技圈之 ...
鸿蒙手机发布失败,华为：没有推出鸿蒙手机计划，「自拍」会让人觉得你孤独和失败...
大家好,今天是 8 月 23 日,科技圈未雨绸缪.先计后战的一天.以下是今天的科技大新闻,听听有什么新鲜大事吧. 华为:没有推出鸿蒙手机的计划外媒的报道,华为虽然大力宣传 Harmony OS 的强 ...
智源社区AI周刊No.99：OpenAI发布接近人类水平的语音识别系统Whisper；马毅：智能的计算和科学研究将融合...
汇聚每周AI观点.研究和各类资源,不错过真知灼见和重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 编辑精选 1. UC伯克利马毅:智能的计算和科学研究将能够很快融合查看详情近日,智源社区举行&q ...
独家 | OpenAI的DALL·E模型使人类更接近通用人工智能（附链接）
作者:Orhan G. Yalçın 翻译:欧阳锦校对:詹好本文约2300字,建议阅读6分钟本文通过对OpenAI新发表的关于基于GPT-3的DALL·E新模型的概括介绍,让读者对这个表现惊人的 ...
比 GPT-3 更擅长理解用户意图，OpenAI发布 InstructGPT
作者 | 青苹果来源 | 数据实战派近日,OpenAI 发布了一项令人瞩目的研究-- InstructGPT. 在这项研究中,相比 GPT-3 而言,OpenAI 采用对齐研究(alignment ...
OpenAI发布最新「模拟机器人环境」,用「真实机器人」模型进行训练
图:pixabay 本文转自雷克世界(ID:raicworld) 作者|MACIEK CHOCIEJ.PETER WELINDER等「雷克世界」编译:嗯~阿童木呀最近,我们发布了8个模拟机器人环境 ...

我跪了！OpenAI发布DALL·E 2！AI化身「现实主义画师」，有详细论文！

我跪了！OpenAI发布DALL·E 2！AI化身「现实主义画师」，有详细论文！相关推荐

最新文章

热门文章