点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

作者 | Ailleurs、钱磊

转载自:AI科技评论  | 编辑:陈彩娴

大家还记得去年 1 月 OpenAI 发布的 120 亿参数魔法模型 DALL·E 吗?

当时,DALL·E 的画风是这样的:

只要「阅读」文本,DALL·E 就能根据文本的内容「自动」生成栩栩如生的大师级画像。因此,当时一经发布,DALL·E 就火遍了 AI 圈,吸粉无数,也让 Language-Vision(文本-视觉)方向又火了一把。

就在今天!时隔一年后,OpenAI 结合 CLIP,又发布了 DALL·E 的第二个版本——DALL·E 2.0

相比 DALL·E 1.0,DALL·E 2.0 可以生成更真实和更准确的画像:综合文本描述中给出的概念、属性与风格等三个元素,生成「现实主义」图像与艺术作品!分辨率更是提高了4倍!

比如,当提示文本中分别包含「概念」“An astronaut ”(一个宇航员)、「属性」“riding a horse”(在骑一匹马)和「 风格」“in a phtprealistic style”(超现实风格)时:

文本提示:An astronaut + riding a horse + in a phtprealistic style(一个宇航员+骑马+超现实风格)

DALL·E 2可以生成如下这些同时包含三种元素的图像:

在满足三种给定元素的基础上,它可是充分发挥了自己的「想象力」,不仅马的姿态各不相同,而且给宇航员穿上了样式各异的服装,场景也是十分丰富,草地上、山顶上、星空中......

神不神奇!牛不牛!

1

让我们来欣赏 DALL·2.0 的大师作品!

如果你想要变换文本中概念、属性和风格三个元素中的一个或多个,比如保留「概念」“一个宇航员”和「属性」“在骑一匹马”,而将超现实主义风格替换为波普艺术家安迪·沃霍尔的风格,DALL·E 2也可以「轻松」转换它的绘画风格:

文本提示:An astronaut + riding a horse + in the style of Andy Warhol (一个宇航员+在骑一匹马+安迪·沃霍尔的风格)

DALL·E 2生成的图像:

文本提示:An astronaut + riding a horse + as a pencil drawing(一个宇航员+在骑一匹马+铅绘风格)

DALL·E 2生成的图像:

文本提示:An astronaut + lounging in a tropical resort in space + in a vaporwave style( 一个宇航员+在太空热带度假胜悠哉地躺着+蒸汽波风格)

DALL·E 2生成的图像:

文本提示:Teddy bears + mixing sparkling chemicals as mad scientists +  as a 1990s Saturday morning cartoon(泰迪熊们+正在像疯狂的科学家一样混合着冒泡的化学物质+20世纪90年代的周六早间卡通片风格)

DALL·E 2生成的图像:

文本提示:Teddy bears+shopping for groceries+in the style of ukiyo-e(泰迪熊+购买杂货+浮世绘风格)

DALL·E 2生成的图像:

文本提示:Teddy bears+shopping for groceries+in ancient Egypt(泰迪熊+购买杂货+古埃及风格)

DALL·E 2生成的图像:

文本提示:A bowl of soup+that is a portal to another dimension+as digital art(一碗汤+通往另一个维度的门户+数字艺术风格)

DALL·E 2生成的图像:

文本提示:A bowl of soup+as a planet in the universe+as a 1960s poster(一碗汤+宇宙中的一个星球+1960年代海报风格)

DALL·E 2生成的图像:

文本提示:A bowl of soup+as a planet in the universe+as digital art(一碗汤+宇宙中的一个星球+数字艺术风格)

DALL·E 2生成的图像:

2

DALL·E 2.0 的其他功能

1、图像编辑

DALL·E 2 可以根据自然语言描述的标题对现有图像进行逼真的编辑,比如,在考虑阴影、反射和纹理的同时增加或删除图中的某个元素。示例如下:

文本描述的编辑需求:选择一个位置在图中添加火烈鸟。

原图 vs. DALL·E 2编辑后的图像:

文本描述的编辑需求:选择一个位置在图中添加柯基。

原图 vs. DALL·E 2编辑后的图像:

2、风格变体

DALL·E 2 可以拍摄一张图片,然后根据原图制作出同一个风格的不同画像。示例如下:

原图 1:

DALL·E 2 创造的同一风格图像:

原图 2:

DALL·E 2 创造的同一风格图像:

原图 3:

DALL·E 2 创造的同一风格图像:

原图 4:

DALL·E 2 创造的同一风格图像:

对于AI从文本生成的图像,我们非常看重的一点当然是图像的分辨率了,图像的分辨率越高,像素数量就越多,图像也就越清晰和逼真。与DALL·E 1相比,DALL·E 2的分辨率提高了4倍!

比如,对于同样的文本提示:

文本提示:a painting of a fox sitting in a field at sunrise in the style of Claude Monet(一只狐狸坐在日出时的田野里+克劳德·莫奈风格)

下面两张图分别是DALL·E 1 和DALL·E 2所生成图像的对比:

对比之下,DALL·E 1 生成的图像可以说是很模糊了,甚至根本看不出「日出」在哪里,「狐狸」只显露出它的头部,「田野」也不太有田野的样子,而且在整体风格上与画家莫奈的印象派风格相去甚远。

而在DALL·E 2的魔法手笔下,图像质量显著提高,「日出」和「田野」都很生动,小狐狸端坐在草地上,姿态可爱。这幅画作色彩更加丰富,使用了更多的复色,对光影的描绘更加接近莫奈的风格。

总体来说,相比 DALL·E 1.0,DALL·2 显然能 hold 住元素更丰富、色彩更饱满的图像。不再是简单的单一物品描述,而是对一个场景的整体表达,故事更完整,想象力也更丰富!

更详细的内容,可以查看 DALL·E 2 的相关研究论文:

论文地址:https://cdn.openai.com/papers/dall-e-2.pdf

收下我的膝盖……

参考链接:https://openai.com/dall-e-2/

ICCV和CVPR 2021论文和代码下载

后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集

后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申请加入CVer-Transformer或者目标检测 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer或者目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信: CVer6666,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号整理不易,请点赞和在看

我跪了!OpenAI发布DALL·E 2!AI化身「现实主义画师」,有详细论文!相关推荐

  1. 我跪了!OpenAI 发布 DALL·E 2,AI 化身「现实主义画师」,有详细论文

    作者 | Ailleurs.钱磊,本文转自AI科技评论 大家还记得去年 1 月 OpenAI 发布的 120 亿参数魔法模型 DALL·E 吗?当时,DALL·E 的画风是这样的: 只要「阅读」文本, ...

  2. 腾讯AI Lab「云深」与成都先导合作「AI+药物」,发布骨架跃迁新算法

    感谢阅读腾讯AI Lab微信号第131篇文章.本文将介绍腾讯AI Lab「云深」联合成都先导发布骨架跃迁新算法,实验合成7个有效化合物. 腾讯AI Lab「云深」平台在药物发现 AI 算法研究领域取得 ...

  3. 2020 Kaggle年度报告发布:美国公司最容易「人均百万」,90%数据科学家坚持终生学习...

    来源:机器之心 本文约2000字,建议阅读5分钟 近日,Kaggle 正式发布了 2020 年度报告,总共调查了 2 万多名开发者,但美国实体清单上的个人 / 实体代表除外. Kaggle 是重要的数 ...

  4. OpenAI发布通用人工智能路线图:AGI比想象中来得更快

    来源:机器之心 本文约2600字,建议阅读5分钟 通用人工智能的出现可能只是技术发展历程中的一个小节点,因为 AGI 或许可以加速自身的进步,从而以指数方式扩展能力. 在 ChatGPT 引爆科技圈之 ...

  5. 鸿蒙手机发布失败,华为:没有推出鸿蒙手机计划,「自拍」会让人觉得你孤独和失败...

    大家好,今天是 8 月 23 日,科技圈未雨绸缪.先计后战的一天.以下是今天的科技大新闻,听听有什么新鲜大事吧. 华为:没有推出鸿蒙手机的计划 外媒的报道,华为虽然大力宣传 Harmony OS 的强 ...

  6. 智源社区AI周刊No.99:OpenAI发布接近人类水平的语音识别系统Whisper;马毅:智能的计算和科学研究将融合...

    汇聚每周AI观点.研究和各类资源,不错过真知灼见和重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 编辑精选 1. UC伯克利马毅:智能的计算和科学研究将能够很快融合 查看详情 近日,智源社区举行&q ...

  7. 独家 | OpenAI的DALL·E模型使人类更接近通用人工智能(附链接)

    作者:Orhan G. Yalçın 翻译:欧阳锦 校对:詹好 本文约2300字,建议阅读6分钟 本文通过对OpenAI新发表的关于基于GPT-3的DALL·E新模型的概括介绍,让读者对这个表现惊人的 ...

  8. 比 GPT-3 更擅长理解用户意图,OpenAI发布 InstructGPT

    作者 | 青苹果 来源 | 数据实战派 近日,OpenAI 发布了一项令人瞩目的研究-- InstructGPT. 在这项研究中,相比 GPT-3 而言,OpenAI 采用对齐研究(alignment ...

  9. OpenAI发布最新「模拟机器人环境」,用「真实机器人」模型进行训练

    图:pixabay 本文转自雷克世界(ID:raicworld) 作者|MACIEK CHOCIEJ.PETER WELINDER等 「雷克世界」编译:嗯~阿童木呀 最近,我们发布了8个模拟机器人环境 ...

最新文章

  1. 快速生成apk 自动发布到网站 便于测试
  2. SSG140 web、telnet、ssh无法访问,仅支持console
  3. Go 命令行参数,JSON 序列化与反序列化
  4. Uni-Java_Java全栈必备之Uni-App
  5. win7rc 序列号- 10/21之前
  6. 可应用于实际的14个NLP突破性研究成果(三)
  7. php weize_docs.html
  8. 2020 开春程序员面试必备!拿走不谢!
  9. Linux之date命
  10. 我的家庭私有云计划-19
  11. 报表如何集成 echarts 官网示例图
  12. python 移动平均函数_python – NumPy版本的“指数加权移动平均线...
  13. 学计算机穿格子衬衫的男人,教你成为穿格子衬衫的帅气理工男
  14. 移动硬盘数据丢失如何恢复
  15. JavaScript自写逻辑思维导图(非常详细)
  16. 苹果设置显示连接到服务器,iPhone升级更新至iOS9后显示连接到iCloud服务器错误现象的解决办法...
  17. 雷电9模拟器安装抓包工具whistle证书
  18. 为什么说小米会是品牌2020年最重要的增长源?
  19. esp32语音控制_【动态】乐鑫发布 AI 语音麦克风阵列开发板 ESP32Korvo
  20. 场效应管AO3401

热门文章

  1. 运用matlab求身高质量指数BMI值
  2. 职业规划 思维导图
  3. Celery介绍--手机短信异步发送
  4. ArcGIS地理标记照片转点
  5. Arduino、AB相增量式光电编码器测位移和速度方向
  6. 计算机专业-世界大学学术排名,QS排名,U.S.NEWS排名
  7. 寿星万年历源代码(JAVA/VB NET)
  8. python将视频像素抓取替换导出mosaic效果的文本视频
  9. 快递鸟基于java功能打印电子面单api接口
  10. java web inf_JavaWeb - 访问 WEB-INF 资源几种方式