来源|AI科技评论

作者|李梅、王玥

编辑|陈彩娴


文本生成图像模型界又出新手笔!

这次的主角是Google Brain推出的 Imagen,再一次突破人类想象力,将文本生成图像的逼真度和语言理解提高到了前所未有的新高度!比前段时间OpeAI家的DALL·E 2更强!

话不多说,我们来欣赏这位AI画师的杰作~

A brain riding a rocketship heading towards the moon.(一颗大脑乘着火箭飞向月球。)

A dragon fruit wearing karate belt in the snow.(在雪地里戴着空手道腰带的火龙果)

A  marble statue of a Koala DJ in front of a marble statue of a turntable. The Koala has wearing large marble headphones.(一只戴着巨大耳机的考拉DJ的大理石雕像站在一个大理石转盘前。)

An art gallery displaying Monet paintings. The art gallery is flooded. Robots are going around the art gallery using paddle boards.(陈列莫奈画作的美术馆被水淹没。机器人正在使用桨板在美术馆里划行。)

A giant cobra snake on a farm.The snake is made out of corn(农场里有一条巨大的玉米构成的眼镜蛇。)

Teddy bears swimming at the Olympics 400m Butterfly event.(泰迪熊在奥运会400米蝶泳项目中游泳。)

以及更多......

给出同样的文本提示,Imagen还可以生成不同类别的图像。比如下面这些图中,各组图片在物品的颜色、空间位置、材质等范畴上都不太相同。


Imagen的工作原理

论文地址:https://gweb-research-imagen.appspot.com/paper.pdf

Imagen的可视化流程

Imagen基于大型transformer语言模型在理解文本方面的能力和扩散模型在高保真图像生成方面的能力。

在用户输入文本要求后,如“一只戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬”,Imagen先是使用一个大的冻结(frozen)T5-XXL 编码器将这段输入文本编码为嵌入。然后条件扩散模型将文本嵌入映射到64×64的图像中。

Imagen进一步利用文本条件超分辨率扩散模型对64×64的图像进行升采样为256×256,再从256×256升到1024×1024。结果表明,带噪声调节增强的级联扩散模型在逐步生成高保真图像方面效果很好。

图注:输入“一只戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬”后Imagen的动作

图注:64 × 64生成图像的超分辨率变化。对于生成的64 × 64图像,将两种超分辨率模型分别置于不同的提示下,产生不同的上采样变化

大型预训练语言模型×级联扩散模型

Imagen使用在纯文本语料中进行预训练的通用大型语言模型(例如T5),它能够非常有效地将文本合成图像:在Imagen中增加语言模型的大小,而不是增加图像扩散模型的大小,可以大大地提高样本保真度和图像-文本对齐。

Imagen的研究突出体现在:

  • 大型预训练冻结文本编码器对于文本到图像的任务来说非常有效;

  • 缩放预训练的文本编码器大小比缩放扩散模型大小更重要;

  • 引入一种新的阈值扩散采样器,这种采样器可以使用非常大的无分类器指导权重;

  • 引入一种新的高效U-Net架构,这种架构具有更高的计算效率、更高的内存效率和更快的收敛速度;

  • Imagen在COCO数据集上获得了最先进的FID分数7.27,而没有对COCO进行任何训练,人类评分者发现,Imagen样本在图像-文本对齐方面与COCO数据本身不相上下。


引入新基准DrawBench

为了更深入地评估文本到图像模型,Google Brain 引入了DrawBench,这是一个全面的、具有挑战性的文本到图像模型基准。通过DrawBench,他们比较了Imagen与VQ-GAN+CLIP、Latent Diffusion Models和DALL-E 2等其他方法,发现人类评分者在比较中更喜欢Imagen而不是其他模型,无论是在样本质量上还是在图像-文本对齐方面。

  • 并排人类评估;

  • 对语意合成性、基数性、空间关系、长文本、生词和具有挑战性的提示几方面提出了系统化的考验;

  • 由于图像-文本对齐和图像保真度的优势,相对于其他方法,用户强烈倾向于使用Imagen。

图注:Imagen与DALL-E 2、GLIDE、VQ-GAN+CLIP和Latent Diffusion Models在DrawBench上的比较:用户对图像-文本对齐和图像逼真度的偏好率(95%置信区间)

Imagen与DALL-E 2 生成图像的比较示例 :

图注:“外星人绑架奶牛,将其吸入空中盘旋”(上);“一个被猫绊倒的希腊男性的雕塑”(下)

对于涉及颜色的文本提示,Imagen生成的图像也比DALL-E 2更优。DALL-E 2通常很难为目标图像分配正确的颜色,尤其是当文本提示中包含多个对象的颜色提示时,DALL-E 2会容易将其混淆。

图注:Imagen和DALL-E 2从颜色类文本生成图像的比较。“一本黄色书籍和一个红花瓶”(上);“一个黑色苹果和一个绿色双肩包”(下)

而在带引号文本的提示方面,Imagen生成图像的能力也明显优于DALL-E 2。

图注:Imagen 和 DALL-E 2 从带引号文本生成图像的比较。“纽约天际线,天上有烟花写成的“Hello World”字样”(上);“一间写着Time to Image的店面”(下)


打开了潘多拉魔盒?

像Imagen这样从文本生成图像的研究面临着一系列伦理挑战。

首先,文本-图像模型的下游应用多种多样,可能会从多方面对社会造成影响。Imagen以及一切从文本生成图像的系统都有可能被误用的潜在风险,因此社会要求开发方提供负责任的开源代码和演示。基于以上原因,Google决定暂时不发布代码或进行公开演示。而在未来的工作中,Google将探索一个负责任的外部化框架,从而将各类潜在风险最小化。

其次,文本到图像模型对数据的要求导致研究人员严重依赖于大型的、大部分未经整理的、网络抓取的数据集。虽然近年来这种方法使算法快速进步,但这种性质的数据集往往会夹带社会刻板印象、压迫性观点、对边缘群体有所贬损等“有毒”信息。

为了去除噪音和不良内容(如色情图像和“有毒”言论),Google对训练数据的子集进行了过滤,同时Google还使用了众所周知的LAION-400M数据集进行过滤对比,该数据集包含网络上常见的不当内容,包括色情图像、种族主义攻击言论和负面社会刻板印象。Imagen依赖于在未经策划的网络规模数据上训练的文本编码器,因此继承了大型语言模型的社会偏见和局限性。这说明Imagen可能存在负面刻板印象和其他局限性,因此Google决定,在没有进一步安全措施的情况下,不会将Imagen发布给公众使用。

参考链接:https://gweb-research-imagen.appspot.com/


欢迎加入Imagination GPU与人工智能交流2群

入群请加小编微信:eetrend89

(添加请备注公司名和职称)

Imagination Technologies 是一家总部位于英国的公司,致力于研发芯片和软件知识产权(IP),基于Imagination IP的产品已在全球数十亿人的电话、汽车、家庭和工作场所中使用。获取更多物联网、智能穿戴、通信、汽车电子、图形图像开发等前沿技术信息,欢迎关注 Imagination Tech!

超逼真AI设计师,谷歌大脑推出新的文本生成图像模型Imagen相关推荐

  1. AI艺术的背后:详解文本生成图像模型【基于 Diffusion Model】

    系列文章链接: AI艺术的背后:详解文本生成图像模型[基于 VQ-VAE] AI艺术的背后:详解文本生成图像模型[基于GAN] AI艺术的背后:详解文本生成图像模型[基于Diffusion Model ...

  2. AI艺术的背后:详解文本生成图像模型【基于GAN】

    系列文章链接: AI艺术的背后:详解文本生成图像模型[基于 VQ-VAE] AI艺术的背后:详解文本生成图像模型[基于GAN] AI艺术的背后:详解文本生成图像模型[基于Diffusion Model ...

  3. AI艺术的背后:详解文本生成图像模型【基于 VQ-VAE】

    系列文章链接: AI艺术的背后:详解文本生成图像模型[基于 VQ-VAE] AI艺术的背后:详解文本生成图像模型[基于GAN] AI艺术的背后:详解文本生成图像模型[基于Diffusion Model ...

  4. 缩小规模,OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E

    视学算法报道 编辑:陈萍.小舟 模型的参数规模并不需要那么大. 从年初 OpenAI 刷屏社区的 DALL-E 到英伟达生成逼真摄影的 GauGAN2,文本生成图像可谓是今年大火的一个研究方向.现在 ...

  5. Text to image论文精读PDF-GAN:文本生成图像新度量指标SSD Semantic Similarity Distance

    SSD,全称为Semantic Similarity Distance,是一种基于CLIP的新度量方式,是西交利物浦大学学者提出的一种新的文本生成图像度量指标,受益于所提出的度量,作者进一步设计了并行 ...

  6. 谷歌大脑团队新尝试 用奇异向量典型相关分析解释深度神经网络

    来源:ATYUN AI平台 深度神经网络(DNNs)在视觉.语言理解和语音识别等领域取得了前所未有的进展.但这些成功也带来了新的挑战.与许多以前的机器学习方法不同的是,深度神经网络可以很容易地在分类中 ...

  7. 重磅!2022年剑桥AI全景报告出炉,文本生成图像掀起新风暴!

    作者 | Nathan Benaich.Ian Hogarth 编译 | 杨阳 出品 | AI科技大本营(ID:rgznai100) 日前,2022年<State of AI Report> ...

  8. 引燃AI社区,不用跨界也能从文本生成图像,OpenAI新模型打破自然语言与视觉次元壁...

    视学算法报道 作者:魔王.杜伟.蛋酱 艺术创作的事,以后人类只要动手打几个字,其他的交给 AI 就行了. 自然语言与视觉的次元壁正在被打破.这不,OpenAI 最近连发大招,提出两个连接文本与图像的神 ...

  9. 快让想象力跟上AI的发展!Meta AI 推出文本生成视频模型 #Make-A-Video

    AI 已经能让 "一句话" 诞生出巨大的生产力了. # 文本-图像.文本-3D模型.文本-视频...... Meta AI 发布了文本生成视频模型 Make-A-Video # 未 ...

  10. 别说了,有画面了!Google文本生成图像取得新SOTA,CVPR2021已接收

    来源:新智元 [导读]从图像到生成文本.从文本生成图像,多模态模型的探索一直未停止.最近Google又出从文本到图像的新模型,75%的人类都说超过了传统的SOTA模型,直呼脑子里有画面了! 文本到图像 ...

最新文章

  1. 大学期间可以获得哪些荣誉_大学期间没有什么荣誉经历,该怎么写简历呢?找工作会很难吗?...
  2. lwip 开发 sntp 与 tcp 不能同时工作的奇怪问题
  3. Django-启动文件的制作
  4. HTML5新的解析顺序,HTML5新表单新功能解析
  5. 加一条平行于y轴的直线_为什么龙门式桁架机器人采用V型导向滚轮直线导轨
  6. JavaScript学习笔记(3)——JavaScript与HTML的组合方式
  7. IIS架设FTP服务器图文教程
  8. java object转泛型_Java 反射:框架设计的灵魂
  9. webservice接口开发学习笔记(一)
  10. 基于linux的嵌入式触摸屏,基于嵌入式linux的触摸屏驱动设计
  11. CodeForces 597 A. Divisibility(坑,满满的都是坑)
  12. tf.roll:tensorflow 中对多维Tensor移位
  13. JXTA技术与应用发展
  14. 数字化原住民|ONES 人物
  15. Linux命令之在终端显示「一头牛」
  16. 51nod 1422 沙拉酱前缀
  17. 前端构建工具(理解+使用)
  18. python抖音表白软件_Python实现爆火抖音的弹窗表白软件
  19. 怎么样 在 Linux 命令行中生成密码
  20. 职场必杀技之思辨能力

热门文章

  1. Python分词及词性划分
  2. 使用OpManager监控AIX
  3. 接口压力测试工具JMeter
  4. NRF52840 USB串口例程
  5. 安卓html 750px,移动端750px页面适配
  6. MySQL 定时备份数据
  7. ESP8266与ESP8285开发时有什么区别
  8. 配置交叉编译工具链和环境变量
  9. 高德行政区划地图,区域划线,行政区划浏览
  10. Javaweb实现在线预览word文件