来源:机器之心

AI 可以完全按照甲方意愿修图?GPT-3、Stable Diffusion 一起助攻,让模型秒变 PS 高手,改图随心所欲。

扩散模型大火之后,很多人将注意力放到了如何利用更有效的 prompt 生成自己想要的图像。在对于一些 AI 作画模型的不断尝试中,人们甚至总结出了让 AI 好好出图的关键词经验:

也就是说,如果掌握了正确的 AI 话术,作图质量提升效果将非常明显(参见:《「羊驼打篮球」怎么画?有人花了 13 美元逼 DALL·E 2 亮出真本事 》)。

此外,还有一部分研究者在往另一个方向努力:如何动动嘴皮子就把一幅画改成我们想要的样子。

前段时间,我们报道了一项来自谷歌研究院等机构的研究。只要说出你想让一幅图变成什么样子,它就能基本满足你的要求,生成照片级的图像,例如让一只小狗坐下:

这里给模型的输入描述是「一只坐下的狗」,但是按照人们的日常交流习惯,最自然的描述应该是「让这只狗坐下」。有研究者认为这是一个应该优化的问题,模型应该更符合人类的语言习惯。

最近,来自 UC 伯克利的研究团队提出了一种根据人类指令编辑图像的新方法 InstructPix2Pix:给定输入图像和告诉模型要做什么的文本描述,模型就能遵循描述指令来编辑图像。

论文地址:https://arxiv.org/pdf/2211.09800.pdf

例如,要把画中的向日葵换成玫瑰,你只需要直接对模型说「把向日葵换成玫瑰」:

为了获得训练数据,该研究将两个大型预训练模型——语言模型 (GPT-3) 和文本到图像生成模型 (Stable Diffusion) 结合起来,生成图像编辑示例的大型成对训练数据集。研究者在这个大型数据集上训练了新模型 InstructPix2Pix,并在推理时泛化到真实图像和用户编写的指令上。

InstructPix2Pix 是一个条件扩散模型,给定一个输入图像和一个编辑图像的文本指令,它就能生成编辑后的图像。该模型直接在前向传播(forward pass)中执行图像编辑,不需要任何额外的示例图像、输入 / 输出图像的完整描述或每个示例的微调,因此该模型仅需几秒就能快速编辑图像。

尽管 InstructPix2Pix 完全是在合成示例(即 GPT-3 生成的文本描述和 Stable Diffusion 生成的图像)上进行训练的,但该模型实现了对任意真实图像和人类编写文本的零样本泛化。该模型支持直观的图像编辑,包括替换对象、更改图像风格等等。

方法概览

研究者将基于指令的图像编辑视为一个监督学习问题:首先,他们生成了一个包含文本编辑指令和编辑前后图像的成对训练数据集(图 2a-c),然后在这个生成的数据集上训练了一个图像编辑扩散模型(图 2d)。尽管训练时使用的是生成的图像和编辑指令,但模型仍然能够使用人工编写的任意指令来编辑真实的图像。下图 2 是方法概述。

生成一个多模态训练数据集

在数据集生成阶段,研究者结合了一个大型语言模型(GPT-3)和一个文本转图像模型(Stable Diffusion)的能力,生成了一个包含文本编辑指令和编辑前后对应图像的多模态训练数据集。这一过程包含以下步骤:

  • 微调 GPT-3 以生成文本编辑内容集合:给定一个描述图像的 prompt,生成一个描述要进行的更改的文本指令和一个描述更改后图像的 prompt(图 2a);

  • 使用文本转图像模型将两个文本 prompt(即编辑之前和编辑之后)转换为一对对应的图像(图 2b)。

InstructPix2Pix

研究者使用生成的训练数据来训练一个条件扩散模型,该模型基于 Stable Diffusion 模型,可以根据书面指令编辑图像。

扩散模型学习通过一系列估计数据分布分数(指向高密度数据的方向)的去噪自编码器来生成数据样本。Latent diffusion 通过在预训练的具有编码器和解码器的变分自编码器的潜空间中操作来提高扩散模型的效率和质量。

对于一个图像 x,扩散过程向编码的 latent  中添加噪声,它产生一个有噪声的 latent z_t,其中噪声水平随时间步 t∈T 而增加。研究者学习一个网络,它在给定图像调节 C_I 和文本指令调节 C_T 的情况下,预测添加到带噪 latent z_t 中的噪声。研究者将以下 latent 扩散目标最小化:

此前,曾有研究(Wang et al.)表明,对于图像翻译(image translation)任务,尤其是在成对训练数据有限的情况下,微调大型图像扩散模型优于从头训练。因此在新研究中,作者使用预训练的 Stable Diffusion checkpoint 初始化模型的权重,利用其强大的文本到图像生成能力。

为了支持图像调节,研究人员向第一个卷积层添加额外的输入通道,连接 z_t 和。扩散模型的所有可用权重都从预训练的 checkpoint 初始化,同时在新添加的输入通道上运行的权重被初始化为零。作者在这里重用最初用于 caption 的相同的文本调节机制,而没有将文本编辑指令 c_T 作为输入。

实验结果

在下面这些图中,作者展示了他们新模型的图像编辑结果。这些结果针对一组不同的真实照片和艺术品。新模型成功地执行了许多具有挑战性的编辑,包括替换对象、改变季节和天气、替换背景、修改材料属性、转换艺术媒介等等。

研究人员将新方法与最近的一些技术,如 SDEdit、Text2Live 等进行了比较。新模型遵循编辑图像的说明,而其他方法(包括基准方法)需要对图像或编辑层进行描述。因此在比较时,作者对后者提供「编辑后」的文本标注代替编辑说明。作者还把新方法和 SDEdit 进行定量比较,使用两个衡量图像一致性和编辑质量的指标。最后,作者展示了生成训练数据的大小和质量如何影响模型性能的消融结果。

推荐阅读

  • 西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》

  • 润了!大龄码农从北京到荷兰的躺平生活(文末有福利哟!)

  • 如何做好科研?这份《科研阅读、写作与报告》PPT,手把手教你做科研

  • 一位博士在华为的22年

  • 奖金675万!3位科学家,斩获“中国诺贝尔奖”!

  • 又一名视觉大牛从大厂离开!阿里达摩院 XR 实验室负责人谭平离职

  • 最新 2022「深度学习视觉注意力 」研究概述,包括50种注意力机制和方法!

  • 【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!

  • 2021李宏毅老师最新40节机器学习课程!附课件+视频资料

欢迎大家加入DLer-计算机视觉技术交流群!

大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

GPT-3、Stable Diffusion一起助攻,让模型听懂甲方修图需求相关推荐

  1. 在 Amazon SageMaker 上玩转 Stable Diffusion: 基于 Dreambooth 的模型微调

    本文将以 Stable Diffusion Quick Kit 为例,详细讲解如何利用 Dreambooth 对 Stable Diffusion 模型进行微调,包括基础的 Stable Diffus ...

  2. Stable Diffusion 图片生成AI模型 Windows Mac部署指南

    Stable Diffusion是2022年发布的深度学习文本到图像生成模型.它主要用于根据文本的描述产生详细图像,它也可以应用于其他任务,如内补绘制.外补绘制,以及在提示词​(英语)指导下产生图生图 ...

  3. Stable Diffusion 绘画初探 chilloutmix模型 人物画像首选

    AI绘画发展以来出现了很多优质的平台,Stable Diffusion是普通大众最爱的之一,比起MJ来讲,它是现在愿意动手的人的首选,在这里要首先感谢GITHUB上的一众开源大佬. AI绘画首先吸引大 ...

  4. Stable Diffusion - AWPortrait 1.1 模型与 Prompts 设置

    欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/131565908 A ...

  5. stable diffusion图片资源分享和模型推荐,好用的模型有哪些呢?

    前言 这篇文章主要是分享我的图片和推荐一些好用的模型,模型不在多在于精,基于几个好的大模型适当下载一下LORA模型,就能画出非常好的图片,多话不说 图片分享 简单展示 详情请看:https://spa ...

  6. Stable Diffusion系列课程上:安装、提示词入门、常用模型(checkpoint、embedding、LORA)、放大算法、局部重绘、常用插件

    文章目录 一.Stable Diffusion简介与安装 二.文生图(提示词解析) 2.1 提示词入门 2.2 权重 2.3 负面提示词( Negative prompt) 2.4 出图参数设置 2. ...

  7. AI 绘画基础 - 细数 Stable Diffusion 中的各种常用模型 【 魔导士装备图鉴】

    AI 绘画新手魔导士在刚开始玩 Stable Diffusion 时总会遇到各种新的概念,让人困惑,其中就包括各种模型和他们之间的关系. 魔法师入门得先认识各种法师装备(各种模型),让我们遇到问题知道 ...

  8. 当幻想的小说来到现实——基于stable diffusion的小说插画生成

    当幻想的小说来到现实--基于stable diffusion的小说插画生成 引言 近期文生图大火,而这也激发了我曾经的玄幻小说插画梦,将玄幻带到现实,可惜本人手残,但能用ai作自己梦中的画也是不错的. ...

  9. 谷歌Colab云端部署Stable Diffusion 进行绘图

    系列文章目录 本地部署Stable Diffusion教程,亲测可以安装成功 Stable Diffusion界面参数及模型使用 文章目录 系列文章目录 前言 一.Colab是什么? 二.操作步骤 1 ...

最新文章

  1. java striptrailingzeros_java – 为什么不BigDecimal.stripTrailingZeros()总是删除所有尾随零?...
  2. 高性能IO之Reactor模式
  3. MATLAB常见语法错误分析及解决办法
  4. 现金流量表整理及开发
  5. 深度学习之caffe1——软件配置与测试
  6. leetcode 558. Logical OR of Two Binary Grids Represented as Quad-Trees | 558. 四叉树交集(分治法)
  7. java getjsonarray_无法在Java中访问getJSONArray
  8. github api常用操作
  9. iOS绘图UIBezierPath 和 Core Graphics框架
  10. 这 8款开源思维导图工具真的很神奇【程序员必备学习工具】
  11. php 计算字段的和,php – foreach中计算列的总和
  12. 导航鼠标悬停变色--H5+css
  13. html页面会出现浏览器崩溃,电脑出现页面崩溃怎么解决
  14. JVM成神之路(一)---咱们为什么要学习JVM
  15. python怎样查找收盘价_如何在Python中从晨星获得调整后的收盘价?
  16. 阿⾥云Apsara Clouder云计算专项技能认证:云服务器ECS⼊门【 个⼈所得税年度应纳税额抵扣 3600(0成本)】
  17. c语言程序设计吉林大学康辉目录,[吉林大学康辉] 经典C语言程序设计视频教程 51讲...
  18. 上篇: php 微信公众号 基于Thinkphp3.2框架开发
  19. 谷歌发布语义分割新数据集!
  20. 每天工作3小时就够了

热门文章

  1. Android 关于AIDL通信,RemoteCallbackList实现Server回调Client
  2. JB的产品之旅-产品经理是干嘛的?
  3. 100句记住7000单词
  4. JAVA面试解析(有赞一面)
  5. 杭州出租车改革何以值得肯定
  6. 【视频】开发工具第12期:鸿蒙智联新交互体验实践分享(二)
  7. arduino密码锁代码
  8. c语言用循环函数求平方,用C语言程序三种循环语句分别编写程序,求1-100的平方值?...
  9. .NET 再出发 20岁生日快乐
  10. 【20230407】NVIDIA显卡算力、Jetson比较