从画笔到像素：一文读懂AI绘画的前世与今生

关于 AI 绘画，你需要知道的一些事。

上周，备受期待的 Midjourney V5 AI 艺术生成器正式发布，再次改变了 AI 驱动的艺术创作世界。它拥有显著增强的图像质量、更多样化的输出、更广泛的风格范围，以及对无缝纹理的支持、更宽的宽高比、改进的图像提示、扩展的动态范围等。

下图是以“埃隆·马斯克介绍特斯拉，90 年代的商业广告”为 prompt（提示），分别用 Midjourney V4 和 Midjourney V5 生成的图像。

此次满足人们期待的是，Midjourney V5 带来了更逼真的图片生成效果，更有表现力的角度或场景概述，以及终于画对的“手”。曾经在 AI 绘画界广泛流传的一个笑话是，“永远不要问一个女人的年龄或一个 AI 模型为什么要把手藏起来。”

这是因为，AI 艺术生成器是“画手困难户”，尽管它们可以掌握视觉模式，但不能掌握潜在的生物逻辑。换句话说，AI 艺术生成器可以计算出手有手指，但很难知道一个人的一只手正常应该只有 5 个手指，或者这些手指之间应该具有固定关系的设定长度。

在过去的一年里，AI 艺术生成器无法正确渲染手的 “缺陷” 已经成为一种文化修辞。手部问题在一定程度上与 AI 艺术生成器从它们接受训练的大量图像数据集中推断信息的能力有关。

值得注意的是，Midjourney V5 可以很好地生成逼真的人手。大多时，手是正确的，一只手有 5 个手指，而不是 7-10 个。

Midjourney V5 的发布，引起了全球用户更广泛的兴趣激增，巨大流量的涌入使得 Midjourney 服务器短时间崩溃，进而导致众多用户无法访问。除此之外，OpenAI 的 DALL·E 2、Stability AI 的 Stable Diffusion 等 “文生图” 模型此前也是业内讨论的热门对象。

当人们向这些 “文生图” 模型中输入任何文本后，它们就可以生成与该描述相匹配的、较为准确的图片，生成的图片可以被设定为任意风格，如油画、CGI 渲染、照片等，在很多情况下，唯一的限制来自人类的想象力。

前世：一场从DeepDream开始的梦

2018 年，第一幅由 AI 生成的肖像《Edmond de Belamy》问世，它由生成对抗网络（GAN）创建，是 Obvious Art 的 “La Famille de Belamy” 系列的一部分，最终在佳士得艺术品拍卖会上以 432500 美元成交。

2022 年，Jason Allen 的 AI 创作作品《Théâtre D’opéra Spatial》在科罗拉多州博览会的年度艺术竞赛中获得了第一名。

近些年，各类 “文生图” 模型也在人们的期待中纷纷登场。当神经网络在图像处理方面取得了一定的成果后，研究人员们便开始开发一些可视化技术，以更好地了解这些神经网络是如何看待世界并进行分类的，由此塑造了一个又一个 “文生图” 模型。

DeepDream 根据神经网络学到的表征来生成图像，在获取输入图像后，通过反向运行经过训练的卷积神经网络（CNN），并试图通过应用梯度上升来最大化整个层的激活。下图（左）显示了原始输入图像及其 DeepDream 输出。

令人惊讶的是，输出图像中包含了许多动物的面部和眼睛，这是因为 DeepDream 使用了 ImageNet 数据库（不同犬种和鸟类的例子）来训练。对于一些人来说，DeepDream 生成的图像类似于梦境般的迷幻体验。但即便如此，DeepDream 加速了人们将 AI 作为艺术图像创作的工具的工作。

Neural Style Transfer 是一种基于深度学习的技术，能够将一张图像的内容与另一图像的风格相结合，如上图（右），将梵高的《星夜》应用于目标图像。Neural Style Transfer 重新定义了 CNN 中的损失函数来实现——通过 CNN 的高层激活保留目标图像，以及多层激活来捕捉其他图像的风格。由此，输出的图像将保留输入图像的风格与内容。

2017 年，Wei Ren Tan 等人提出了模型 “ArtGAN”，尽管其输出的图像看起来完全不像是画家的作品，但仍旧捕捉到了艺术品的低阶特征。由此，ArtGAN 激发了更多研究者使用 GAN 生成艺术图像的兴趣。

不久之后，Ahmed Elgammal 等人提出创造性对抗性神经网络 “CAN”，以训练 GAN 生成被鉴别者视为艺术但不符合任何现有艺术风格的图像。由 CAN 产生的图像看起来大多像一幅抽象画，给人一种独特的感觉。

2017 年，Phillip Isola 等人创建了条件型 GAN，即 pix2pix，接收输入图像后生成一个转换版本。例如，在现实生活中，假设有一个 RGB 图像，我们可以轻松将其转换为 BW （黑白二值图像）版本。但若想要把 BW 图像变成彩色图像，依靠手动上色就很耗时。pix2pix 则可以自动完成这一过程，并应用于任何图像对的数据集，而不需要调整训练过程或损失函数。

pix2pix 是生成式 AI 的一个重大突破，但它需要相应的图像对来进行训练，而这并不适用于所有应用。例如，如果没有为莫奈创作的每一幅画提供相应的照片，pix2pix 就无法将输入转换为莫奈绘画。

为此，Jun-Yan Zhu、Taesung Park 等人提出了 “CycleGAN”，通过组合两个条件型 GAN 和它们之间的 “循环” 来扩展 pix2pix，这一模型可以将图像转换为其他模态，而无需在训练集中看到成对图像。

今生：Transformer 和 Diffusion 之争

重大的转折发生在 2021 年，一些 “文生图” 模型纷纷降临。OpenAI 发布了 DALL·E——以 Pixar 的动画片《Wall-E》和超现实主义画家 Salvador Dali 命名。DALL·E 结合了学习将图像映射到低维标记的离散变分自动编码（dVAE）和自回归建模文本和图像标记的 Transformer 模型。输入给定的文本，DALL·E 可以预测图像标记，并在推断过程中将其解码为图像。

DALL·E 还可以将其单独学习但从未在单个生成的图像中看到的概念组合在一起。例如，在训练集中有机器人和龙的插图，没有龙形机器人。当被提示 “机器人龙” 时，模型仍可以产生对应的图像。

然而，虽然 DALL·E 可以很好地生成漫画和具有艺术风格的图像，但无法准确地生成逼真的照片。因此，OpenAI 投入了大量资源来创建改进的文生图模型——DALL·E 2。

DALL·E 2 使用 CLIP（图像文本对的数据集）文本编码器。DALL·E 2 中利用了文本描述和图像之间的关系，为 Diffusion 模型提供了一种嵌入，反映了文本输入且更适合于图像生成。与 DALL·E 相比，DALL·E 2 提高了图像的质量，并且还允许用户扩展现有图像或计算机生成的图像的背景。例如，把一些名作中的人物放置在自定义的背景之中。

不久之后，谷歌发布了名为Imagen 的文生图模型。这一模型使用 NLP 模型 T5-XXL 的预训练编码器，其嵌入被反馈送至 Diffusion 模型。因此，这一模型能够更准确地生成包含文本的图像（这是 OpenAI 的模型难以解决的问题）。

然而，在 “文生图” 领域最大的革命可能是 Stability AI 公司发布的完全开放源代码的 Stable Diffusion。Stable Diffusion 的计算效率远高于其他文生图模型，以前的文生图模型需要数百天 GPU 计算，Stable Diffusion 需要的计算量要小得多，因此资源不足的人更容易接受。它还允许用户通过图像与图像之间的转换（如将素描变成数字艺术）或绘画（在现有图像中删除或添加一些东西）来修改现有的图像。

深度学习及其图像处理应用现在处于与几年前完全不同的阶段。在上世纪初，深度神经网络能够对自然图像进行分类是开创性的。如今，这些里程碑式的模型或是采用 Transformer 或是基于 Diffusion 模型，能够基于简单的文本提示生成高度逼真和复杂的图像，使得 “文生图” 领域大放异彩，成为艺术界的一只新画笔。

“威胁” or “共生”，人类画家何去何从

AI artist 自诞生起就饱受争议，版权纠纷、输出错误信息、算法偏见等等，让“文生图”应用一次又一次站在了风口浪尖。例如，今年 1 月，三位艺术家对 Stable Diffusion 和 Midjourney 的创建者 Stability AI 和 Midjourney 以及 DreamUp 的艺术家组合平台 DeviantArt 提起了诉讼。他们声称，这些组织侵犯了 “数百万艺术家” 的权利，在 “未经原创艺术家同意” 的情况下，用从网络上抓取的 50 亿张图片来训练 AI 模型。

艺术家们大多很害怕自己会被机器人取代，因 AI 模仿其独特风格的模型而失去生计。在去年 12 月，数百名艺术家向互联网上最大的艺术社区之一 ArtStation 上传图片，表示 “对 AI 生成的图像说不”。同时，一些艺术家悲观地认为，“我们正眼睁睁地看着艺术之死展开”。围绕训练数据中使用的图像版权问题，尚处于争议之中。

当然，也不乏一些艺术家积极地拥抱 AI，将文生图模型当作自己的绘画助手，省去重复性的枯燥劳动。同时，一些艺术家将 AI 作为想象力的 “引擎”，在与类似 Midjourney 软件及社区中的用户交互中，彼此互相撕裂，产生新的、有趣的人类美学，进而溢出到真实世界。正如 Midjourney 所描述的：“AI 不是现实世界的复刻，而是人类想象力的延伸”。

目前，监管机构正在追赶 AI artist 的脚步。最近，美国版权局在一封信中表示，使用 AI 系统 Midjourney 创建的图画小说中的图像不应获得版权保护，该决定是美国法院或机构对 AI 创作的作品的版权保护范围做出的首批决定之一。另外，一些学者为保护艺术家免受文生图 DIffusion 模型的风格模仿，提出了一个允许艺术家将精心计算的扰动应用到他们的艺术中的系统—— Glaze。

一系列 “文生图” 应用允许没有编程知识的艺术家及大众使用这些强大的模型，生成极具视觉震撼的图像。“给 AI 以创造”，不论是绘画还是其他领域，这些工具可以帮助艺术家表达他们的创造力，并可能塑造艺术的未来。

AI 在艺术中的作用将取决于它的使用方式以及使用它的人的目标和价值观，重要的是要记住，这些模型的使用应该以道德和负责任的考虑为指导。

参考链接：

https://arxiv.org/abs/2302.10913

https://arxiv.org/abs/2302.04222

https://tech.cornell.edu/news/ai-vs-artist-the-future-of-creativity/

https://www.taipeitimes.com/News/biz/archives/2023/02/24/2003794928

https://www.buzzfeednews.com/article/pranavdixit/ai-art-generators-lawsuit-stable-diffusion-midjourney

https://www.theverge.com/2023/1/16/23557098/generative-ai-art-copyright-legal-lawsuit-stable-diffusion-midjourney-deviantart

https://arstechnica.com/information-technology/2023/03/ai-imager-midjourney-v5-stuns-with-photorealistic-images-and-5-fingered-hands/

｜点击关注我

从画笔到像素：一文读懂AI绘画的前世与今生相关推荐

一文读懂AI简史：当年各国烧钱许下的愿，有些至今仍未实现
一文读懂AI简史:当年各国烧钱许下的愿,有些至今仍未实现导读:近日,马云.马化腾.李彦宏等互联网大佬纷纷亮相2018世界人工智能大会,并登台演讲.关于人工智能的现状与未来,他们提出了各自的观点,也引 ...

一文读懂AI圣经，凡研究《深度学习》都知道的一本书！
由深度学习领域三位前沿.权威的专家Ian Goodfellow.Yoshua Bengio和Aaron Courville合著的人工智能领域的圣经.长期位居美国亚马逊人工智能类图书榜首的<深度学 ...

一文读懂AI如何判断照片中人物的社交关系
本文经AI新媒体量子位(公众号ID:qbitai)授权转载,转载请联系出处本文共2256字,建议阅读6分钟. 本文为你介绍AI判断人物社交关系的原理.方法和效果. 人类,天生就有八卦嗅觉. 比如匡扶 ...

区域转换为二值图像_零基础一文读懂AI深度学习图像识别
#寻找真知派# #科学思维看百态# #深度学习图像识别# 人工智能大常识(2):图像识别(以手写字符识别为例) 近期写一组关于人工智能的科普帖子.第一帖介绍了AI自动诊断的方法,本帖之后准备继续推出 ...

一文读懂AI计算机视觉技术！
文末评论区留言赠书人工智能原本只是人类一个美好的想象,没想到,它却成为了21世纪最热的话题之一. 随着近几年人工智能的发展,已经逐渐渗透到了各个领域,比如:医疗.教育.机械自动化.个性化推荐.信息安 ...

一文读懂AI 与神经网络发展历程
https://www.toutiao.com/a6701263661391938059/ AI与神经网络人工智能已经发展了六七十年,经历了几度繁荣和衰落.虽然已取得不错的进展,但是与理想中的人工智 ...

深度：一文看懂养老机器人的前世、今生与未来
前言: "独居还患有老年痴呆的弗兰克,不仅时常神智混乱,无法与人们进行正常的交流,生活自理也成最大问题. 某天儿子买回来一个全能机器人,不仅洗衣做饭样样皆通,还能陪着唠嗑遛弯,陪伴老人完成各 ...

一文读懂EfficientDet
一文读懂EfficientDet. 今年年初Google Brain团队在 CVPR 2020 上发布了 EfficientDet目标检测模型, EfficientDet是一系列可扩展的高效的目标检测 ...

一文读懂TOF深度相机技术原理--TI-Tintin-OPT8241二次开发和应用系列--Theory Level
一文读懂TOF深度相机技术原理--TI-Tintin-OPT8241二次开发和应用系列--Theory Level 转载请附上出处,本文链接:https://www.cnblogs.com/pans0 ...

最新文章

junit--eclipse插件

pygame加载中文名mp3文件出现error

java的for循环的几种写法

python2打开文件_关于python：何时以二进制模式打开文件(b)？

这张磁盘有写保护_架构师不得不了解的硬件知识 - 磁盘阵列RAID

servlet里面为什么有时候覆_为什么新来的经理强烈推荐？前后端分离知识，学到了...

tcp协议的主要功能是什么_计算机网络 | 一文搞懂什么是TCP/IP协议

OpenShift 4 - DevSecOps - 视频

C# 控制台打印输出

剑指offer面试题57 - II. 和为s的连续正数序列(双指针)(滑动窗口)

在MVC中要实现Ajax

一个很小的截图库。只需要依赖 jQuery

浅谈CTP期货行情交易API

STM32F030R8移植freeModbus协议栈

混合开发--vue之mand-mobile 框架引入，解决组件巨大问题

Eason Chan

如何查看源代码及一些代码的解释

关于阿里云服务器ECS与域名的绑定详细过程介绍

ROS机器人操作系统资料与资讯（2018年8月）

文本摘要常用数据集和方法研究综述

热门文章

Docker 网络（十一）——Docker Multi-host Network

对象存储2：数据存储类型-文件存储、块存储、对象存储详解

P型半导体、N型半导体定义

这家中国云计算企业三个月两轮融资

【华为2019届校园招聘】算法工程师面试总结

mysql8.013安装_关于mysql 8.0.13zip包安装

强人工智能基本问题：自上而下还是自下而上？ 1

02 Redis 底层数据结构

TPG和RCN收购Wave 打造美国No. 6有线运营商

element-ui table头部标题列栏合并