AI图片生成Stable Diffusion参数及使用方式详细介绍
Stable Diffusion环境搭建与运行请参考上一篇博文《AI图片生成Stable Diffusion环境搭建与运行》,地址为“https://blog.csdn.net/suiyingy/article/details/128896426”。运行成功后,网页浏览器显示页面主要包括txt2img、img2img、Extras、PNG Info、Checkpoint Merger、Train、Settings和Extensions等八个部分,下面将分别进行介绍。另外,本专栏具体更新可关注文章下方公众号,也可关注本专栏。所有相关文章会在《Python从零开始进行AIGC大模型训练与推理》中进行更新,地址为“https://blog.csdn.net/suiyingy/article/details/130169592”。
图1 Stable Diffusion生成效果图
1 txt2img
txt2img是指文生图,即根据文字描述生成图片,其页面如下图所示。
图2 txt2img
完整设置示例如下:
Prompt: coral full dress,((collagreen botton shirt)),(upper body),long hair,1gir,tall,skinny,photorealistic,masterpiece,highres,8k,character concept,depth of field,perfect pupils,perfect smiles,blurry background,heart shape face, outdoors,,side light, morning,high heel,detailed clothing,ultra details,earring,((full face))
Negative prompt: lowres,bad anatomy,bad hands,text,error,missing fingers,extra digit,fewer digits,cropped,worst quality,low quality,normal quality,jpeg artifacts,signature,watermark,username,blurry,missing arms,long neck,Humpbacked,missing limb,too many fingers,mutated,poorly drawn,out of frame,bad hands,unclear eyes,poorly drawn,cloned face,bad face,(worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)),ng_deepnegative_v1_75t,nipples,((half face)),(( half head)),((no face)),((no head))
Steps: 30, Sampler: Euler, CFG scale: 9, Restore faces, Size: 512x512, Model hash: dcd690123c, Model: v2-1_768-ema-pruned.safetensors, Seed: 4171216357, Script: X/Y/Z plot, X Type: Steps, X Values: “10,20,30”, Y Type: Sampler, Y Values: “Euler a, Euler”。
1.1 Stable Diffusion checkpoint
Stable Diffusion checkpoints用于选择当前加载的模型,模型设置与加载可参考上一篇博文《AI图片生成Stable Diffusion环境搭建与运行》,地址为“https://blog.csdn.net/suiyingy/article/details/128896426”。用户可根据需要在hugging face网站下载以.safetensors为后缀的模型文件。
这里需要注意,不同模型生成的图片风格也会有差别,比如漫画风格或写实风格。除Stable Diffusion官方模型之外,程序还支持chilloutmix_Ni、anything-v4.5-pruned、dreamshaper_33、protogenV22Anime_22、artErosAerosATribute_aerosNovae和cheeseDaddys_35等模型。
网络上有很多生成效果比较好的作品,如果用户在相同prompt下得到的效果相差较大,那么很有可能是使用不同模型所导致的。
1.2 Prompt
Prompt是对所希望生成的图片的文本描述,一般使用英文描述可以获得更好的生成结果。不同文字描述内容得到的结果也是完全不一样的,甚至大部分时候用户需要集中精力在写出一个合适的prompt。从另一方面来看,如果用户设置的prompt描述不能被模型很好地理解,那么模型给出的生成结果也会严重偏离预期,以至于部分用户认为模型本身出了问题或者模型效果不好。
如果对模型生成的图片没有额外要求,那么我们只需要在prompt输入简单的图片描述即可,例如“为AIGC小程序RdFast设计一款商标”。但是,如果我们希望得到更好的生成图片,prompt需遵循一定的设计规则。
下面的设计规则介绍来源于《AI绘画指南 stable diffusion webui (SD webui)如何设置与使用》,地址为“https://www.tjsky.net/tutorial/488”。
(1)分隔:不同的关键词tag之间,需要使用英文逗号,分隔,逗号前后有空格或者换行没有影响。例如:1girl,loli,long hair,low twintails(1个女孩,loli,长发,低双马尾)。
(2)混合:WebUi 使用 | 分隔多个关键词,实现混合多个要素,注意混合是同等比例混合,同时混。例如: 1girl,red|blue hair, long hair(1个女孩,红色与蓝色头发混合,长发)
(3)增强/减弱:有两种写法
第一种 (提示词:权重数值):数值从0.1~100,默认状态是1,低于1就是减弱,大于1就是加强。例如: (loli:1.21),(one girl:1.21),(cat ears:1.1),(flower hairpin:0.9)。
第二种 (((提示词))),每套一层()括号增强1.1倍,每套一层[]减弱1.1倍。也就是套两层是1.1*1.1=1.21倍,套三层是1.331倍,套4层是1.4641倍。例如: ((loli)),((one girl)),(cat ears),[flower hairpin]和第一种写法等价。
(4)渐变:比较简单的理解时,先按某种关键词生成,然后再此基础上向某个方向变化。[关键词1:关键词2:数字],数字大于1理解为第X步前为关键词1,第X步后变成关键词2,数字小于1理解为总步数的百分之X前为关键词1,之后变成关键词2。例如:a girl with very long [white:yellow:16] hair 等价为“开始 a girl with very long white hair”,16步之后“a girl with very long yellow hair”。“a girl with very long [white:yellow:0.5] hair ”等价为“开始 a girl with very long white hair”,50%步之后“a girl with very long yellow hair”。
(5)交替:轮流使用关键词。例如:[cow|horse] in a field,这就是个牛马的混合物,如果你写的更长比如[cow|horse|cat|dog] in a field就是先朝着像牛努力,再朝着像马努力,再向着猫努力,再向着狗努力,再向着马努力。
Prompt示例:
coral full dress,((collagreen botton shirt)),(upper body),long hair,1gir,tall,skinny,photorealistic,masterpiece,highres,8k,character concept,depth of field,perfect pupils,perfect smiles,blurry background,heart shape face, outdoors,,side light, morning,high heel,detailed clothing,ultra details,earring,((full face))
1.3 Negative prompt
Prompt描述的是用户希望生成的图片的特征,而Negative prompt则是生成的图片中不希望含有的特征,例如低质量图片等。Stable Diffusion大致做法为:
(1)对图片进行去噪处理,使其看起来更像你的提示词。
(2)对图片进行去噪处理,使其看起来更像你的反向提示词(无条件条件)。
(3)观察这两者之间的差异,并利用它来产生一组对噪声图片的改变。
(4)尝试将最终结果移向前者而远离后者。
Negative prompt示例:
lowres,bad anatomy,bad hands,text,error,missing fingers,extra digit,fewer digits,cropped,worst quality,low quality,normal quality,jpeg artifacts,signature,watermark,username,blurry,missing arms,long neck,Humpbacked,missing limb,too many fingers,mutated,poorly drawn,out of frame,bad hands,unclear eyes,poorly drawn,cloned face,bad face,(worst quality:2), (low quality:2), (normal quality:2), lowres, normal quality, ((monochrome)), ((grayscale)),ng_deepnegative_v1_75t,nipples,((half face)),(( half head)),((no face)),((no head))
1.4 Sampling Method
采样方法与Stable Diffusion模型工作原理直接相关,本专栏后续将会详细介绍其中原理。采样方法主要影响生成图片的时间和风格偏好。网址“https://cj.sina.com.cn/articles/view/1823348853/6cae1875020018im7”有详细的实验结果。
常用的采样方法为Euler a、Euler、DDIM、LMS、PLMS和DPM2。一般选用默认采样方式即可。
1.5 Sampling Steps
采样步骤默认设置成20。如果生成图片细节不满足要求,可适当增加采样步骤,但生成时间也会相应增加。大部分采样器超过50步后意义就不大了。
1.6 Restore faces
面部修复,使面部更像真人的人脸。一般面部修复的模型有CodeFormer和GFPGAN。
1.7 Tiling
生成可平铺的图片图案,直接效果为图片上下和左右部分是可以拼接的,类似瓷砖图案。
图3 Tiling图片
1.8 Hires. Fix
txt2img 在高分辨率下(1024X1024)会生成非常怪异的图像。而此插件这使得AI先在较低的分辨率下部分渲染你的图片,再通过算法提高图片到高分辨率,然后在高分辨率下再添加细节。
1.9 Width/Height
图像的宽高分辨率,即图像尺寸大小。尺寸越大,所需显存越大。因为常见的模型基本都是在512×512和768×768的基础上训练,分辨率过高,图片质量会随着分辨率的提高而变差。
1.10 CFG Scale
图像与Prompt内容的匹配程度。增加这个值将导致图像更接近你的描述,但过高会让图像色彩过于饱和,太高后在一定程度上降低了图像质量。可以适当增加采样步骤来抵消画质的劣化。一般在5~15之间为好,7、9、12是3个常见的设置值。
低CFG:图片糊、看起来雾蒙蒙的,色彩对比弱,构图也比较差。
高CFG:图片对比度非常强,色彩非常饱和,甚至会过饱和,颜色和结构失调。
1.11 Batch count / Batch size
这两个参数本质上都是控制输出图片的数量。Batch count是顺序生成的,而Batch size是控制并行生成的,因此后者生成速度更快,但占用显存更大。
1.12 Seed
Seed默认取值为-1,每次生成的图片差异性较大,即随机生成的。将seed设置成一个固定取值后,每次生成的图片会比较接近,这样可以调整prompt来实现对生成结果的微调。
1.13 Script
Script是相当于同时设置多个条件,便于对多个条件生成结果进行对比。例如, Script: X/Y/Z plot, X Type: Steps, X Values: “10,20,30”, Y Type: Sampler, Y Values: “Euler a, Euler”,这种设置包括三种采样次数和两种采样方式,因此会生成6张图片,如下图所示。具体使用方式可参考“https://zhuanlan.zhihu.com/p/600821549”。
图4 多条件对比设置
图5 多条件结果对比
1.14 Styles
在“Generate”按钮下方有一个“Save style”小图标,它可以把当前prompt内容保存为一种风格样式,便于后续通过Styles进行加载复用。
2 参考资料
本文介绍参考了以下网站内容,感谢相关作者的详细解析。
(1)《AI绘画指南 stable diffusion webui (SD webui)如何设置与使用》,“https://www.tjsky.net/tutorial/488”,文中内容大部分来源于此。
(2)《stable-diffusion-webui prompt语法详解》,“https://zhuanlan.zhihu.com/p/600821549”。
(3)《扩散模型采样方法:从效果看Stable Diffusion中的采样方法》,“https://cj.sina.com.cn/articles/view/1823348853/6cae1875020018im7”。
(4)《stable-diffusion各个采样器的说明》,“http://www.codeforest.cn/article/3578”。
(5)《[Stable Diffusion 疑难杂症] CFG、采样方式、高清修复、ControlNet》,“https://zhuanlan.zhihu.com/p/610346261”。
(6)《从耗时看Stable Diffusion WebUI中的采样方式》 ,“https://post.smzdm.com/p/akk8zv5r/”。
3 其它部分
img2img、Extras、PNG Info、Checkpoint Merger、Train、Settings和Extensions等部分将在下一篇博文中进行介绍。本专栏具体更新可关注文章下方公众号,也可关注本专栏。所有相关文章会在《Python从零开始进行AIGC大模型训练与推理》中进行更新,地址为“https://blog.csdn.net/suiyingy/article/details/130169592”。
AI图片生成Stable Diffusion参数及使用方式详细介绍相关推荐
- 【AI作画】stable diffusion webui Linux虚拟机 Centos 详细部署教程
部署环境: 环境:虚拟机Centos7.6处理器.8G内存+10G交换内存.没有GPU使用CPU硬解 windows版本的可以直接使用整合包:看评论的转载链接自行下载,解压即可用 安装Git 2.15 ...
- AI绘图设计师Stable Diffusion成为生产力工具(四):制作食品安全PPT所用的相关图片png、图标icon
S:你安装stable diffusion就是为了看小姐姐么? I :当然不是,当然是为了公司的发展谋出路~~ 预先学习: 安装webui<Windows安装Stable Diffusion W ...
- AI绘画指南 stable diffusion webui (SD webui)如何设置与使用
AI绘画指南 stable diffusion webui (SD webui)如何设置与使用 作者: 去年夏天 分类: AI绘画,Windows,技术文章 发布时间: 2022-11-07 23:0 ...
- 使用Amazon SageMaker构建高质量AI作画模型Stable Diffusion
使用Amazon SageMaker构建高质量AI作画模型Stable Diffusion 0. 前言 1. Amazon SageMaker 与机器学习 1.1 机器学习流程 1.2 Amazon ...
- AI 绘画用 Stable Diffusion 图生图局部重绘功能给美女换装(这是我能看的嘛)
昨天带大家一起装好了 Stable Diffusion 的环境,今天就来带大家一起体验一下 Stable Diffusion 的局部重绘功能. 没装好环境的可以看上一篇:AI 绘画基于 Kaggle ...
- AI绘画神器Stable Diffusion的疯狂与危险
本文来源 AI前线 作者 | JAMES VINCENT 译者 | 核子可乐 策划 | 刘燕 最近几周,一款名为 Stable Diffusion 的文本到图像程序横空出世,瞬间颠覆了一切.St ...
- AI绘图设计师Stable Diffusion成为生产力工具(六):制作一张庆祝五一劳动节的海报
S:AI能取代设计师么? I :至少在设计行业,目前AI扮演的主要角色还是超级工具,要顶替?除非甲方对设计效果无所畏惧~~ 预先学习: 安装webui<Windows安装Stable Diffu ...
- AI绘画部署-Stable Diffusion(huggingface API图片生成初体验)
引言 最近,在很多地方都看到了各个大佬用AI生成的神图,索性从网上搜集资料部署一下体验一下AI绘画的魅力.本文基于huggingface API在colab上构建AI绘画. 使用步骤 1.huggin ...
- 带你从零开始入门AI绘画神器Stable Diffusion
一.本地部署 Stable diffusion 1. 前言 目前市面上比较权威,并能用于工作中的 AI 绘画软件其实就两款.一个叫 Midjourney(简称 MJ),另一个叫 Stable-Diff ...
最新文章
- Dubbo中的连接控制,你真的理解吗?
- qwe qwe qw
- SSH框架总结(框架分析+环境搭建+实例源代码下载)
- 【小白学PyTorch】6.模型的构建访问遍历存储(附代码)
- 今日arXiv精选 | 13篇EMNLP 2021最新论文
- linux 权限模式,Linux权限模式
- [ZJOI2007] 时态同步
- linux-type命令查看类型
- c++程序设计(第三版) pdf_【好课传送】C++语言程序设计基础入门视频
- 麻省理工学院推出数据美国大数据可视化工具
- 桌面魔术可以用透明桌子揭密
- python statsmodel 回归结果提取(回归系数、t值、pvalue、R方、、、、)
- GAN代码实操(github代码实操)
- 微服务的战争:按什么维度拆分服务
- 几何光学学习笔记(22)- 5.5 光学系统的景深
- 【讲解 + 模板】Dijkstra迪杰斯特拉+堆优化
- 【枚举算法】佩尔方程
- 2020考研-王道数据结构-图-图的遍历
- 【AI达人创造营第二期】基于Jetson nano的餐厅自助结账系统部署
- Zabbix Meetup上海站回顾+ppt下载