AIGC生图基础知识

一、引言

AIGC，即AI-Generated Content，是一种利用大型预训练模型如生成对抗网络（GAN）、扩散网络（Diffusion）和语言大模型（Transformer）等人工智能技术，通过对大量数据进行学习和模式识别，最终创造出各种类型内容的技术。例如，AIGC可以根据输入的“提示词”（如关键词或描述）或参考图片，生成相应的文章、图像、音频、视频等内容。

对于AIGC而言，目前比较火热的应用场景有文本生成(ChatGPT、文心一言、通义千问等) 以及生图场景(妙鸭相机、文心一格等等)。

当前的AIGC生图已经被广泛应用于各种商业落地场景，例如广告宣传图、个人形象生成甚至是一些灰色产业。

得益于最近在做项目有所涉猎AIGC相关内容，进行一次简单的总结分享。

目前主流的生图选型有StableDiffusion、Midjourney、DALL-E等，由于StableDiffusion开源的属性以及丰富的生态，下文主要介绍均基于StableDiffusion，以及基于StableDiffusion的WebUI、ComfyUI。

二、Stable Diffusion基础

简介

Stable Diffusion是一种基于概率的机器学习模型，用于生成具有特定结构和特征的数据。

该模型通过逐步引入结构和模式，从无到有地生成数据。在Stable Diffusion中，这个过程被用来从随机噪声中生成图像。

Stable Diffusion生图过程

基本流程就是将图片进行扩散，扩散成一些随机的像素点之后，再通过预先训练好的模型，对扩散后的图片，进行一定秩序的生成，从而实现生成指定效果照片的作用。

生图过程中的一些核心概念

对于SD模型，其autoencoder模型参数大小为84M，CLIP text encoder模型大小为123M，而UNet参数大小为860M，所以SD模型的总参数量约为1B。

autoencoder：encoder将图像压缩到latent空间，而decoder将latent解码为图像；

CLIP text encoder：提取输入text的text embeddings，通过cross attention方式送入扩散模型的UNet中作为condition；

UNet：扩散模型的主体，用来实现文本引导下的latent生成。

基于以上概念，生成图片的过程图：

Stable Diffusion与其他生成模型的对比

名称	作者	优点	缺点	价格
Stable Diffusion	StabilityAI、CompVis与Runway合作开发	免费试用！价格便宜、开源、操作控制性强	对使用者要求高	公有云：$10=约5千张图开源版本：免费
Midjourney	Midjourney	使用直接、上手快、图片质量高	通过Discord使用、图像公开	基础月费：$10/月
DALL·E 3	OpenAI	用户友好、功能齐全	收费最贵	ChatGPT Plus可以使用：$20/月

三、Stable Diffusion WebUI

Stable Diffusion WebUI是对Stable Diffusion模型进行封装，提供可操作界面的工具软件，ComfyUI基本同理。

github地址：GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI

WebUI的定义与功能介绍

定义

Stable Diffusion WebUI是由AUTOMATIC1111等社区开发者基于Gradio为Stable Diffusion模型提供的一个图形化界面工具。

它封装了Stable Diffusion模型的核心功能，并通过Web技术构建了一个用户友好的界面，使得用户无需深入了解模型背后的复杂原理，即可通过简单的操作实现高质量的图像生成。

功能介绍

文本到图像生成（txt2img）：

- 用户可以输入一段描述性文本，Stable Diffusion WebUI会根据这段文本生成相应的图像。这是Stable Diffusion模型最基本且最常用的功能。
- 用户可以调整多种生成参数，如采样方法（Sampler）、迭代步数（Sampling steps）、图像尺寸（Width & Height）、批次计数（Batch count）、每批数量（Batch size）等，以获得满意的生成效果。

图像到图像生成（img2img）：

- 该功能允许用户以一张现有图像为基础，结合文本描述生成新的图像。这可以用于图像编辑、风格迁移等场景。
- 用户可以指定图像的重绘幅度（Denoising strength）和缩放模式等参数，以控制生成图像与原始图像之间的关系。

模型切换与管理：

- Stable Diffusion WebUI支持多种模型，包括基础模型（Checkpoint）和辅助模型（如Lora、Embeddings等）。用户可以根据需要切换不同的模型，以获得不同风格或更高质量的生成效果。
- 用户还可以下载和管理自己的模型文件，通过WebUI进行加载和使用。

内容填充（Inpaint）：

- Inpaint功能允许用户修复图像中被遮罩的部分或添加新的内容。用户可以使用鼠标在图像上绘制遮罩区域，然后Stable Diffusion WebUI会根据周围图像的内容和用户的提示词重新生成该区域的内容。

参数调整与优化：

- Stable Diffusion WebUI提供了丰富的参数调整选项，可以根据自己的需求和偏好进行个性化设置。例如，调整分类器无指导比例（CFG Scale）以控制模型遵循提示的程度，使用随机种子（Seed）以获得可重复的生成结果等。

实时预览与导出：

- 在生成图像的过程中，Stable Diffusion WebUI提供了实时预览功能，用户可以随时查看生成效果的变化。
- 生成完成后，用户可以将图像导出为常见的文件格式（如PNG、JPEG等），并进行进一步的编辑和处理。

如何使用WebUI进行Stable Diffusion图像生成

WebUI的常用功能与参数设置（txt2img、img2img等）

WebUI生图的典型案例分享与解析(Lora、Embeding)

正向提示词：

SFW, masterpiece, best quality, 1 girl, brown hair, brown eyes, smile, standing, dynamic pose, outdoors, city background,

facial_mark, whisker_markings, 1girl, blue bodysuit, long_hair, pilot_suit, solo, facepaint, headphones, gun, brown_hair, holding_gun, swept_bangs, clothes_writing, bangs, breasts, blue_background, hand_on_hip, animal_print, handgun, brown_eyes, medium_breasts, holding_weapon, bracer, ribbed_bodysuit, weapon, white_gloves, shoulder_pads, holding, high_collar, turtleneck, standing, white_footwear, full_body, pink_lips, gloves, hand_up, pistol, skin_tight, smile

负向提示词：

nsfw, nude, censored, bad anatomy, bad hands, missing fingers, extra fingers, three hands, three legs, bad arms, missing legs, missing arms, poorly drawn face, bad face, fused face, cloned face, three crus, fused feet, fused thigh, extra crus, ugly fingers, horn, cartoon, cg, 3d, unreal, animate, amputation, disconnected limbs

Embeding（文本嵌入/嵌入式向量）

Embeding是一种占用空间极小的模型文件，通常只有几十到几百kb左右。

在概念上，Embeding代表了一种文本嵌入的方式。如果说Checkpoint是一本大字典，限定了我们给的提示词能够产生怎么样的效果，那么Embeddings就像是上面的一片小索引，它能够精准的指向个别字、词汇的含义，从而提供一个极其高效的索引集合。每个Embedding都相当于给我们将能够生成特定效果的提示词整合到一起，在我们使用的时候便输入到“字典”当中，去获取数据输入给模型。

例如，对于一个没有输入Embedding的图片生成效果：

Embedding后：

明显可以看出来embedding后拥有了一些比较有特征性的内容。

Lora(低秩模型)

如果说Embeddings书签，我们能通过书签在字典内索引到一些对一些关键信息，那么LoRa就像夹在书中的彩页，可以在字典之外提供一些新的内容。

对于一个Lora，会通过一些模型进行训练，将一些需要的数据特征写入到Lora当中，直接写清楚了需要信息的所有特点介绍，所以大模型对这种信息的了解一定是更为准确的，同时他的影响力度也是要更大一些。

此外，由于Lora是一个经过数据训练后的模型，里面的数据量比较大，因此Lora比Embeddings所占用空间更大一点，容量大概在100-200MB左右。

对于上面的图片，我们进行Lora后：

如果觉得太过影响原图，我们可以进行力度的降低：

四、ComfyUI与Stable Diffusion

ComfyUI的定义

github：GitHub - comfyanonymous/ComfyUI: The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface.

ComfyUI是一个为Stable Diffusion设计的基于节点的图形用户界面(GUI)。它允许用户通过连接不同的节点（称为“块”）来构建复杂的图像生成工作流程。这种设计使得ComfyUI成为一个高度模块化、灵活且可定制的工具，适用于需要精细控制和高度自定义的图像生成任务。ComfyUI不仅是一个用户界面，还是一个具有强大功能和高度模块化设计的系统，主要用Python、JS和CSS开发，其GitHub页面描述它为“最强大且模块化的稳定扩散GUI、API和后端，带有图形/节点界面”。

ComfyUI的特点

图像生成与编辑：可以利用ComfyUI进行复杂的图像生成和深度编辑，提升创作效率和作品质量。
显存优化：相比传统的WebUI，ComfyUI在相同显存条件下可以处理更大规模、更高品质的图像生成任务，特别适用于对显存需求较高的场景。
高效的图像生成：ComfyUI能够在显存占用更少的情况下，呈现更宏伟的图像，适合处理复杂和长线项目。
可靠的复现能力：通过其独特的工作流程设计，ComfyUI不仅能够精准定制图像，还能实现可靠的复现，确保每次生成的图像一致。相对于WebUI而言，可以更快的复刻某个效果。
扩展性和管理功能：ComfyUI提供了一系列管理功能，包括安装、移除、禁用和启用各种自定义节点，方便用户根据需求进行扩展和定制。
高度定制性：用户可以通过调整模块连接来定制工作流程，实现高度个性化的图像生成方案。