AIGC图片相关知识和实战经验（Flux.1，ComfyUI等等）

最近看了网上的一些新闻，flux.1火出圈了，因此自己也尝试跑了一下，作图的质量还是蛮高的，在这里做个知识总结回顾。

flux.1是什么？

根据介绍，flux.1是由stable diffusion 一作，Stability AI的核心成员Robin Rombach 和其他图像视频生成领域的专家创立的公司Black Forest Lab发布的开源模型。该模型上线后就引起了圈内大佬的关注，包括openai的Karpathy等。模型的参数量达到了120亿，应该是目前为止最大的图像生成模型。官博介绍，新模型在图像细节、提示词遵循、风格多样性和场景复杂性方面都取得了SOTA。

关于图像生成的效果，我们主要看两个方面：一个是好看，一个是听话（也就是忠实反映提示词的内容）。好看这个判断标准有一定的主观性，听话这个和它之前的模型（sdxl）等等相比，一对比就能发现它的长处。

跑flux.1需要什么环境配置？

Flux.1 发布了三个版本，其中pro版本是完全参数版本，需要显存应该比较大，没有跑过。dev版本是pro版本蒸馏后的模型，节省了使用的显存空间，生图质量相比pro版本下降较小。schnell版本是快速版本，相比dev版本，它的迭代步数从20步变成了4步，所以理论上生图速度相比于dev版本快5倍，但是生图质量会比dev差。跑一个dev或schnell版本的flux.1模型，+其他组件应该需要24G左右的显存+32G的内存。如果配置不够，可以考虑租一个云服务器。另外有大佬发布了fp8的量化版本，最低可以只需要12G显存就能跑。

文生图的原理是什么？有哪些模型组件？

文生图步骤：

步骤一：使用CLIP Text Encode模型将输入的人类文本信息进行编码，生成与文本信息对应的Text Embeddings特征矩阵；
步骤二：输入文本信息，再用random函数生成一个高斯噪声矩阵作为Latent Feature(隐空间特征)的“替代” 输入到SD模型的 “图像优化模块” 中；
步骤三：首先图像优化模块是由U-Net网络和Schedule算法组成，将图像优化模块进行优化迭代后的Latent Feature输入到图像解码器（VAE Decoder）中，将Latent Feature重建成像素级图。

模型文件基本都是safetensors格式。一个ComfyUI文生图工作流包括三个部分：主模型，文本编码器和解码器。主模型就是上面提到的flux.1模型，可以选择任意版本。文本编码器一般是clip模型，解码器就是ae（自编码器）解码，把图像从潜空间里还原成真实图像。那么为什么要有一个潜空间呢？第一是如果直接在全图大小用自编码器，计算量和空间需求太大了，撑不住。第二是训练模型难以收敛。第三是我们需要的是一个重构还原的过程，而不是百分百还原，这样我们可以保持模型在原图上修改创新的能力。

工作流，前端界面ComfyUI，SD WebUI Forge等。

ComfyUI是一个生图的前端界面，操作起来也很简单。首先把模型文件下载下来放到ComfyUI目录下的正确位置（unet，text_encoder，decoder）。从网站下一个工作流，通常是json格式，在ComfyUI界面load加载一下，然后点击Queue Prompt就可以执行图像生成过程了。同时comfyui也可以在工作流上增加删除修改节点，或者添加外部节点（通过Node Manager管理节点），开源社区有丰富的节点可以利用。