AIGC图片相关知识和实战经验(Flux.1,ComfyUI等等)

最近看了网上的一些新闻,flux.1火出圈了,因此自己也尝试跑了一下,作图的质量还是蛮高的,在这里做个知识总结回顾。

flux.1是什么?

根据介绍,flux.1是由stable diffusion 一作,Stability AI的核心成员Robin Rombach 和其他图像视频生成领域的专家创立的公司Black Forest Lab发布的开源模型。该模型上线后就引起了圈内大佬的关注,包括openai的Karpathy等。模型的参数量达到了120亿,应该是目前为止最大的图像生成模型。官博介绍,新模型在图像细节、提示词遵循、风格多样性和场景复杂性方面都取得了SOTA。

关于图像生成的效果,我们主要看两个方面:一个是好看,一个是听话(也就是忠实反映提示词的内容)。好看这个判断标准有一定的主观性,听话这个和它之前的模型(sdxl)等等相比,一对比就能发现它的长处。

跑flux.1需要什么环境配置?

Flux.1 发布了三个版本,其中pro版本是完全参数版本,需要显存应该比较大,没有跑过。dev版本是pro版本蒸馏后的模型,节省了使用的显存空间,生图质量相比pro版本下降较小。schnell版本是快速版本,相比dev版本,它的迭代步数从20步变成了4步,所以理论上生图速度相比于dev版本快5倍,但是生图质量会比dev差。跑一个dev或schnell版本的flux.1模型,+其他组件应该需要24G左右的显存+32G的内存。如果配置不够,可以考虑租一个云服务器。另外有大佬发布了fp8的量化版本,最低可以只需要12G显存就能跑。

文生图的原理是什么?有哪些模型组件?

文生图步骤:

步骤一: 使用CLIP Text Encode模型将输入的人类文本信息进行编码,生成与文本信息对应的Text Embeddings特征矩阵;
步骤二: 输入文本信息,再用random函数生成一个高斯噪声矩阵 作为Latent Feature(隐空间特征)的“替代” 输入到SD模型的 “图像优化模块” 中;
步骤三: 首先图像优化模块是由U-Net网络和Schedule算法 组成,将图像优化模块进行优化迭代后的Latent Feature输入到 图像解码器 (VAE Decoder) 中,将Latent Feature重建成像素级图。

模型文件基本都是safetensors格式。一个ComfyUI文生图工作流包括三个部分:主模型,文本编码器和解码器。主模型就是上面提到的flux.1模型,可以选择任意版本。文本编码器一般是clip模型,解码器就是ae(自编码器)解码,把图像从潜空间里还原成真实图像。那么为什么要有一个潜空间呢?第一是如果直接在全图大小用自编码器,计算量和空间需求太大了,撑不住。第二是训练模型难以收敛。第三是我们需要的是一个重构还原的过程,而不是百分百还原,这样我们可以保持模型在原图上修改创新的能力。

工作流,前端界面ComfyUI,SD WebUI Forge等。

ComfyUI是一个生图的前端界面,操作起来也很简单。首先把模型文件下载下来放到ComfyUI目录下的正确位置(unet,text_encoder,decoder)。从网站下一个工作流,通常是json格式,在ComfyUI界面load加载一下,然后点击Queue Prompt就可以执行图像生成过程了。同时comfyui也可以在工作流上增加删除修改节点,或者添加外部节点(通过Node Manager管理节点),开源社区有丰富的节点可以利用。

SD WebUI Forge也是一种生图的前端,但是他的界面更规整,更加傻瓜化。在SD WebUI的界面上,只需要在下拉菜单里选择模型文件就可以。但是看起来就不像ComfyUI那样自由那样可以自定义。

Flux的跟进项目

lora:一种模型微调范式,利用lora可以在只添加少量模型参数的情况下学习生成新图片的能力。

Controlnet:可以控制生成图片的风格,画面里的形象,动作姿势等等。可以在ComfyUI里添加controlnet节点。

IP adapter:通过一张参考图,生成想要的图片,即使输入的文字描述没有这一段。

Flux还在更新过程当中,限于目前的算力等限制还没能发挥全部的能力,我们还可以期待后续的更新版本的flux,在图像生成以及视频生成等领域的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1536644.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

数据结构----栈和队列

(一)栈 1.栈的概念及结构 栈:一种特殊的线性表,其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的一端 称为栈顶,另一端称为栈底。栈中的数据元素遵守后进先出LIFO(Last In First …

【数据结构】十大经典排序算法总结与分析

文章目录 前言1. 十大经典排序算法分类2. 相关概念3. 十大经典算法总结4. 补充内容4.1 比较排序和非比较排序的区别4.2 稳定的算法就真的稳定了吗?4.3 稳定的意义4.4 时间复杂度的补充4.5 空间复杂度补充 结语 前言 排序算法是《数据结构与算法》中最基本的算法之一…

PHP Swoole实现简易聊天室,附加小程序端连接websocket简易代码

目录 用到的工具: PHP Swoole拓展 | PHP Redis拓展 | Redis 7 一、安装上述必要工具(下面是以宝塔面板中操作为例) 给PHP安装Swoole和Redis拓展: 安装Redis软件 二、创建websocket服务器文件"wss_server.php" 具…

19 MDIO 接口读写以太网PHY寄存器

以太网概述 以太网(Ethernet)是应用最普遍的局域网技术。IEEE组织的 IEEE 802.3标准制定了以太网的技术标准,它规定了包括物理层的连线、电子信号和介质访问层协议的内容。以太网凭借其成本低、通信速率高、抗干扰性强等优点被广泛应用在网络…

2024 RSTCONCTF re 部分wp

Unknown Architect DIE查看,RISC_V架构,直接交即可 Duke of the Kingdom 附件拖入jadx 比较简单。脚本 Keypad 附件拖入ida。一共四遍check,都比较简单 Pico-Cypher 文本编辑器打开附件 稍微问一问gpt,得知这是micropython&#x…

2024年【浙江省安全员-C证】考试试卷及浙江省安全员-C证模拟考试题库

题库来源:安全生产模拟考试一点通公众号小程序 浙江省安全员-C证考试试卷是安全生产模拟考试一点通总题库中生成的一套浙江省安全员-C证模拟考试题库,安全生产模拟考试一点通上浙江省安全员-C证作业手机同步练习。2024年【浙江省安全员-C证】考试试卷及…

PostMan使用变量

环境变量 使用场景 当测试过程中,我们需要对开发环境、测试环境、生产环境进行测试 不同的环境对应着不同的服务器,那么这个时候我们就可以使用环境变量来区分它们 避免切换测试环境后,需要大量的更改接口的url地址 全局变量 使用场景 当…

[Leetcode LCR 154][Medium]-复杂链表的复制-链表

目录 一、题目描述 二、整体思路 三、代码 一、题目描述 原题地址 二、整体思路 这道题难点在于如何处理random。因为涉及到的所有节点都在同一链表,因此可以在链表上利用复制-拆分的方法去做。 先在链表上把每个节点复制自身一次,相当于cur与cur.ne…

TCGA数据挖掘(全网最详细)

文章目录 前言一、数据处理二、数据融合3.基因ID转换4.表达差异分析5.可视化1. 筛选上下调及不显著变化的基因2.挑选top 103.火山图4. 热图4.1 上调前504.2 下调50 总结 前言 本文主要用于介绍TCGA初始数据的处理,数据融合,基因ID转换,数据融合以及数据的可视化! 一、数据处理…

评论怎么不被折叠?

首先 就很烦,即使我个人认为它很好 那么,怎么防止呢? 当然是 加代码框 //我是代码框 首先看看不加代码框 被撅了( 那加上呢 没事 所以,这功能有什么用呢

比传统机器学习更先进的深度学习神经网络的二分类建模全流程教程

比传统机器学习更先进的深度学习神经网络的二分类建模全流程分析教程 深度学习介绍和与传统机器学习的区别 深度学习(Deep Learning)是一种机器学习的分支,基于多层神经网络模型,能够自动从大量数据中学习特征并进行预测。深度学…

Linux中使用Docker构建Nginx容器完整教程

🏡作者主页:点击! 🐧Linux基础知识(初学):点击! 🐧Linux高级管理防护和群集专栏:点击! 🔐Linux中firewalld防火墙:点击! ⏰️创作…

幼儿与非幼儿识别系统源码分享

幼儿与非幼儿识别检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer…

初识Linux · 进程(3)

目录 前言: 进程的创建 前言: 继上文介绍了着重介绍了进程的内部属性,以及在操作系统层面进程如何被组织起来的,如何调用系统接口,有关task_struct,进程的部分理解等,今天,我们就…

书生大模型实战营学习[1]

学习目标: 完成SSH连接与端口映射并运行hello_world.py 创建conda环境 学习内容: 完成SSH连接 使用vscode实现SSH的远程连接 首先安装Remote -SSH 接着使用ssh-keygen生成密钥 在开发机平台添加SSH 进行端口映射 创建hello_world.py来验证 impor…

杨敏博士:基于法律大模型的智能法律系统

9月26日,杨敏博士受邀参加人工智能助力法治化营商环境发展论坛暨得理法律大模型发布会并发表了“基于法律大模型的智能法律系统”主题演讲。杨博士是香港大学计算机博士,担任中科院深圳先进院高性能数据挖掘实验室主任,是深圳市海外高层次人才…

我又做了一个国标GB28181设备模拟器的Windows版本,让国标28181开发更简单,不用再费劲弄个摄像机来调试国标GB28181开发了

之前我搞过一个《EasyGBD国标GB28181设备端模拟器帮助测试国标GB28181平台(EasyGBD->EasyGBS)》,当时,主要是在安卓手机上,用摄像机的本地摄像头来做为视频源、用摄像机的麦克风做为音频源,对外…

OpenSSH9.8p1编译rpm包(建议收藏)

1.升级前的openssh版本 [root@ncayu8847 ~]# ssh -V OpenSSH_7.4p1, OpenSSL 1.0.2k-fips 26 Jan 20172.下载软件包(离线包) openssh 源码下载地址: https://mirrors.aliyun.com/pub/OpenBSD/OpenSSH/portable/openssl源码下载 https:/

十一、DMSP/OLS、NPP/VIIRS等夜间灯光数据之GDP空间化——新方法理论介绍

一、前言 之前的空间理论方法是将第一产业GDP和第二、三产业GDP分开,第一产业GDP和耕地面积进行反演,第二、三产业GDP和夜间灯光指数进行拟合,或者干脆不划分产业,就是第一、二、三产业gdp数据和夜间灯指数拟合。之前给大家介绍都是这种,那么现在很多文献提出一种新的做法…

建模杂谈系列256 规则函数化改造

说明 之前尝试用FastAPI来构造规则,碰到的问题是由于请求量过大(TPS > 1000), 从而导致微服务端口资源耗尽。所以现在的point是: 1 如何使用函数来替代微服务(同时要保留使用微服务的优点)2 进一步抽象并规范规则的执行3 等效合并规则的方法 内容 0 机制讨论…