AIGC生图基础知识

一、引言

AIGC,即AI-Generated Content,是一种利用大型预训练模型如生成对抗网络(GAN)、扩散网络(Diffusion)和语言大模型(Transformer)等人工智能技术,通过对大量数据进行学习和模式识别,最终创造出各种类型内容的技术。例如,AIGC可以根据输入的“提示词”(如关键词或描述)或参考图片,生成相应的文章、图像、音频、视频等内容。

对于AIGC而言,目前比较火热的应用场景有文本生成(ChatGPT、文心一言、通义千问等) 以及生图场景(妙鸭相机、文心一格等等)。

当前的AIGC生图已经被广泛应用于各种商业落地场景,例如广告宣传图、个人形象生成甚至是一些灰色产业。

得益于最近在做项目有所涉猎AIGC相关内容,进行一次简单的总结分享。

目前主流的生图选型有StableDiffusion、Midjourney、DALL-E等,由于StableDiffusion开源的属性以及丰富的生态,下文主要介绍均基于StableDiffusion,以及基于StableDiffusion的WebUI、ComfyUI。

二、Stable Diffusion基础

简介

Stable Diffusion是一种基于概率的机器学习模型,用于生成具有特定结构和特征的数据。

该模型通过逐步引入结构和模式,从无到有地生成数据。在Stable Diffusion中,这个过程被用来从随机噪声中生成图像。

Stable Diffusion生图过程

基本流程就是将图片进行扩散,扩散成一些随机的像素点之后,再通过预先训练好的模型,对扩散后的图片,进行一定秩序的生成,从而实现生成指定效果照片的作用。

生图过程中的一些核心概念

  • 对于SD模型,其autoencoder模型参数大小为84M,CLIP text encoder模型大小为123M,而UNet参数大小为860M,所以SD模型的总参数量约为1B

autoencoder:encoder将图像压缩到latent空间,而decoder将latent解码为图像;

CLIP text encoder:提取输入text的text embeddings,通过cross attention方式送入扩散模型的UNet中作为condition;

UNet:扩散模型的主体,用来实现文本引导下的latent生成。

基于以上概念,生成图片的过程图:

 

Stable Diffusion与其他生成模型的对比

名称

作者

优点

缺点

价格

Stable Diffusion

StabilityAI、CompVis与Runway合作开发

免费试用!价格便宜、开源、操作控制性强

对使用者要求高

公有云:$10=约5千张图

开源版本:

免费

Midjourney

Midjourney

使用直接、上手快、图片质量高

通过Discord使用、图像公开

基础月费:$10/月

DALL·E 3

OpenAI

用户友好、功能齐全

收费最贵

ChatGPT Plus可以使用:$20/月

三、Stable Diffusion WebUI

Stable Diffusion WebUI是对Stable Diffusion模型进行封装,提供可操作界面的工具软件,ComfyUI基本同理。

github地址:GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI

WebUI的定义与功能介绍

定义

Stable Diffusion WebUI是由AUTOMATIC1111等社区开发者基于Gradio为Stable Diffusion模型提供的一个图形化界面工具。

它封装了Stable Diffusion模型的核心功能,并通过Web技术构建了一个用户友好的界面,使得用户无需深入了解模型背后的复杂原理,即可通过简单的操作实现高质量的图像生成。

功能介绍

  1. 文本到图像生成(txt2img)

    • 用户可以输入一段描述性文本,Stable Diffusion WebUI会根据这段文本生成相应的图像。这是Stable Diffusion模型最基本且最常用的功能。

    • 用户可以调整多种生成参数,如采样方法(Sampler)、迭代步数(Sampling steps)、图像尺寸(Width & Height)、批次计数(Batch count)、每批数量(Batch size)等,以获得满意的生成效果。

  1. 图像到图像生成(img2img)

    • 该功能允许用户以一张现有图像为基础,结合文本描述生成新的图像。这可以用于图像编辑、风格迁移等场景。

    • 用户可以指定图像的重绘幅度(Denoising strength)和缩放模式等参数,以控制生成图像与原始图像之间的关系。

  1. 模型切换与管理

    • Stable Diffusion WebUI支持多种模型,包括基础模型(Checkpoint)和辅助模型(如Lora、Embeddings等)。用户可以根据需要切换不同的模型,以获得不同风格或更高质量的生成效果。

    • 用户还可以下载和管理自己的模型文件,通过WebUI进行加载和使用。

  1. 内容填充(Inpaint)

    • Inpaint功能允许用户修复图像中被遮罩的部分或添加新的内容。用户可以使用鼠标在图像上绘制遮罩区域,然后Stable Diffusion WebUI会根据周围图像的内容和用户的提示词重新生成该区域的内容。

  1. 参数调整与优化

    • Stable Diffusion WebUI提供了丰富的参数调整选项,可以根据自己的需求和偏好进行个性化设置。例如,调整分类器无指导比例(CFG Scale)以控制模型遵循提示的程度,使用随机种子(Seed)以获得可重复的生成结果等。

  1. 实时预览与导出

    • 在生成图像的过程中,Stable Diffusion WebUI提供了实时预览功能,用户可以随时查看生成效果的变化。

    • 生成完成后,用户可以将图像导出为常见的文件格式(如PNG、JPEG等),并进行进一步的编辑和处理。

如何使用WebUI进行Stable Diffusion图像生成

WebUI的常用功能与参数设置(txt2img、img2img等)

WebUI生图的典型案例分享与解析(Lora、Embeding)

正向提示词:

 

SFW, masterpiece, best quality, 1 girl, brown hair, brown eyes, smile, standing, dynamic pose, outdoors, city background,

facial_mark, whisker_markings, 1girl, blue bodysuit, long_hair, pilot_suit, solo, facepaint, headphones, gun, brown_hair, holding_gun, swept_bangs, clothes_writing, bangs, breasts, blue_background, hand_on_hip, animal_print, handgun, brown_eyes, medium_breasts, holding_weapon, bracer, ribbed_bodysuit, weapon, white_gloves, shoulder_pads, holding, high_collar, turtleneck, standing, white_footwear, full_body, pink_lips, gloves, hand_up, pistol, skin_tight, smile

负向提示词:

 

nsfw, nude, censored, bad anatomy, bad hands, missing fingers, extra fingers, three hands, three legs, bad arms, missing legs, missing arms, poorly drawn face, bad face, fused face, cloned face, three crus, fused feet, fused thigh, extra crus, ugly fingers, horn, cartoon, cg, 3d, unreal, animate, amputation, disconnected limbs

Embeding(文本嵌入/嵌入式向量)

Embeding是一种占用空间极小的模型文件,通常只有几十到几百kb左右。

在概念上,Embeding代表了一种文本嵌入的方式。如果说Checkpoint是一本大字典,限定了我们给的提示词能够产生怎么样的效果,那么Embeddings就像是上面的一片小索引,它能够精准的指向个别字、词汇的含义,从而提供一个极其高效的索引集合。每个Embedding都相当于给我们将能够生成特定效果的提示词整合到一起,在我们使用的时候便输入到“字典”当中,去获取数据输入给模型。

例如,对于一个没有输入Embedding的图片生成效果:

Embedding后:

明显可以看出来embedding后拥有了一些比较有特征性的内容。

Lora(低秩模型)

如果说Embeddings书签,我们能通过书签在字典内索引到一些对一些关键信息,那么LoRa就像夹在书中的彩页,可以在字典之外提供一些新的内容。

对于一个Lora,会通过一些模型进行训练,将一些需要的数据特征写入到Lora当中,直接写清楚了需要信息的所有特点介绍,所以大模型对这种信息的了解一定是更为准确的,同时他的影响力度也是要更大一些。

此外,由于Lora是一个经过数据训练后的模型,里面的数据量比较大,因此Lora比Embeddings所占用空间更大一点,容量大概在100-200MB左右。

对于上面的图片,我们进行Lora后:

如果觉得太过影响原图,我们可以进行力度的降低:



四、ComfyUI与Stable Diffusion

ComfyUI的定义

github:GitHub - comfyanonymous/ComfyUI: The most powerful and modular diffusion model GUI, api and backend with a graph/nodes interface.

ComfyUI是一个为Stable Diffusion设计的基于节点的图形用户界面(GUI)。它允许用户通过连接不同的节点(称为“块”)来构建复杂的图像生成工作流程。这种设计使得ComfyUI成为一个高度模块化、灵活且可定制的工具,适用于需要精细控制和高度自定义的图像生成任务。ComfyUI不仅是一个用户界面,还是一个具有强大功能和高度模块化设计的系统,主要用Python、JS和CSS开发,其GitHub页面描述它为“最强大且模块化的稳定扩散GUI、API和后端,带有图形/节点界面”。

ComfyUI的特点

  1. 图像生成与编辑:可以利用ComfyUI进行复杂的图像生成和深度编辑,提升创作效率和作品质量。

  2. 显存优化:相比传统的WebUI,ComfyUI在相同显存条件下可以处理更大规模、更高品质的图像生成任务,特别适用于对显存需求较高的场景。

  3. 高效的图像生成:ComfyUI能够在显存占用更少的情况下,呈现更宏伟的图像,适合处理复杂和长线项目。

  4. 可靠的复现能力:通过其独特的工作流程设计,ComfyUI不仅能够精准定制图像,还能实现可靠的复现,确保每次生成的图像一致。相对于WebUI而言,可以更快的复刻某个效果。

  5. 扩展性和管理功能:ComfyUI提供了一系列管理功能,包括安装、移除、禁用和启用各种自定义节点,方便用户根据需求进行扩展和定制。

  6. 高度定制性:用户可以通过调整模块连接来定制工作流程,实现高度个性化的图像生成方案。

ComfyUI的节点式工作流程与优势

节点式工作流程

ComfyUI采用节点式工作流程设计,用户可以将不同的功能块(节点)通过连接线组合在一起,形成一个完整的工作流程。这种设计方式使得用户可以灵活地构建和修改图像生成流程,无需编写复杂的代码。节点类型多样,包括加载检查点模型、输入提示、指定采样器等,可以满足不同的图像生成需求。

优势

  1. 灵活性:节点式工作流程使得用户可以根据具体需求自由组合不同的节点,实现高度定制化的图像生成方案。

  2. 可视化:整个工作流程以可视化的形式展现,用户可以直观地看到每个节点的作用和它们之间的连接关系,便于理解和调试。

  3. 复用性:用户可以将自己创建的工作流程保存并分享给他人,或者加载其他用户分享的工作流程,从而提高工作效率和创作灵感。

  4. 可扩展性:ComfyUI支持安装和使用各种自定义节点,用户可以根据需要扩展新的功能,满足不断变化的创作需求。

  5. 错误追踪:在发生错误时,节点式工作流程能够清晰地显示错误发生的具体位置和原因,便于用户快速定位和解决问题。

使用ComfyUI进行Stable Diffusion图像生成的定制与优化

ComfyUI生图的典型案例分享

ControlNet(图像轮廓控制)

ControlNet 是一个用于控制 AI 图像生成的插件。它使用了一种称为"Conditional Generative Adversarial Networks"(条件生成对抗网络)的技术来生成图像。与传统的生成对抗网络不同,ControlNet 允许用户对生成的图像进行精细的控制。

ControlNet的出现解决了AIGC生图过程中的形状的不可控制性,让AIGC生图拥有了让控制图像生成的能力,让一些AIGC商业落地成为了真正可能。



openPose输入:

针对最开始生成的角色图,openPose结果:

五、总结与展望

Stable Diffusion、WebUI、ComfyUI的基础知识

本文大概介绍了以下内容:

  • StableDiffusion生图的基本原理

  • WebUI的基础使用

  • ComfyUI的基础使用

  • Embedding、Lora、Controlnet的基础学习

AIGC生图的挑战

  1. 原创性与版权问题

    • AIGC生成的图像是否享有版权保护,以及版权归属如何界定,目前尚无明确的法律规定。这可能导致版权纠纷和侵权问题。

  1. 语义鸿沟

    • 文本描述与视觉图像之间存在巨大差异,AI模型在理解和转换过程中可能产生偏差,导致生成的图像不符合预期。对于创作者而言,需要选择合理的Prompt提示词输入,以及合适的生成模型。

  1. 伦理与隐私问题

    • AIGC生图技术可能被用于生成具有误导性、歧视性或侵犯隐私的图像,从而引发伦理争议和法律风险。因此,在推动AIGC技术发展的同时,伦理规范和隐私保护会是一个比较尴尬的问题。

AIGC生图的未来发展与应用前景

  1. 技术进步与创新

    • 随着生成对抗网络(GAN)、Diffusion Models等技术的演进,AIGC生图在自动化、数字化和个性化方面将实现质的突破。未来,AIGC将能够生成更加逼真、多样且富有创意的图像。

  1. 应用场景拓展

    • AIGC生图技术将在更多领域得到应用,通过生成个性化、高质量的图像内容,AIGC将为各行各业带来深刻变革和新的发展机遇。

  1. 商业模式创新

    • 基于AIGC技术的SaaS服务、定制化内容生成服务、内容分发平台等新型商业模式将不断涌现。

参考:

B站第一套系统的AI绘画课!零基础学会Stable Diffusion,这绝对是你看过的最容易上手的AI绘画教程 | SD WebUI 保姆级攻略_哔哩哔哩_bilibili

StableDiffusion 基本原理

Stable Diffusion进阶!姥姥都能看懂的ControlNet超全教程! - 优设网 - 学设计上优设

https://zhuanlan.zhihu.com/p/617134893





本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/145777.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

通过springcloud gateway优雅的进行springcloud oauth2认证和权限控制

代码地址 如果对你有帮助请给个start,本项目会持续更新,目标是做一个可用的快速微服务开发平台,成为接私活,毕设的开发神器, 欢迎大神们多提意见和建议 使用的都是spring官方最新的版本,版本如下&#xff1…

样本册3D翻页电子版和印刷版同时拥有是一种什么体验

​在数字化时代,样本册3D翻页电子版的兴起,让传统印刷版样本册面临着前所未有的挑战。与此同时,许多企业也开始尝试将两者相结合,以满足更多元化的市场需求。那么,拥有一份既具备数字化优势,又保留传统印刷…

生信初学者教程(一):欢迎

文章目录 配套数据R包版本安装包版权答疑在生物信息学(生信)领域,随着高通量测序技术的不断发展,大量数据涌现,为科研工作者提供了丰富的资源。然而,对于初学者而言,如何从海量的数据中挖掘有价值的信息,并开展一个完整的生信项目,仍然是一个挑战。目前,市面上针对初…

PACKMOL 一:手把手教你用Linux安装 packmol

文章目录 1. PACKMOL介绍PACKMOL的主要用途:使用场景:优点: 2. PACKMO安装3. PACKMO验证结束语 1. PACKMOL介绍 PACKMOL 是一个开源软件,用于生成分子动力学模拟所需的初始结构。它的主要功能是根据用户定义的几何约束&#xff0…

Excel--WPS 函数与公式技巧(轻松搞定各类排名)

一、直接按成绩或数值的排序(rank函数轻松搞定) 以上函数非常简单,记住两点: 1.rank排名同分作为同一名次,后面的名次需要占位,如,以上两个70分,同为第8名,那么第9名将被…

局域网变压器市场价值

2024 年全球局域网变压器市场价值为 3.056 亿美元,预计到 2030 年将达到 4.426 亿美元,2024-2030 年的复合年增长率为 5.4%。 局域网变压器市场包括用于改变电信号电压或格式的产品,以改善和简化局域网 (LAN) 上的数据传输。这些变压器对于保…

01_WebRtc_一对一视频通话

文章目录 通话网页的设计客户端实现Web的API 服务端实现 2024-9-20 很久没有写博客啦,回顾总结这段时间的成果, 写下博客放松下(开始偷懒啦)主要内容:实现网页(html)打开摄像头并显示到页面需要…

《 LiteFlow 规则引擎(1) - 入门篇》

📢 大家好,我是 【战神刘玉栋】,有10多年的研发经验,致力于前后端技术栈的知识沉淀和传播。 💗 🌻 CSDN入驻不久,希望大家多多支持,后续会继续提升文章质量,绝不滥竽充数…

品牌力是什么?如何评估企业品牌影响力?

品牌影响力,其实就是指品牌在消费者心智中所占据的位置,以及它对消费者购买决策和行为的影响力。如果一个企业的品牌影响力越强,它在消费者心中的印象就越深刻,能够更有效地驱动消费者的购买行为,形成品牌忠诚度&#…

Windows用管理员运行cmd命令后无法切换盘符

解决方法:在你的切换的盘符前面加上/d,如原本命令是:cd d:\。变为:cd /d d:\。

C++的扩充和封装

作业: 手动封装一个顺序表(SeqList),分文件编译实现 有私有成员:顺序表数组的起始地址 ptr、 顺序表的总长度:size、顺序表的实际长度:len 成员函数:初始化 init(int n) 判空:em…

Zabbix 6.4添加中文语言

/usr/share/zabbix/include/locales .inc .phplocale -agrep “zh_CN" yum install langpacks-zh_CN.noarch y y y

浅谈死锁以及判断死锁的方法

引言 我们在并发情况下见过很多种锁,synchronized,ReentrantLock 等等,这些锁是为了保证线程安全,使线程同步的锁,与今天所要学习的死锁并不相同,死锁并不是一种锁,而是一种现象。 官方定义&a…

【CTF Reverse】XCTF GFSJ1101 Mine- Writeup(反编译+动态调试+Base58编码)

Mine- 运气怎么这么差? 原理 Base58 Base58是用于比特币(Bitcoin)中使用的一种独特的编码方式,主要用于产生Bitcoin的钱包地址。 相比Base64,Base58不使用数字"0",字母大写"O"&…

想要监控电脑?这十款电脑监控软件推荐!

在选择电脑监控软件时,重要的是要明确你的监控目的,并确保所选软件符合法律法规和道德标准。以下是我为你推荐的十款电脑监控软件,它们各自具有不同的特点和功能,适用于不同的场景和需求: 1.安企神: 作为…

从混乱到清晰!借助Kimi掌握螺旋型论文结构的秘诀!

AIPaperGPT,论文写作神器~ https://www.aipapergpt.com/ 写学术论文有时会让人感到头疼,特别是在组织结构和理清思路时,往往觉得无从下手。 其实,找到合适的结构不仅能帮你清晰地表达研究成果,还能让你的论文更有说…

数据建模无法满足复杂业务需求?别慌,数据开发平台可以完美互补!

前言 数据可视化建模无论是对于企业的数字化转型,还是对数据资源的价值开发来说,都是至关重要的工具,小兵在前文《数据可视化建模平台介绍》。中有详细介绍过他的能力,包括面向多源异构的企业数据,为企业提供数据集成…

PCL 读取txt格式点云并可视化

目录 一、概述 1.1原理 1.2实现步骤 1.3应用场景 二、代码实现 2.1关键函数 2.2完整代码 三、实现效果 PCL点云算法汇总及实战案例汇总的目录地址链接: PCL点云算法与项目实战案例汇总(长期更新) 一、概述 1.1原理 TXT格式的点云文…

4.5 pandas 实战 分析抖音播放数据(1)

课程目标 基于pandas对抖音播放数据做数据分析 数据准备 点此去下载 课程内容 导包 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns plt.rcParams["font.family"] "SimHei" plt.rcParams["ax…

焦化行业的变革力量:智能巡检机器人

根据相关数据,2024年1-2月份,焦炭产量为8039.5万吨,同比增长2.1%,这表明,我国焦化行业仍是全球最大的焦炭生产国和消费国,其市场规模占据了重要地位。焦化企业主要集中在山西省,其合计焦炭产能约…