在 Stable Diffusion 1.5 中 Lora, Dreambooth, Textual Inversion的详解指北

Lora, Dreambooth and Textual Inversion 说明

您是否想象过您可爱的宠物与埃菲尔铁塔合影的画面,或者想象过如何生成一张带有您朋友面孔的人工智能图像? 是的,通过稳定扩散技术的微调,这完全是可能的!

创建这些场景的整个过程看似复杂,因为它涉及到以一种看似自然和毫不费力的方式将描绘的特定主题或对象融入新的环境中。 最初,"稳定扩散 "可以生成人脸图像,但往往会生成陌生人的图像。 即使提示名人或人物的名字,结果的准确率也不会达到 90%。 很可能生成的图像相似度低于 50%。

利用稳定扩散技术,可以轻松帮助实现这些图像。 稳定扩散支持通过使用 Lora、Dreambooth 和 Textual Inversion 技术来训练主题。 用户广泛使用这四种训练技术来训练机器,生成准确而具体的主题。 模型训练并不局限于人脸,它可以训练人脸、动物、车辆、家里的花瓶甚至是图片风格等任何类型的主题。

现在,很多人主要用它来训练人脸图像或图片风格(波普艺术风格、矢量风格等)。 Lora、Dreambooth 和 Textual Inversion 是人工智能算法技术的一部分,用于支持稳定扩散等扩散模型的训练和完善。 它的工作原理是将特定对象作为输入输入到模型中。 这是对每种微调如何彼此不同的另一种技术解释。

在这里插入图片描述

  • Dreambooth
    Dreambooth 由谷歌研究团队于 2022 年首次发布。 Dreambooth 可以捕捉主体,并将其整合到任何想要的环境中。 它源于摄影棚的理念,一旦捕捉到主体,就可以重现梦境。

在这里插入图片描述

Dreambooth — https://dreambooth.github.io/

在这里插入图片描述

Dreambooth — https://dreambooth.github.io/

谷歌团队在一篇研究论文中展示了 Dreambooth 的功能,他们仅使用了 4 张柯基犬的照片作为输入。 结果,Dreambooth 模型能够在多种场景下生成许多柯基犬的图像。 DreamBooth 功能强大,可以从任何艺术作品中捕捉图片或风格的精髓。 它允许用户微调和自定义文本到图像的模型以及相应的类名(如 “狗”、“人”、“建筑”)。

Dreambooth 能够产生高质量和多样化的输出。 有人说,Dreambooth 是捕捉特定事物/人物本质的绝佳工具。 梦之窗的训练方法是,它需要使用一个特定的、罕见的、没有太多含义的词来进行主题训练。 之所以需要这样做,是因为这样可以防止人工智能将其与常见的和其他已学过的单词混淆。 其次,Dreambooth 也有先验保护类方法。 基本上,这就是所谓的 “保存图像”,我们将模型中需要防止修改的部分放入类图像中,而将需要训练的部分排除在类图像之外。 但是,如果设置不正确,输出结果可能会与类图像完全相同,或者与训练图像过于相似。 与 LoRA 和文本反转相比,Dreambooth 更容易扭曲色彩平衡和特定对象。

DreamBooth 是一种功能强大的培训方法,它能保留主体身份并忠实于提示。 不过,使用起来可能会令人沮丧,而且需要至少 12GB 的 VRAM。 自定义模型偏重于特定主题或风格,可以生成比标准模型更高质量的图像。 梦ooth 有其局限性,因为它只能生成经过训练的图像,而详细的风格模型可能无法生成任何不熟悉的图像。 梦ooth 的输出通常是 .ckpt (检查点)模型格式。

例如,"Anything "模型可以生成很好的结果,但它只能生成带有图像的背景。 如果我们要求它创建一个 “普通背景”,它是做不到的,因为它不知道那是什么。 这意味着在生成任何不熟悉的东西(如人物、地点或事物)时,细节风格模型可能会失败。 尽管有其局限性,DreamBooth 仍然可以产生很好的效果,但不能取代 LoRA 或文本反演等其他方法。 LoRa 模型被广泛使用,但 DreamBooth 仍然被认为在图像质量方面更胜一筹,因为它可以接受更多的图像输入到自定义模型中。

用户需要确保所有图像都贴有适当的标签,使用较小的学习率,应用事先保存损失,并注意不要过度拟合数据,等等。

很多人不使用 Dreambooth 训练的原因是,它比其他训练方法更 “昂贵”。 训练时间通常在 15 到 20 分钟左右,主要生成高质量和多样化的输出结果,文件大小从 3 GB 到 8 GB 不等,取决于输入图像的质量和数量。 此外,Dreambooth 还能更好地捕捉有关图像风格、模型的所有信息,这些信息都集中在一个检查点上,并具有非常详细的主体特征。

  • LORA (Low-Rank Adaptation)
    在这里插入图片描述
    与其他微调模型相比,LoRA 是一种减少最新发布的训练参数数量的数学技术。 这相当于创建了一个不同的模型,而不是保存整个模型。 微软的研究人员开发了 LoRA,Simo(一种新的图像生成模型)也在稳定扩散中使用了它。 LoRa 就像是模型中的一个补丁或注入的一部分,虽然不如 Checkpoints 那样细致入微,但根据大多数人的共识,它与 Checkpoints 模型(Dreamboooth)的性能相差约 95%。

在这里插入图片描述
在阅读了多个论坛之后,许多评论认为 LoRa 模型优于文本反演。 LoRa 是首选,因为它与 Dreambooth 一样强大,但训练时间更快、内存消耗更少、磁盘空间占用更小。 另一方面,Dreambooth 可以改变色彩平衡和对象,而 LORA 和 TI 却无法做到这一点。 值得注意的是,LoRa 可以与任何在 SD 1.4 或 1.5 上训练过的模型一起使用,无论 Chilloutmix 或其他模型是用来嵌入 LoRa 文件的。 不过,如果 LoRa 模型是在用于生成最终输出的同一模型上训练的,则可获得最佳效果。

强烈建议将 LoRa 用于多个模型,它的大小较小,低于 150MB,甚至可以小到 1MB。 使用 LoRa 进行训练的速度也更快(5-10 分钟不等),训练时所需的 VRAM 也更少。 它非常适合训练只有 5-10 张图像的小型数据集,图像质量越高,效果越好。 LoRa 最适合用于训练人脸和风格,但不建议用于训练逼真的人脸。 不过,如果 LoRa 模型是在用于生成最终输出的相同模型上进行训练,效果会更好。

要创建自己的可重用 LoRA 概念,我们建议您使用 WebUI 进行培训。 需要记住的是,LoRA 模型不能单独使用,需要与检查点模型同时使用。 在文本提示中使用 LoRA 时,我们注意到其格式通常为 <lora:模型名称:LoRA 权重>,例如,它可以像这样 lora:AngelinaJolieV1:0.8。

在这里插入图片描述
模型名称后面的 0.8 表示您希望在输出图像中加入多少 LoRA 权重。 0.8 代表 80%。 权重越高,人工智能就会尽量保留模型的特征。 如果 LoRA 基于动漫人物模型,而 Checkpoint 模型基于真实的 3D 图像,这有时会带来麻烦。 有时它生成的输出会有轻微失真。 通常第一次尝试时,可以将权重设定在 0.6-0.7 之间,以检查 LoRA 是否能与模型很好地融合。

LoRa 模型的一个潜在缺点是,它们似乎高度依赖于所使用的特定训练数据。 例如,基于 ChillOutMix 训练的 LoRA 模型可能在 ChillOutMix 模型上表现良好,但在 Dreamshaper 模型上却不行。 另一方面,Textual Inversion 在各种基于 1.5 的模型中似乎都能很好地发挥作用。

在这里插入图片描述

  • Textual Inversion

Textual Inversion 是一种在小文件中向模型教授概念(如人或物)的方法。 它的优点是占用磁盘空间小,使用方便。 文本反转的优点是体积小,在提示中使用方便。 文本反转的最小输出大小仅为 40 至 100 kb(千字节),如果您没有大容量存储设备,但又想用电脑进行各种科目的训练,那么文本反转就非常有用。

一般来说,文本反演包括捕捉物体或人物的图像,为其命名(例如,Abcdboy),并将其纳入稳定扩散,用于生成图像提示(例如,Abcdboy)。

在这里插入图片描述
在这里插入图片描述
使用 Textual Inversion 技术进行面部训练是一个极佳的选择,因为它比其他训练技术更具适应性,而且所需的空间也最小。 这种方法通过利用模型已有的知识来指导其获得所需的人物外观,从而使您能够事半功倍地获得类似的效果。 如果操作得当,它们的准确性非常可靠,使用起来也非常灵活。 Textual Inversion 最适合训练一个。

Textual Inversion 为生成器提供如何创建图像的指导,通常只包含 10-30k 的提示,而自定义模型可能包含几 GB 的数据。 要在如此有限的空间内包含如此多的信息,Textual Inversion 是不可行的。 因此,Textual Inversion 仅限于一个较小的 “概念”,而无法包含像 "动漫风格 "这样宽泛的概念。 动漫的 Textual Inversion 可能只能根据用于训练 Textual Inversion 的图片生成一到两个姿势,而不是自定义模型中的众多姿势。 建议在训练文字反演时只使用几张图片,因为过度训练或训练过度会使其失效。

Textual Inversion 可以影响整个图像,这一点是正确的,但同样的道理也适用于添加到提示中的任何单词。 与文字提示一样,Textual Inversion 的目的是引导图像生成器到达模型潜在空间中的特定位置,而自定义模型实际上是修改潜在空间本身,从而产生更显著的影响。

Textual Inversion 主要是通过充当提示语助手,向模型教授一个概念,如人或物。 这种方法也有其缺点,比如会占用提示符的标记位置,而且不适合完美复制。 不过,如果与一个好的模型相结合,Textual Inversion 可以产生极佳的效果。

需要注意的是,Textual Inversion 一般只适用于它所训练的模型,而且更适用于照片逼真的模型,而不是动漫模型。 Textual Inversion 本质上包含一个描述人的面部特征(如鼻子大小和眼睛形状)的向量,因此更适合逼真的模型。

在这里插入图片描述
我们甚至可以在一次提示中使用多个 Textual Inversion(不像Dreambooth,一次只能使用一个 checkpoint )。 不过,这些方法不如其他方法有效,因为它们对生成器的提示较少。 Textual Inversion 最适合逼真的脸部而非动画风格的脸部,因为它只包含有限的信息量。 此外,您不能同时使用两个检查点,因此必须以丢失部分信息为代价合并它们。 文本反转就像一个提示助手,可以引导图像生成器到达模型潜在空间中的某个位置。 当它与一个好的模型搭配时效果最佳,但它只适用于你训练它的模型。

这其中有许多因素在起作用,包括训练者的技能和输入资源的质量。 如果您只想训练特定的人或物体图像,我们建议用户使用 LoRA 作为稳定扩散的主要训练方法,因为它高效且易于实施。 与其他类型的训练方法相比,LoRA 的使用率更高。 这得益于较低的硬件要求和较短的训练时间。 这意味着模型创建者有更大的潜力和效率,有更多的机会进行实验和微调。 另一方面,如果您想训练主题和风格的整体概念,Dreambooth 将是利用完整训练方法的最佳选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/143197.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

设备稳定流畅视频体验,乐鑫ESP32-S3芯片方案无线音视频传输通信

在快节奏的现代生活中&#xff0c;家庭安全和便利性成为了人们日益关注的话题。随着物联网技术的发展&#xff0c;智能家居安全系统正逐渐成为守护家庭的新选择。 家居安全如门锁和警报器&#xff0c;这些产品通过先进的传感器、摄像头和智能分析技术&#xff0c;不仅能够实时…

vulnhub-prime1

目录 靶场环境解题过程 靶场环境 项目ip靶机&#xff08;prime&#xff09;未知攻击机&#xff08;kali&#xff09;10.128.129.128 解题过程 打开靶机&#xff0c;我们只能看见一个登录界面&#xff0c;上面只有半截提示 我们首先要做的是主机发现&#xff0c;因为是网络适…

Flag_AGtivity_clear_top网页编程指南如何退出多activity程序

activity的启动模式:FLAG_ACTIVITY_CLEAR_TOP和FLAG_ACTIVITY_REORDER_TO_FRONT。 1. 如果已经启动了四个Activity&#xff1a;A&#xff0c;B&#xff0c;C和D。在D Activity里&#xff0c;我们要跳到B Activity&#xff0c;同时希望C finish掉&#xff0c;可以在start…

安卓好软-----跳过app应用开屏广告的小工具 无需root权限

工具特点; 软件很小。而且权限不多。无需root权限。测试效果还是不错的 应用利用了安卓系统的辅助功能API&#xff0c;可以读取您手机屏幕上显示的所有内容&#xff0c;并且可以以您的名义进行屏幕点击等操作。 * 轻量无广告&#xff0c;不联网&#xff0c;也不需要任…

PostgreSQL技术内幕11:PostgreSQL事务原理解析-MVCC

文章目录 0.简介1.MVCC介绍2.MVCC常见的实现方式3.PG的MVCC实现3.1 可见性判断3.2 提交/取消 0.简介 本文主要介绍在事务模块中MVCC(多版本并发控制&#xff09;常见的实现方式&#xff0c;优缺点以及PG事务模块中MVCC&#xff08;多版本并发控制&#xff09;的实现。 1.MVCC…

香港科技大学工学院2025/2026年度硕士研究生(MSc)项目招生宣讲会——哈尔滨工业大学(深圳)

&#x1f514;香港科技大学工学院2025/2026年度硕士研究生&#xff08;MSc&#xff09;项目招生宣讲会 &#x1f559;时间&#xff1a;2024年9月24日(星期二) 19:00 &#x1f3e0;地点&#xff1a;哈尔滨工业大学&#xff08;深圳&#xff09;T5栋教学楼603室 &#x1f386;2…

如何在ubuntu中安装code-server搭建一个在线编程环境

code-server 是一个开源项目&#xff0c;它允许你在浏览器中运行 Visual Studio Code。通过 code-server&#xff0c;你可以远程访问一个运行 Visual Studio Code 的服务器&#xff0c;并在任何设备上使用浏览器来编辑代码。这使得你可以在轻量级设备上&#xff08;如平板电脑或…

HDMI色块移动——FPGA学习笔记13

一、方块移动原理 二、实验任务 使用FPGA开发板上的HDMI接口在显示器上显示一个不停移动的方块&#xff0c;要求方块移动到边界处时能够改变移动方向。显示分辨率为800*480&#xff0c;刷新速率为90hz。&#xff08;480p分辨率为800*480&#xff0c;像素时钟频率Vga_clk 800x4…

EmguCV学习笔记 VB.Net 11.9 姿势识别 OpenPose

版权声明&#xff1a;本文为博主原创文章&#xff0c;转载请在显著位置标明本文出处以及作者网名&#xff0c;未经作者允许不得用于商业目的。 EmguCV是一个基于OpenCV的开源免费的跨平台计算机视觉库,它向C#和VB.NET开发者提供了OpenCV库的大部分功能。 教程VB.net版本请访问…

spring boot 定时器配置

1、首先在主类上加EnableScheduling注解 2、在应用类上加Scheduled注解&#xff0c;同时记得添加spring的组件注解Component&#xff0c;不然无法成功

JavaEE初阶——初识EE(Java诞生背景,CPU详解)

阿华代码&#xff0c;不是逆风&#xff0c;就是我疯&#xff0c;你们的点赞收藏是我前进最大的动力&#xff01;&#xff01;希望本文内容能帮到你&#xff01; 目录 零&#xff1a;Java的发展背景介绍 一&#xff1a;EE的概念 二&#xff1a;计算机的构成 1&#xff1a;CU…

玖逸云黑系统源码 v1.3.0全解无后门 +搭建教程

功能带有卡密生成和添加黑名单等&#xff0c;反正功能也不是很多具体的自己看程序截图即可。 搭建教程 完成 1.我们先添加一个站点 2.PHP选择7.3 3.上传源码解压 4.导入数据库 5.配置数据库信息config.php 源码下载&#xff1a;https://download.csdn.net/download/m0_6…

openFrameworks_如何设置标题图标

openframework在一些东西的时候很方便&#xff0c;但是有些关于windows设置方面的东西提供的库却很有限。 ofSetWindowTitle("MoTeng Motion Detection Tool v1.0"); HWND handle WindowFromDC(wglGetCurrentDC());//取得环境句柄 setIcon(handle, "data//I…

接口幂等性和并发安全的区别?

目录标题 幂等性并发安全总结 接口幂等性和并发安全是两个不同的概念&#xff0c;虽然它们在设计API时都很重要&#xff0c;但侧重点不同。 幂等性 定义&#xff1a;幂等性指的是无论对接口进行多少次相同的操作&#xff0c;结果都是一致的。例如&#xff0c;HTTP的PUT和DELE…

在网络环境中怎么保护个人信息安全?

在网络环境中保护个人信息安全非常重要&#xff0c;以下是一些基本的建议来帮助您保护自己的个人信息&#xff1a; 使用强密码&#xff1a;确保您的所有在线账户都使用强密码。强密码通常包含大写字母、小写字母、数字以及特殊字符&#xff0c;并且长度至少为12位以上。 启用双…

WAAP解决方案:守护数字时代的安全盾牌

在当今这个数字化、数据驱动的时代&#xff0c;网络安全已成为企业运营中不可或缺的一环。随着Web应用程序和API接口在业务中的广泛应用&#xff0c;其面临的安全威胁也日益复杂多变。为此&#xff0c;WAAP&#xff08;Web Application and API Protection&#xff09;解决方案…

制造业的智能化革命:工业物联网(IIoT)的优势、层级应用及挑战解析

在全球制造业的蓬勃发展中&#xff0c;工业物联网&#xff08;IIoT&#xff09;作为一股颠覆性力量&#xff0c;正逐步重塑传统制造业的面貌。IIoT技术通过无缝连接设备、系统与人员&#xff0c;促进了数据的即时流通与处理&#xff0c;不仅极大地提升了制造效率&#xff0c;还…

Oracle EBS form个性化中调用带参数的存储过程或者函数

方式1 通过活动-消息 调用 这个方式的特点是会有一个消息弹框&#xff0c;不需要弹框时可以用方式2 方式2 通过 内置-执行过程 这个地方【变元】中的引用有点复杂&#xff0c;其中参数要用如下格式进行 #三个单引号||项目的表达式 ||${item.BLOCKNAME.FIELDNAME.value}|| #如…

2024短剧系统开发,付费短剧小程序app源码教程,分销功能讲解搭建上线

短剧系统技术栈 前端&#xff1a;vue3uniapp 后端&#xff1a; php 数据库&#xff1a;mysql 服务器环境&#xff1a; centos7.6 宝塔 php7.4 MySQL5.7 一、短剧系统功能 短剧用户端&#xff1a; 小程序、抖音小程序、快手小程序、APP、 z付宝小程序 系统用户端详细功能&…

产业创新不息,产业运营中心如何成为你的创意孵化器?

在这个产业创新浪潮涌动的时代&#xff0c;产业运营中心正以其独特的魅力&#xff0c;成为众多创业者和企业的创意孵化器。那么&#xff0c;它究竟是如何做到的呢&#xff1f; 1、产业运营中心首先为你提供了一个充满活力和创新氛围的空间。在这里&#xff0c;你将与来自不同领…