[大语言模型] LINFUSION:1个GPU,1分钟,16K图像

1. 文章

2409.02097 (arxiv.org)icon-default.png?t=O83Ahttps://arxiv.org/pdf/2409.02097

LINFUSION: 1 GPU, 1 MINUTE, 16K IMAGE

摘要

本文介绍了一种新型的扩散模型LINFUSION,它能够在保持高分辨率图像生成性能的同时显著降低时间和内存复杂度。该模型采用了基于Transformer的UNet进行去噪,并且通过引入线性注意力机制替代了传统的自注意力操作,以解决高分辨率视觉内容生成中的挑战。研究者们从最近引入的具有线性复杂度的模型中获得灵感,提出了一种新的线性注意力范式,该范式可作为多种流行的线性令牌混合器的低秩近似。通过从预训练的StableDiffusion (SD)模型中初始化并进行知识蒸馏,LINFUSION在适度训练后即可达到或超过原始SD的性能,同时显著减少时间和内存复杂度。实验表明,LINFUSION能够生成高达16K分辨率的高分辨率图像,并且与预训练的SD组件(如ControlNet和IP-Adapter)高度兼容。

创新点

  1. 提出了一种新的线性注意力机制,作为传统自注意力方法的替代,以解决高分辨率图像生成中的时间和内存复杂度问题。
  2. 引入了注意力归一化和非因果推理两个关键特性,以增强高分辨率视觉生成性能。
  3. 通过知识蒸馏的方式,从预训练的StableDiffusion模型中初始化并优化LINFUSION,减少了训练成本并提高了与现有模型的兼容性。

算法模型

LINFUSION模型基于Stable Diffusion (SD),通过以下关键技术构建:
线性注意力机制:替代SD中的自注意力层,以线性复杂度处理空间令牌。
注意力归一化:确保不同输入规模下的总影响保持一致。
非因果推理:允许模型同时访问所有噪声空间令牌并基于整个输入生成去噪令牌。
知识蒸馏:从预训练的SD模型中转移知识,以优化LINFUSION模型。

实验效果

  • 生成速度和内存消耗:在8步去噪和单GPU情况下,与原始SD-v1.5相比,LINFUSION在不同分辨率下的生成速度更快,内存消耗更低。
  • 跨分辨率生成性能:在SD-v1.5、SD-v2.1和SD-XL上的实验表明,LINFUSION在零样本跨分辨率生成性能上令人满意,能够生成高达16K分辨率的图像。
  • 与预训练组件的兼容性:LINFUSION与SD的现有组件(如ControlNet和IP-Adapter)高度兼容,无需额外训练成本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/146890.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【前端】ES6:Class语法和Class继承

文章目录 1 Class语法1.1 类的写法1.2 getter与setter1.3 静态属性和静态方法 2 Class继承 1 Class语法 1.1 类的写法 class Person {constructor(name,age){this.name name;this.age age;}say(){console.log(this.name,this.age)} } let obj new Person("kerwin&quo…

python--基础语法(2)

1.顺序语句 默认情况下,Python的代码执行顺序是按照从上到下的顺序,依次执行的。 2.条件语句 条件语句能够表达“如果 ...否则 ...”这样的语义这构成了计算机中基础的逻辑判定条件语, 也叫做 分支语句。表示了接下来的逻辑可能有几种走向…

SysML图例-10cm最小航天器AC-10

DDD领域驱动设计批评文集>> 《软件方法》强化自测题集>> 《软件方法》各章合集>> SysML图中词汇 AC10 AeroCube-10,大小仅为10 10 15 cm的卫星,更多信息参见下文: AeroCube-10成为迄今为止完成在轨接近操作的最小航天…

yolov8模型在手部关键点检测识别中的应用【代码+数据集+python环境+GUI系统】

yolov8模型在手部关键点检测识别中的应用【代码数据集python环境GUI系统】 背景意义 在手势识别、虚拟现实(VR)、增强现实(AR)等领域,手部关键点检测为用户提供了更加自然、直观的交互方式。通过检测手部关键点&#…

移动登录页:让用户开启一段美好的旅程吧。

Hi,大家好,我是大千UI工场,移动登录页千千万,这里最好看,本期分享一批移动端的登录页面,供大家欣赏。 本次分享的是毛玻璃/3D风格的登录页。

Linux文件IO(七)-复制文件描述符

在 Linux 系统中,open 返回得到的文件描述符 fd 可以进行复制,复制成功之后可以得到一个新的文件描述符,使用新的文件描述符和旧的文件描述符都可以对文件进行 IO 操作,复制得到的文件描述符和旧的文件描述符拥有相同的权限&#…

【文化课学习笔记】【化学】选必三:合成高分子生物大分子

【化学】选必三:合成高分子&生物大分子 如果你是从 B 站一化儿笔记区来的,请先阅读我在第一篇有机化学笔记中的「读前须知」(点开头的黑色小三角展开):链接 加聚反应 基本概念 聚合反应 由小分子化合物合成高分子化合物的反应叫聚合反应。…

学习 git 命令行的简单操作, 能够将代码上传到 Gitee 上

首先登录自己的gitee并创建好仓库 将仓库与Linux终端做链接 比如说我这里已经创建好了一个我的Linux学习仓库 点开克隆/下载: 在你的终端中粘贴上图中1中的指令 此时他会让你输入你的用户名和密码,用户名就是上图中3中Username for ....中后面你的一个…

秒变 Vim 高手:必学的编辑技巧与隐藏功能大揭秘

文章目录 前言一、vi与vim二、Vim的三种模式1. 普通模式2. 插入模式3. 命令模式 三、Vim中的查找与替换1. 查找2. 替换 四、给Vim设置行号1. 临时显示行号2. 永久显示行号 总结 前言 在Linux系统中,文本编辑器是开发者和系统管理员日常工作中的重要工具之一。其中&…

手机号归属地查询-运营商归属地查询-手机号归属地信息-运营商手机号归属地查询接口-手机号归属地

手机号归属地查询接口是一种网络服务接口,它允许开发者通过编程方式查询手机号码的注册地信息。这种接口通常由第三方服务提供商提供,并可通过HTTP请求进行调用。以下是一些关于手机号归属地查询接口的相关信息: 1. 接口功能 归属地查询&am…

HTB-GreenHorn 靶机笔记

GreenHorn 靶机笔记 概述 GreenHorn 是 HTB 上的一个 linux easy 难度的靶机,主要是通过信息搜集和代码审计找到对我们有用的信息。其中还包含了对pdf文件的修复技术 靶机地址:https://app.hackthebox.com/machines/GreenHorn 一丶 nmap 扫描 1&…

https加密原理

以为http的数据都是以明文传送,会有很大的安全问题,所以出现的https协议。https就是在http协议的基础上增加了一个安全层,可以对数据进行加密和解密(例如SSL、TLS等)。 https加密解密的原理:证书非对称加密对称加密 在讲解原理前…

用友网络交付总监刘伟伟受邀为第四届中国项目经理大会演讲嘉宾

全国项目经理专业人士年度盛会 用友网络科技股份有限公司区域交付总监刘伟伟先生受邀为PMO评论主办的全国项目经理专业人士年度盛会——2024第四届中国项目经理大会演讲嘉宾,演讲议题为“如何有效提升项目经理领导力”。大会将于10月26-27日在北京举办,主…

蓝桥杯模块一:LED指示灯的基本控制

模块训练一:LED指示灯的基本控制 模块1到模块13都是通过I\O模式进行设计 一、电路图 二、电路分析 1.74HC573锁存器介绍 OE端接地,上电即工作,控制LE端,当LE端接高电平时,锁存器开始工作,接通D和Q 2.电路工作原理分析…

文件操作和InputStream,OutputStream的用法

“他越拧巴,我越喜欢!” 文件: 此处谈到的文件,本身有很多的含义。 狭义上的文件,特指 硬盘上的文件(以及保存文件的目录)。 广义上的文件,计算机上的很多硬件设备,软…

pick你的第一个人形机器人——青龙强化学习环境测试

文章目录 一、环境配置二、开始训练三、训练成果 最近感受到的大趋势是具身智能,强化学习,模仿学习做人形机器人,这个赛道很火,颇有前些年全力投入做自动驾驶的架势,正好最近用强化学习解决POMDP问题接触到了强化学习&…

怎么检查cuda是否安装成功(以及查看cuda的安装位置)

方法一: winr,再cmd,再在命令行中输入 nvcc -V 可以查看版本信息 方法二: winr,再cmd,再在命令行中输入 nvidia-smi 可以查看版本信息 方法三: 使用python,pytorch代码 import torch # 如果p…

Unet改进42:添加ACConv2d|使用一维非对称卷积来增强平方卷积核

本文内容:在不同位置添加ACConv2d 目录 论文简介 1.步骤一 2.步骤二 3.步骤三 4.步骤四 论文简介 由于在给定的应用环境中设计合适的卷积神经网络(CNN)架构通常需要大量的人工工作或大量的GPU时间,研究社区正在征求架构中立的CNN结构,它可以很容易地插入到多个成熟的架…

C++:数组与字符串

一、数组 数组是一种存储若干元素的数据类型,在诸多编程语言中存在,其显著的特点是元素通常是在物理层面上连续存储的(逻辑上的数组,比如链表,可能不是),并且具有极快的元素访问速度。 数组通常…

Spring Cloud Alibaba-(5)Seata【分布式事务】

Spring Cloud Alibaba-(1)搭建项目环境 Spring Cloud Alibaba-(2)Nacos【服务注册与发现、配置管理】 Spring Cloud Alibaba-(3)OpenFeign【服务调用】 Spring Cloud Alibaba-(4)Sen…