【4060显卡也能跑高质量的Flux模型了吗】MIT Han 实验室开源了一个Flux的量化项目——SVDQuant

麻省理工学院(MIT)Han 实验室一直在积极开展一系列项目,包括微小机器学习(Tiny Machine Learning)、SANA、SVDQuant 和 QServe,这些项目旨在提高人工智能计算的效率,并实现在边缘设备上的高效部署。

在这里插入图片描述

根据实验室的博文,SVDQuant 是一种用于扩散模型的后训练量化范式,可以实现精确的 4 位量化,并在 16GB 4090 笔记本电脑上支持 12B FLUX 模型,速度提高了 3 倍。这一突破使大型语言模型能够在笔记本电脑等边缘设备上部署,同时保持高性能。

SVDQuant 模型将 FLUX 模型的权重和激活量化为 4 位,在 16GB 4090 GPU 笔记本电脑上实现了 3.5 倍的内存缩减和 8.7 倍的延迟缩减。之所以能做到这一点,是因为使用了新的 W4A4 量化范式,该范式可通过 4 位扩散模型的低阶成分吸收异常值。

在这里插入图片描述

SVDQuant 模型是麻省理工学院 HAN 实验室为推动高效人工智能计算的发展而做出的更广泛努力的一部分。这包括开发新的技术和架构,以降低大型语言模型的计算要求和内存使用,同时保持高性能。

SVDQuant 模型的影响已超越自然语言处理领域,扩展到图像理解任务和视觉语言模型等领域。SVDQuant 与视觉语言模型(VLM)的集成可以通过支持 VILA 等领先的视觉语言模型来提高这些任务的性能。

总之,麻省理工学院 HAN 实验室开发的 SVDQuant 模型代表了深度学习领域的重大进步,尤其是在模型量化领域。它的主要特点包括 4 位量化、4 位扩散模型的低秩分量以及吸收异常值的能力。该模型的意义超出了自然语言处理的范畴,延伸到了图像理解任务等领域,其潜在应用是多样而广泛的。

性能

在这里插入图片描述
SVDQuant 将 12B FLUX.1 的模型大小减少了 3.6 倍。 此外,Nunchaku 还将 16 位模型的内存使用率进一步降低了 3.5 倍,并在台式机和笔记本电脑的英伟达 RTX 4090 GPU 上实现了比 NF4 W4A16 基准高 3.0 倍的速度提升。 值得注意的是,在笔记本电脑 4090 上,通过消除 CPU 卸载,它总共实现了 10.1 倍的速度提升。

与 LoRA 集成

在这里插入图片描述

部署

安装依赖项:

conda create -n nunchaku python=3.11
conda activate nunchaku
pip install torch==2.4.1 torchvision==0.19.1 torchaudio==2.4.1 --index-url https://download.pytorch.org/whl/cu121
pip install diffusers ninja wheel transformers accelerate sentencepiece protobuf
pip install huggingface_hub peft opencv-python einops gradio spaces GPUtil

安装 nunchaku 软件包: 确保有 gcc/g++>=11。 如果没有,可以通过 Conda 安装:

conda install -c conda-forge gxx=11 gcc=11

Build

git clone https://github.com/mit-han-lab/nunchaku.git
cd nunchaku
git submodule init
git submodule update
pip install -e . # 也可以用python setup.py install
example.py
import torchfrom nunchaku.pipelines import flux as nunchaku_fluxpipeline = nunchaku_flux.from_pretrained("black-forest-labs/FLUX.1-schnell",torch_dtype=torch.bfloat16,qmodel_path="mit-han-lab/svdquant-models/svdq-int4-flux.1-schnell.safetensors",  # download from Huggingface
).to("cuda")
image = pipeline("A cat holding a sign that says hello world", num_inference_steps=4, guidance_scale=0).images[0]
image.save("example.png")

具体来说,双节棍与扩散器共享相同的应用程序接口,可以类似的方式使用。 FLUX.1-dev 模型也可以同样的方式加载,方法是将所有 schnell 替换为 dev。

更多阅读和资料来源:

  • SVDQuant 论文:https://arxiv.org/abs/2411.05007
  • 量化库:https://github.com/mit-han-lab/deepcompressor
  • 推理引擎:https://github.com/mit-han-lab/nunchaku
  • 网站: https://hanlab.mit.edu/projects/svdquant
  • 演示: https://svdquant.mit.edu/
  • 博客: https://hanlab.mit.edu/blog/svdquant

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。点赞并关注,获取最新科技动态,不落伍!🤗🤗🤗

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/15105.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

基于Java Springboot学生管理系统

一、作品包含 源码数据库全套环境和工具资源部署教程 二、项目技术 前端技术:Html、Css、Js、Vue 数据库:MySQL 后端技术:Java、Spring Boot、MyBatis 三、运行环境 开发工具:IDEA 数据库:MySQL5.7 数据库管理…

DELL Precision 系列默认用的都是非ECC内存

文章目录 DELL Precision 系列默认用的都是非ECC内存概述SSD升级SSD1SSD2 笔记DELL Precision 系列默认用的都是非ECC内存可以选非ECC的内存 备注备注如果不差钱备注END DELL Precision 系列默认用的都是非ECC内存 概述 去了一次DELL维修中心,清了一次灰。人工真贵…

Linux基础(2)以及资源耗尽病毒的编写(详见B站泷羽sec)

免责声明:本教程作者及相关参与人员对于任何直接或间接使用本教程内容而导致的任何形式的损失或损害,包括但不限于数据丢失、系统损坏、个人隐私泄露或经济损失等,不承担任何责任。所有使用本教程内容的个人或组织应自行承担全部风险。 Linux…

20241114软考架构-------软考案例15答案

每日打卡题案例15答案 15.【2016年真题】 难度:一般 阅读以下关于应用服务器的叙述,在答题纸上回答问题1至问题3。(25分) 【说明】 某电子产品制造公司,几年前开发建设了企业网站系统,实现了企业宣传、产品…

【LeetCode】每日一题 2024_11_14 统计好节点的数目(图/树的 DFS)

前言 每天和你一起刷 LeetCode 每日一题~ LeetCode 启动! 题目:统计好节点的数目 代码与解题思路 先读题:题目要求我们找出好节点的数量,什么是好节点?“好节点的所有子节点的数量都是相同的”,拿示例一…

HarmonyOs DevEco Studio小技巧29--ArkTS文字如何渐变

这是需求 昨天想了老多方法 一开始以为加上线性渐变这个属性就好了 Entry Component struct TextTest {State message: string 中华人民共和国万岁;build() {RelativeContainer() {Text(this.message).id(TextTestHelloWorld).fontSize(33).fontWeight(FontWeight.Bold).alig…

块设备 - 想进阶的必经之路!

在Linux内核开发的世界中,块设备(Block Device)是一块不可忽视的领域。它承载了文件系统的运行,管理着磁盘存储的核心逻辑,是初学者迈向内核进阶的重要知识点。本篇文章将用通俗易懂的语言,为你揭开块设备的…

高鑫零售实现扭亏为盈,逆市增长的高鑫零售未来何在?

大润发母公司高鑫零售发布截至9月30日的2025财年中期业绩报告:营收347.08亿元人民币,税后溢利1.86亿元,同比增加5.64亿元,实现扭亏为盈,高鑫零售的成绩单我们该如何分析? 首先,整体来看&#x…

AI绘画如何赚钱?分享5个简单,易上手的实用性案例

近年来,人工智能(AI)技术在各个领域都取得了巨大的突破,其中之一就是AI绘画。通过分享一些令人兴奋的应用与变现案例,我们可以深入了解AI绘画的实际应用,以及它如何改变了传统艺术创作和商业模式。 在接下…

如何在 Ubuntu 上安装 RStudio IDE(R语言集成开发环境) ?

RStudio 是一个功能强大的 R 语言集成开发环境(IDE),R 是一种主要用于统计计算和数据分析的编程语言。任何从事数据科学项目或任何其他涉及 R 的类似任务的人,RStudio 都可以使您的工作更轻松。 本指南将引导您完成在 Ubuntu 系统上安装 RStudio 的过程…

C++玩转物联网:认识树莓派Pico

在嵌入式编程的领域中,树莓派Pico、Arduino和ESP32都是广受欢迎的微控制器开发板,但它们在性能、功能和编程语言支持上各有特点。树莓派Pico是树莓派基金会推出的一款高性价比开发板,搭载了RP2040微控制器,支持标准的C库&#xff…

网络基础 - 网段划分篇

我们知道,IP 地址(IPv4 地址)由 “网络标识(网络地址)” 和 “主机标识(主机地址)” 两部分组成,例如 192.168.128.10/24,其中的 “/24” 表示从第 1 位开始到多少位属于网络标识,那么,剩余位就属于主机标识了&#xf…

当微软windows的记事本被AI加持

1985年,微软发布了Windows 1.0,推出了一款革命性的产品:记事本(Notepad)。这款软件旨在鼓励使用一种未来主义的新设备——鼠标,并让人们可以不依赖VI等键盘工具就能书写文本和编写代码。记事本因其简洁和高…

FastGPT + Dify,本地知识库快速部署!

本文主要内容 本地部署 Dify、FastGPT、OllamaDify、FastGPT 对接一些目前免费的 LLM 大语言 AI 模型Dify、FastGPT 对接 Ollama 本地模型 大家好,我是一名喜欢在家折腾本地部署的开发者,这次我来分享如何在本地运行 Ollama,并将它与 FastG…

黄仁勋对话孙正义:日本的AI新饼、Arm的AI野心与英伟达的东亚新机会

2020 年的软银世界大会上,孙正义与黄仁勋围绕「What’s Next for AI」展开了一次围炉对谈。黄仁勋穿着标志性的皮夹克坐在火堆旁,畅谈了将 Arm 纳入麾下的重要价值,孙正义也毫不吝啬赞美之词,称老黄在未来 10 年会达到史蒂夫 乔布…

什么是邻道泄露抑制比(ACLR)

今天和大家一起学习交流下邻道泄露抑制比(ACLR)指标,看看是否 让你产生一些新的灵感。 什么是ACLR? 邻道泄露抑制比是用于衡量下行的发射性能,是主信道的发射功率与测得的相邻信道的功率之比。ACLR值越低,表示相临信道的功率的干扰越小,说明系统的性能越好。一般用dB…

VMware和CentOS 7.6 Linux操作系统的安装使用

1. 安装VMware 安装VMware之前,有些电脑是需要去BIOS里修改设置开启cpu虚拟化设备支持才能安装。如果运气不好在安装过程中安装不了的话就自行百度吧。 打开 VMware 的官网: https://www.vmware.com/ 点击 product,往下滑找到 see desktop hypeerviso…

沈阳乐晟睿浩科技有限公司抖音小店保障

在当今这个数字化时代,电子商务行业以其便捷性、高效性和广泛的覆盖面,成为了推动经济发展的新引擎。沈阳乐晟睿浩科技有限公司,作为这股变革洪流中的佼佼者,凭借其深厚的技术实力、敏锐的市场洞察力和前瞻性的战略布局&#xff0…

学习日志009--面向对象的编程

一、面向对象 面向对象编程(Object-Oriented Programming,简称OOP)是一种编程范式,它使用“对象”来设计应用程序和计算机程序。它利用了抽象、封装、继承和多态这些概念。 一、面向对象编程的核心概念 封装(Encaps…

Sorvall Legend Micro 17 微量离心机产品特性

在科研实验中,微量离心机扮演着至关重要的角色。其中,Thermo Scientific Sorvall Legend MicroCL 17R 微量离心机凭借其出色的性能和紧凑的设计,成为众多科研人员的首选。 这款微量离心机体积小巧,非常适合空间有限的实验室。它支…