当前位置：首页 > news >正文

23G显存可以跑多大尺寸的Qwen3？

news 2025/4/30 6:03:13

随着阿里Qwen3系列大模型的发布，开发者们对如何在有限显存下部署不同尺寸的模型尤为关注。本文基于Qwen3的技术特性和实际测试数据，探讨在23G显存环境下可运行的模型选择及优化策略。

不过由于咱财力有限，只有一张A100，还不是空的，目前只有23G的显存。

那么这23G显存能跑什么模型呢？

一、Qwen3模型尺寸与显存需求概览

Qwen3提供从0.6B到235B的密集和MoE模型，显存需求与模型参数量、量化方式及推理框架密切相关：

原生模型显存占用
- 小模型：如Qwen3-4B（4B参数）全精度加载需约8-10G显存，FP16量化后降至4-5G。
- 中模型：Qwen3-14B全精度需约28G显存，超出23G限制；但通过4-bit量化可压缩至约7-8G。
- MoE模型：Qwen3-30B-A3B（激活参数3B）在FP16下显存占用约6G，适合低显存场景。
量化技术的影响
使用GPTQ、AWQ等量化方法可显著降低显存：

http://www.xdnf.cn/news/209323.html

相关文章：

第十六届蓝桥杯 2025 C/C++组旗帜

常见的 CSS 知识点整理

20250429在Ubuntu 20.04.6下安装VMware Workstation16

[零基础]内网ubuntu映射到云服务器上，http访问（frp内网穿透）

Java controller接口出入参时间序列化转换操作

AimRT 从零到一：官方示例精讲 —— 六、pb_chn示例.md

OpenObserve API Usage Guide for Log Management

四则运算+从单向链表中删除指定值的节点+名字的漂亮度+数独（Sudoku）

Dali 1.1.4 | 使用尖端技术将描述转换成独特艺术品、照片和图像，发挥无限创意

npm如何安装pnpm

Flip PDF Plus Corp7.7.22电子书制作软件

AimRT 从零到一：官方示例精讲 —— 一、工具链与基本概念

css3伸缩盒模型第一章(主轴以及伸缩盒模型)

P1903 [国家集训队] 数颜色 / 维护队列 Solution

neo4j暴露公网ip接口——给大模型联通知识图谱

Python 使用一等函数实现设计模式(案例分析：重构“策略”模式)

Linux 服务管理两种方式service和systemctl

Node.js 事件循环和线程池任务完整指南

香港科技大学广州｜可持续能源与环境学域博士招生宣讲会—四川大学专场

阿里云服务迁移实战: 05-OSS迁移

【Linux系统】systemV共享内存

基于tabula对pdf中多个excel进行识别并转换成word中的优化（五）

Go语言之路————接口、泛型

SpringMVC再复习1

MODSIM选型指南：汽车与航空航天企业如何选择仿真平台

极客天成参与”AI助力智慧城市构建”主题演讲暨招商引智专题推介活动

哈希表笔记（一）

【东枫电子】AI-RAN：利用人工智能驱动的计算基础设施变革 RAN

后端部署：Flask + pymysql + MySQL迁移到服务器（以Linux为例）

Android Framework常见问题