LMDeploy 量化部署实践

LMDeploy 量化部署实践

news/2024/9/28 7:16:31/文章来源:https://blog.csdn.net/weixin_44367813/article/details/142604375

任务

使用结合W4A16量化与kv cache量化的internlm2_5-1_8b-chat模型封装本地API并与大模型进行一次对话

复现过程

按照教材安装环境。https://github.com/InternLM/Tutorial/blob/camp3/docs/L2/LMDeploy/readme.md

使用LMDeploy部署原版的1.8b大模型，占用显存20.6G，大模型可以正常对话
在这里插入图片描述

结合W4A16量化与kv cache量化，全部结合使用，占用了11.4G的显存。

lmdeploy serve api_server \/root/models/internlm2_5-7b-chat-w4a16-4bit/ \--model-format awq \--quant-policy 4 \--cache-max-entry-count 0.4\--server-name 0.0.0.0 \--server-port 23333 \--tp 1

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.xdnf.cn/news/1548828.html

如若内容造成侵权/违法违规/事实不符，请联系一条长河网进行投诉反馈，一经查实，立即删除！

相关文章

Centos怎么执行脚本

Centos怎么执行脚本

方法一：切换到shell脚本所在的目录（此时，称为工作目录）执行shell脚本 cd /data/shell ./hello.sh 方法二：以绝对路径的方式去执行bash shell脚本 /data/shell/hello.sh 方法三：直接使用bash 或sh 来执行…

阅读更多...

Kubernetes深入详解(一)

Kubernetes深入详解(一)

目录第一部分 K8s概念和架构 1、k8s概述和特性 2、K8s架构组件 3、k8s核心概念第二部分从零搭建k8s集群 1、搭建k8s环境平台规划 2、服务器硬件配置要求 3、搭建k8s集群部署方式 (1) 基于客户端工具kubeadm 1、安装Docker 2、添加阿里云YUM软件源 3、安装kubea…

阅读更多...

代码随想录Day 58|拓扑排序、dijkstra算法精讲，题目:软件构建、参加科学大会

代码随想录Day 58|拓扑排序、dijkstra算法精讲，题目:软件构建、参加科学大会

提示：DDU，供自己复习使用。欢迎大家前来讨论~ 文章目录图论part08**拓扑排序精讲**题目：117. 软件构建拓扑排序的背景解题思路：模拟过程 **dijkstra（朴素版）精讲**题目：47. 参加科学大会解题思…

阅读更多...

腾讯特效 SDK

腾讯特效 SDK

腾讯云视立方腾讯特效 SDK（Tencent Effect）是音视频终端 SDK （腾讯云视立方）的子产品 SDK 之一，提供美颜特效功能。基于优图精准的 AI 能力和天天 P 图丰富的实时特效处理，为各类视频处理场景提供丰富的产品…

阅读更多...

SpringCloud-Netflix第一代微服务快速入门

SpringCloud-Netflix第一代微服务快速入门

1.springCloud常用组件 Netflix Eureka 当我们的微服务过多的时候，管理服务的通信地址是一个非常麻烦的事情，Eureka就是用来管理微服务的通信地址清单的，有了Eureka之后我们通过服务的名字就能实现服务的调用。 Netflix Ribbon\Feign : 客…

阅读更多...

卫星导航定位原理学习（三）

卫星导航定位原理学习（三）

GNSS信号体制及其性能分析 GNSS信号体制直接影响卫星导航系统的性能，是卫星导航系统设计的重要内容。卫星导航信号体制主要包括信号频率、信号结构、导航电文3部分。其中信号结构又包括调制波形、频率带宽、扩频码码长、码速率、码结构、信号功率等内容。导航电文设…

阅读更多...

8086介绍

8086介绍

内部结构执行部件EU（Execution Unit） 包含运算器、通用寄存器组、EU控制单元。只负责控制，不和外部总线打交道总线接口部件BIU（Bus Interface Unit） 包含指令队列缓冲器、16位指令指针寄存器IP、16位段寄存器&am…

阅读更多...

【L波段差分干涉SAR卫星（陆地探测一号01组）】

【L波段差分干涉SAR卫星（陆地探测一号01组）】

L波段差分干涉SAR卫星（陆地探测一号01组） L波段差分干涉SAR卫星（陆地探测一号01组）是我国自主研发的重要卫星系统，以下是对该卫星的详细介绍： 一、基本信息卫星组成：陆地探测一号01组由A星…

阅读更多...

全网最适合入门的面向对象编程教程：53 Python字符串与序列化-字符串与字符编码

全网最适合入门的面向对象编程教程：53 Python字符串与序列化-字符串与字符编码

全网最适合入门的面向对象编程教程：53 Python 字符串与序列化-字符串与字符编码摘要： 在 Python 中，字符串是文本的表示，默认使用 Unicode 编码，这允许你处理各种字符集，字符编码是将字符转换为字节的规则…

阅读更多...

一文上手SpringSecurity【三】

一文上手SpringSecurity【三】

一、认证流程分析上篇文章当中,我们一步一步查阅源码方式对认证流程有了一些认证,本章节梳理一下整个流程,最后形成一张图,以更直观的方式来理解认证的整个流程. 1.1 认证当中步及的接口和类 1.1.1 【抽象类】AbstractAuthenticationProcessingFilter 实现了GenericFilter…

阅读更多...

OFDM通信系统发射端需要做ifftshift的原因分析

OFDM通信系统发射端需要做ifftshift的原因分析

对频率为15Hz的正弦波信号进行FFT分析，并且直接画图，matlab代码如下： fs 100; % sampling frequency t 0:(1/fs):(10-1/fs); % time vector S cos(2*pi*15*t); n length(S); X fft(S); f (0:n-1)*(fs/n); %frequenc…

阅读更多...

使用canvas截取web camera指定区域，并生成图片

使用canvas截取web camera指定区域，并生成图片

目标，截取红色色块背后的视频区域。代码结构如下： <div id"p1"><video id"v1" autoplay playsinline></video><div id"mrz"></div><canvas id"captureCanvas"></can…

阅读更多...

优化｜深入解读DeepOPF：一种用于安全约束直流最优潮流问题的深度神经网络方法

优化｜深入解读DeepOPF：一种用于安全约束直流最优潮流问题的深度神经网络方法

原文信息（包括题目、发表期刊、原文链接等）： DeepOPF: A Deep Neural Network Approach for Security-Constrained DC Optimal Power Flow https://ieeexplore.ieee.org/document/9205647 原文作者：Xiang Pan; Tianyu Zhao; Ming…

阅读更多...

机器学习-聚类

机器学习-聚类

http://en.wikipedia.org/wiki/Multispectral_pattern_recognition 聚类基础知识凝层次聚类 K-means 聚类基于EM算法的聚类聚类基础知识聚类：将数据划分到不同的类里，使相似的数据在同一类里，不相似的数据在不同的类里（物…

阅读更多...

芝法酱学习笔记（0.5）——使用jenkins做自动打包

芝法酱学习笔记（0.5）——使用jenkins做自动打包

前言上节讲了SpringBoot上的打包。但这些过程都是手动的，在实际的开发测试时，自动化的打包部署，可以大大提升团队开发的效率一、去官网下载 1.1 官网安装命令对于如何安装的问题，我向来推荐官网 wget -O /usr/share/keyri…

阅读更多...

ThreeJs绘制圆柱体

ThreeJs绘制圆柱体

上一章节实现了圆锥体的绘制，这节来绘制圆柱体，圆柱体就是矩形旋转获得，如上文一样，先要创建出基础的组件，包括场景，相机，灯光，渲染器。代码如下： initScene() {this.sce…

阅读更多...

【vue-router】用meta.keepAlive做缓存

【vue-router】用meta.keepAlive做缓存

网上大家都说按下面的写法 <keep-alive><router-view v-if"route.meta.keepAlive"></router-view> </keep-alive> <router-view v-if"!route.meta.keepAlive"></router-view>但是会报错解决方法也没找到最后换一…

阅读更多...

Java项目实战II基于Java+Spring Boot+MySQL的学院班级回忆录(源码+数据库+文档)

Java项目实战II基于Java+Spring Boot+MySQL的学院班级回忆录(源码+数据库+文档)

目录一、前言二、技术介绍三、系统实现四、文档参考五、核心代码六、源码获取全栈码农以及毕业设计实战开发，CSDN平台Java领域新星创作者一、前言在时光的长河中，班级的记忆如同璀璨星辰，照亮了我们共同的青春岁月。为了珍藏…

阅读更多...

鼎跃安全丨多功能气体检测报警系统：工业安全守护者

鼎跃安全丨多功能气体检测报警系统：工业安全守护者

在工业快速发展的今天，各种复杂的生产环境中潜藏着诸多安全隐患。尤其在石油化工企业中，易燃易爆的气体随时可能引发危险；矿山作业里，有毒有害气体的风险更是持续不断；而制药等行业也面临着各类气体泄漏的风险。如何灵…

阅读更多...

基于 LangChain 的自动化测试用例的生成与执行

基于 LangChain 的自动化测试用例的生成与执行

在前面的章节中，分别介绍了 Web、App、接口自动化测试用例的生成。但是在前文中实现的效果均为在控制台打印自动化测试的用例。用例需要手动粘贴，调整之后再执行。那么其实这个手动粘贴、执行的过程，也是可以直接通过人工智能完成的。应用…

阅读更多...

最新文章