大模型vllm推理速度性能

大模型vllm推理速度性能

news/2024/9/30 22:24:54/文章来源:https://blog.csdn.net/Tink_bell/article/details/142661029

使用vllm进行部署推理，部署参数如下：

最大长度：10240 token
最大并发：128

并发性能测试构建数据的特点：

相同的问题，相同的输出token数
完美条件下的vllm流式批处理

测试性能结果：

模型名称	使用显存	并发数量	平均推理速度
qwen2.5-7B	84.5G	1	68.9
qwen2.5-7B	84.5G	40	39.6
qwen2.5-7B	84.5G	128	17.6
qwen2.5-14B	42.1G	1	26.8
qwen2.5-14B	42.1G	2	25.95
qwen2.5-14B	42.1G	10	24.6
qwen2.5-14B	42.1G	40	19.5
qwen2.5-14B	42.1G	80	16.0
qwen2.5-14B	42.1G	128	13.4
qwen2.5-14B	42.1G	130	前128个：13.2，后2个：10.5
qwen2.5-14B	85.7G	1	43.3
qwen2.5-14B	85.7G	2	41.6
qwen2.5-14B	85.7G	10	34.5
qwen2.5-14B	85.7G	40	24.3
qwen2.5-14B	85.7G	80	18.2
qwen2.5-14B	85.7G	128	14.27
qwen2.5-32B	84.6G	1	21.6
qwen2.5-32B	84.6G	2	21
qwen2.5-32B	84.6G	10	18.9
qwen2.5-32B	84.6G	40	15.2
qwen2.5-32B	84.6G	80	11.77
qwen2.5-32B	84.6G	128	9.38

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.xdnf.cn/news/1551620.html

如若内容造成侵权/违法违规/事实不符，请联系一条长河网进行投诉反馈，一经查实，立即删除！

相关文章

Java中异常的认识和创建

Java中异常的认识和创建

文章目录前言一、异常的概念与体系结构 1.1 异常的概念1.2 异常的体系结构1.3 异常的分类二、异常的处理 2.1.防御式编程2.2 异常的抛出2.3 异常的捕获2.4 异常的处理流程三、自定义异常类一、异常的概念与体系结构 1.1 异常的概念在生活中，一个人表情痛苦&…

阅读更多...

51单片机的智能垃圾桶【proteus仿真+程序+报告+原理图+演示视频】

51单片机的智能垃圾桶【proteus仿真+程序+报告+原理图+演示视频】

1、主要功能该系统由AT89C51/STC89C52单片机LCD1602显示模块超声波传感器红外传感器步进电机按键、蜂鸣器、LED等模块构成。适用于智能自动感应垃圾桶、超声波智能垃圾桶等相似项目。可实现基本功能: 1、LCD1602实时显示桶内垃圾高度 2、超声波传感器采集桶顶到垃圾的距离…

阅读更多...

Temporal Dynamic Quantization for Diffusion Models阅读

Temporal Dynamic Quantization for Diffusion Models阅读

文章目录 AbstractIntroductionBackgrounds and Related Works2.1 扩散模型2.2 量化2.3 量化感知训练和训练后量化 TemporalDynamic Quantization3.1 量化方法3.2 扩散模型量化的挑战3.3 TDQ模块的实现3.4 工程细节时间步的频率编码TDQ模块的初始化 Experimental SetupResults5…

阅读更多...

C99中的变长数组

C99中的变长数组

在C99标准之前，从语言在创建数组的时候，指定数组的大小只能使用常量和表达式，或者数据初始化的时候，可以省略数组大小。 1.int arr[5]{1,2,3,4,4}; 2.int arr[24]{1,2,3,4,5,6}; 3.int arr[]{1,2,3,3,4,5,6}; 这样的语法限制不够灵…

阅读更多...

使用 ModelScope Studio 实现可滚动 ChatBot

使用 ModelScope Studio 实现可滚动 ChatBot

前面的文章提到过 Gradio 的 Chatbot 不能自动滚动的问题，最近看到了 ModelScope Studio 扩展的一些组件，其中 Chatbot 就完美解决了自动滚动的问题，同时还增加了很多更细化的功能，例如可以设置用户和 AI 的头像。官方文档&#x…

阅读更多...

QCamera6.7笔记

QCamera6.7笔记

1.QCamera .h文件 #include <QtWidgets/QMainWindow> #include "ui_QCamera_test1.h" #include <QCamera> #include <QtMultimedia> #include <QtMultimediaWidgets> #include<QMediaCaptureSession> #include <QMediaDevices&…

阅读更多...

渗透测试之密码暴力破解工具medusa美杜莎

渗透测试之密码暴力破解工具medusa美杜莎

《网安面试指南》http://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247484339&idx1&sn356300f169de74e7a778b04bfbbbd0ab&chksmc0e47aeff793f3f9a5f7abcfa57695e8944e52bca2de2c7a3eb1aecb3c1e6b9cb6abe509d51f&scene21#wechat_redirect 《Java代码审…

阅读更多...

C语言指针详解与应用（不断更新）

C语言指针详解与应用（不断更新）

指针简介指针(Pointer)是C语言的一个重要知识点，其使用灵活、功能强大，是C语言的灵魂指针与底层硬件联系紧密，使用指针可操作数据的地址，实现数据的间接访问指针生活实例化指针的本质是地址，在生活中比如你取快…

阅读更多...

C++快速入门

C++快速入门

文章目录 C快速入门一、命名空间1.初始C2.概念3.命名空间的定义1.普通的命名空间2.命名空间的嵌套3.命名空间的重名问题3.命名空间的展开二、C的输入&输出三、缺省参数1.全缺省参数2.半缺省参数3.缺省参数的用途4.缺省参数的注意点四、函数重载1.函数重载的原则2.以下的函…

阅读更多...

【RocketMQ】RocketMQ应用难点

【RocketMQ】RocketMQ应用难点

🎯 导读：本文探讨了RocketMQ中消息重复消费的问题及其解决方案，尤其是在CLUSTERING模式下的扩容影响。文章分析了重复消费的原因，如广播模式、负载均衡模式下的多consumerGroup消费、消费者组内的动态变化及网络延迟等&#xff0c…

阅读更多...

婚恋交友系统该如何做才能做到日进斗金？

婚恋交友系统该如何做才能做到日进斗金？

要使婚恋交友系统实现盈利并做到日进斗金，需要综合考虑市场需求、用户体验、商业模式和营销策略等多个方面。以下是一些建议，旨在帮助构建一个成功且盈利的婚恋交友系统： 深入了解目标市场： 研究目标用户群体的需求、偏好和行为模…

阅读更多...

这 5 个自动化运维场景，可能用 Python 更香？

这 5 个自动化运维场景，可能用 Python 更香？

许多运维工程师会使用 Python 脚本来自动化运维任务。Python 是一种流行的编程语言，具有丰富的第三方库和强大的自动化能力，适用于许多不同的领域。这里插播一条粉丝福利，如果你正在学习Python或者有计划学习Python，想要突破自我…

阅读更多...

10款好用的开源 HarmonyOS 工具库

10款好用的开源 HarmonyOS 工具库

大家好，我是 V 哥，今天给大家分享10款好用的 HarmonyOS的工具库，在开发鸿蒙应用时可以用下，好用的工具可以简化代码，让你写出优雅的应用来。废话不多说，马上开整。 1. efTool efTool是一个功能丰富且易用…

阅读更多...

YOLO11震撼发布！

YOLO11震撼发布！

非常高兴地向大家介绍 Ultralytics YOLO系列的新模型： YOLO11！ YOLO11 在以往 YOLO 模型基础上带来了一系列强大的功能和优化，使其速度更快、更准确、用途更广泛。主要改进包括增强了特征提取功能，从而可以更精确地捕捉细节以更…

阅读更多...

编程魔法：基于LLM的AI function开发，如何实现高效数据生成？

编程魔法：基于LLM的AI function开发，如何实现高效数据生成？

基于大语言模型（LLM）的AI function开发，简直就是现代编程界的“魔法棒”！ 你好，我是三桥君最近三桥君有个任务，需要造一些测试数据，比如姓名、手机号、银行卡号、邮箱啥的，用来做测…

阅读更多...

PV大题--专题突破

PV大题--专题突破

写在前面： PV大题考查使用伪代码控制进程之间的同步互斥关系，它需要我们一定的代码分析能力，算法设计能力，有时候会给你一段伪代码让你补全使用信号量控制的操作，请一定不要相信某些人告诉你只要背一个什么模板&#…

阅读更多...

新手必知的录屏工具及其使用方法详解

新手必知的录屏工具及其使用方法详解

你平常会录屏吗？录屏已经成为了一项非常实用的技能。无论是制作教学视频还是记录游戏精彩瞬间，录屏都可以帮我们记录我们在电脑上看到的精彩瞬间。今天我们就一同来探索在电脑上如何录屏吧。 1.福昕录屏工具链接：www.foxitsoftware.cn/REC…

阅读更多...

太速科技-FMCJ457-基于JESD204B的2路2Gsps AD 2路2Gsps DA FMC子卡

太速科技-FMCJ457-基于JESD204B的2路2Gsps AD 2路2Gsps DA FMC子卡

FMCJ457-基于JESD204B的2路2Gsps AD 2路2Gsps DA FMC子卡一、板卡概述该子卡是高速AD9172 DAC和AD9689 ADC的FMC板。为客户提供高达2 GHz 的可用模拟带宽以及 JESD204B 接口，以快速地对各种宽带 RF 应用进行原型制作。 AD芯片AD9689，AD9689-2…

阅读更多...

Ceph RocksDB 深度调优

Ceph RocksDB 深度调优

介绍调优 Ceph 可能是一项艰巨的挑战。在 Ceph、RocksDB 和 Linux 内核之间，实际上有数以千计的选项可以进行调整以提高存储性能和效率。由于涉及的复杂性，比较优的配置通常分散在博客文章或邮件列表中，但是往往都没有说明这些设置的实际作…

阅读更多...

论文翻译 | LLaMA-Adapter :具有零初始化注意的语言模型的有效微调

论文翻译 | LLaMA-Adapter :具有零初始化注意的语言模型的有效微调

摘要我们提出了一种轻量级的自适应方法，可以有效地将LLaMA微调为指令遵循模型。lama - adapter采用52K自指导演示，在冻结的LLaMA 7B模型上只引入1.2M可学习参数，在8个A100 gpu上进行微调花费不到一个小时。具体来说，我们采用了一…

阅读更多...

最新文章