使用vllm进行部署推理,部署参数如下:
- 最大长度:10240 token
- 最大并发:128
并发性能测试构建数据的特点:
- 相同的问题,相同的输出token数
- 完美条件下的vllm流式批处理
测试性能结果:
模型名称 | 使用显存 | 并发数量 | 平均推理速度 |
---|---|---|---|
qwen2.5-7B | 84.5G | 1 | 68.9 |
qwen2.5-7B | 84.5G | 40 | 39.6 |
qwen2.5-7B | 84.5G | 128 | 17.6 |
qwen2.5-14B | 42.1G | 1 | 26.8 |
qwen2.5-14B | 42.1G | 2 | 25.95 |
qwen2.5-14B | 42.1G | 10 | 24.6 |
qwen2.5-14B | 42.1G | 40 | 19.5 |
qwen2.5-14B | 42.1G | 80 | 16.0 |
qwen2.5-14B | 42.1G | 128 | 13.4 |
qwen2.5-14B | 42.1G | 130 | 前128个:13.2,后2个:10.5 |
qwen2.5-14B | 85.7G | 1 | 43.3 |
qwen2.5-14B | 85.7G | 2 | 41.6 |
qwen2.5-14B | 85.7G | 10 | 34.5 |
qwen2.5-14B | 85.7G | 40 | 24.3 |
qwen2.5-14B | 85.7G | 80 | 18.2 |
qwen2.5-14B | 85.7G | 128 | 14.27 |
qwen2.5-32B | 84.6G | 1 | 21.6 |
qwen2.5-32B | 84.6G | 2 | 21 |
qwen2.5-32B | 84.6G | 10 | 18.9 |
qwen2.5-32B | 84.6G | 40 | 15.2 |
qwen2.5-32B | 84.6G | 80 | 11.77 |
qwen2.5-32B | 84.6G | 128 | 9.38 |