749 字
4 分钟

GLM-5.1/5.2 FP8 在 8xH200 上的上下文与并发测试记录

2026-07-03
测评
GPU
/
H200
/
GLM
/
vLLM
/
Benchmark

服务器配置和环境#

项目配置
主机名H200
系统Ubuntu 26.04 LTS
KernelLinux 7.0.0-15-generic
CPU2 x Intel Xeon Platinum 8558
CPU 核心/线程96C / 192T
内存2.0 TiB
GPU8 x NVIDIA H200
单卡显存143771 MiB
GPU 互联nvidia-smi topo 显示 8 卡之间为 NV18
NVIDIA Driver595.71.05
CUDA13.2
Docker 镜像vllm/vllm-openai
Docker 镜像 IDsha256<894456ff199741e4e6a06292e360e6582b79a8f450f34d48b4bd8a4f35124b7d>
vLLM 版本0.1.dev17670+g7d24aa6f2
系统盘MR9560-8i, 893.8G
数据盘2 x 7T XFSP4157T60000N, 挂载到 /data/data1 与 /data/data2
模型路径
GLM-5.1-FP8/data/data2/vllm/models/ZhipuAI_GLM-5.1-FP8
GLM-5.2-FP8/data/data2/vllm/models/ZhipuAI_GLM-5.2-FP8

部署配置参考过 vLLM 官方 recipe:

测试方法#

长上下文测试使用 OpenAI 兼容接口发送 /v1/completions 请求。主测试配置如下:

项目配置
Tensor Parallel8
KV cache dtypefp8
max_model_len200000
max_num_seqs1 或 2
gpu_memory_utilizationGLM-5.2 长上下文并发测试为 0.87
MTP关闭
enforce_eager开启
长上下文输出长度32 tokens

短上下文高并发测试使用同一类 /v1/completions 请求,客户端同时发起 8 或 32 个请求。prompt 为不同内容,不依赖 prefix cache。

项目配置
Tensor Parallel8
KV cache dtypefp8
max_model_len4096
max_num_seqs64
gpu_memory_utilization0.84
MTP关闭
输入长度约 2000 tokens
输出长度512 tokens
用户并发8、32

长上下文测试结果#

模型上下文用户并发成功平均 prompt tokens平均输出 tokens平均延迟Prompt 吞吐
GLM-5.1-FP8120K11/11200583228.05s4212 tok/s
GLM-5.1-FP8120K22/21200573249.10s4828 tok/s
GLM-5.1-FP8198K11/11980323255.58s3519 tok/s
GLM-5.1-FP8198K22/21980483294.48s4134 tok/s
GLM-5.2-FP8120K11/11199343229.23s4029 tok/s
GLM-5.2-FP8120K22/21199593245.62s5170 tok/s
GLM-5.2-FP8198K11/11979443262.82s3119 tok/s
GLM-5.2-FP8198K22/21979433267.36s5731 tok/s

同机对比中,GLM-5.2-FP8 在 120K 并发 2 和 198K 并发 2 下吞吐更高;在单请求长上下文下,GLM-5.1-FP8 的延迟和 prompt 吞吐更好。这组长上下文每个场景请求数较少,结论应理解为本轮部署和脚本下的记录,不应扩大为通用性能结论。

场景GLM-5.2 相对 GLM-5.1 的平均延迟GLM-5.2 相对 GLM-5.1 的 Prompt 吞吐
120K,并发 1+4.2%-4.3%
120K,并发 2-7.1%+7.1%
198K,并发 1+13.0%-11.3%
198K,并发 2-28.7%+38.6%

GLM-5.2 1M 上下文启动尝试#

GLM-5.2-FP8 额外尝试了 1M 上下文启动,主要参数如下:

项目配置
max_model_len1048576
Tensor Parallel8
KV cache dtypefp8
max_num_seqs1
gpu_memory_utilization0.90
MTP关闭
enforce_eager开启

服务在 KV cache 规划阶段失败,没有进入可请求状态。日志中的关键错误如下:

ValueError: To serve at least one request with the model's max seq len (1048576), (52.68 GiB KV cache is needed, which is larger than the available KV cache memory (21.08 GiB). Based on the available memory, the estimated maximum model length is 419648.

因此,在本次 8xH200、FP8 KV cache、gpu_memory_utilization=0.90 的配置下,GLM-5.2-FP8 没有完成 1M 上下文服务启动。估算的可启动最大长度为 419648 tokens。看来想跑得8卡B200了,找机会试试。

短上下文 8/32 用户并发测试#

短上下文测试使用约 2K input / 512 output,观察并发 8 和 32 下的吞吐。

模型用户并发成功平均 prompt tokens平均输出 tokens平均延迟请求吞吐Prompt 吞吐输出吞吐总吞吐
GLM-5.1-FP888/81975.0512138.22s0.0578 rps114.1 tok/s29.6 tok/s143.6 tok/s
GLM-5.1-FP83232/321980.3512156.67s0.2036 rps403.1 tok/s104.2 tok/s507.3 tok/s
GLM-5.2-FP888/81966.6512128.18s0.0622 rps122.4 tok/s31.9 tok/s154.3 tok/s
GLM-5.2-FP83232/321977.2512121.18s0.2629 rps519.9 tok/s134.6 tok/s654.5 tok/s

在短上下文高并发场景中,GLM-5.2-FP8 的吞吐更高,尤其是并发 32:

场景GLM-5.2 相对 GLM-5.1 的平均延迟GLM-5.2 相对 GLM-5.1 的请求吞吐GLM-5.2 相对 GLM-5.1 的总吞吐
2K/512,并发 8-7.3%+7.8%+7.4%
2K/512,并发 32-22.7%+29.2%+29.0%

vLLM 启动日志中的容量信息如下:

模型max_model_len模型加载显存记录可用 KV cacheGPU KV cache size4096 tokens/request 最大并发估算
GLM-5.1-FP8409689.86 GiB17.81 GiB311104 tokens75.95x
GLM-5.2-FP8409689.38 GiB18.30 GiB364160 tokens88.91x
GLM-5.1/5.2 FP8 在 8xH200 上的上下文与并发测试记录
https://catcat.blog/2026/07/glm-5-1-5-2-fp8-h200-benchmark.html
作者
猫猫博客
发布于
2026-07-03
许可协议
CC BY-NC-SA 4.0