服务性能压测指标设定

服务性能压测指标设定踩坑记录

背景

在构建ML模型监控平台时，发现压测环节经常出现监控盲区。通过实际测试发现，传统的CPU、内存指标无法准确反映模型推理性能瓶颈。

# Prometheus查询语句
histogram_quantile(0.95, rate(model_request_duration_seconds_bucket[5m]))
# 告警阈值：P95 > 200ms

# 每秒请求数
rate(model_requests_total[1m])
# 告警阈值：QPS < 80%峰值

# nvidia-smi监控
nvidia-smi --query-gpu=utilization.gpu,memory.used,memory.total --format=csv
# 告警阈值：GPU利用率 > 85%

建议使用Grafana面板监控，配置多级告警机制。

落日余晖1 · 2026-01-08T10:24:58

P95设500ms太宽松了，生产环境必然频繁告警。建议先做小规模压测，摸清模型真实响应曲线，再设定阈值。

SwiftLion · 2026-01-08T10:24:58

GPU利用率85%就告警？别忘了模型推理的batch size会显著影响并发能力，需结合实际业务场景动态调整。

SmoothTears · 2026-01-08T10:24:58

QPS低于峰值80%才告警，这根本没覆盖到性能衰退的早期信号。应设置更细粒度的滑动窗口监控机制。

Grace748 · 2026-01-08T10:24:58

别光盯着CPU/Mem，模型推理瓶颈往往在GPU或内存带宽上。建议增加模型输入输出队列长度、显存占用等关键指标