服务性能压测指标设定踩坑记录
背景
在构建ML模型监控平台时,发现压测环节经常出现监控盲区。通过实际测试发现,传统的CPU、内存指标无法准确反映模型推理性能瓶颈。
核心指标配置
1. 响应时间分布(P95/P99)
# Prometheus查询语句
histogram_quantile(0.95, rate(model_request_duration_seconds_bucket[5m]))
# 告警阈值:P95 > 200ms
2. 并发处理能力
# 每秒请求数
rate(model_requests_total[1m])
# 告警阈值:QPS < 80%峰值
3. GPU资源利用率
# nvidia-smi监控
nvidia-smi --query-gpu=utilization.gpu,memory.used,memory.total --format=csv
# 告警阈值:GPU利用率 > 85%
实际踩坑点
- 初始设置P95=500ms,实际生产环境经常触发告警
- 忽视了模型batch size对并发性能的影响
- 没有区分训练和推理阶段的性能指标
推荐配置方案
- 响应时间:P95 < 150ms
- QPS:稳定在峰值80%以上
- GPU利用率:控制在70-80%
- 内存使用率:< 85%
建议使用Grafana面板监控,配置多级告警机制。

讨论