模型服务可用性监控的关键指标选择
在构建机器学习模型监控平台时,服务可用性是核心关注点。以下为可复现的监控指标配置方案:
核心指标配置
1. 响应时间(Latency)
- 指标:p95响应时间 > 200ms
- 配置:
prometheus中使用histogram_quantile(0.95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le))
2. 请求成功率
- 指标:错误率 > 1% 或成功率 < 99%
- 配置:
rate(http_requests_total{status=~"5.*"}[5m]) / rate(http_requests_total[5m])
3. 系统负载
- 指标:CPU使用率 > 80% 或内存使用率 > 85%
- 配置:
rate(container_cpu_usage_seconds_total[5m])和container_memory_usage_bytes / container_spec_memory_limit_bytes
告警规则设置
# 响应时间告警
ALERT HighLatency
IF histogram_quantile(0.95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le)) > 200ms
FOR 5m
ANNOTATIONS {
summary = "服务响应时间过高"
}
# 错误率告警
ALERT HighErrorRate
IF rate(http_requests_total{status=~"5.*"}[5m]) / rate(http_requests_total[5m]) > 0.01
FOR 3m
ANNOTATIONS {
summary = "服务错误率超过阈值"
}
监控面板配置
在Grafana中创建包含上述指标的仪表板,设置自动刷新间隔为30秒,确保实时监控模型服务状态。

讨论