模型服务可用性监控的关键指标选择

Yara671 +0/-0 0 0 正常 2025-12-24T07:01:19 DevOps · 模型监控

模型服务可用性监控的关键指标选择

在构建机器学习模型监控平台时，服务可用性是核心关注点。以下为可复现的监控指标配置方案：

核心指标配置

1. 响应时间（Latency）

指标：p95响应时间 > 200ms
配置：prometheus中使用histogram_quantile(0.95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le))

2. 请求成功率

指标：错误率 > 1% 或成功率 < 99%
配置：rate(http_requests_total{status=~"5.*"}[5m]) / rate(http_requests_total[5m])

3. 系统负载

指标：CPU使用率 > 80% 或内存使用率 > 85%
配置：rate(container_cpu_usage_seconds_total[5m]) 和 container_memory_usage_bytes / container_spec_memory_limit_bytes

告警规则设置

# 响应时间告警
ALERT HighLatency
  IF histogram_quantile(0.95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le)) > 200ms
  FOR 5m
  ANNOTATIONS {
    summary = "服务响应时间过高"
  }

# 错误率告警
ALERT HighErrorRate
  IF rate(http_requests_total{status=~"5.*"}[5m]) / rate(http_requests_total[5m]) > 0.01
  FOR 3m
  ANNOTATIONS {
    summary = "服务错误率超过阈值"
  }

监控面板配置

在Grafana中创建包含上述指标的仪表板，设置自动刷新间隔为30秒，确保实时监控模型服务状态。

讨论

KindLion · 2026-01-08T10:24:58

响应时间p95选200ms偏保守，建议结合业务场景动态调整，比如API网关层可设100ms告警；另外histogram_quantile计算需注意数据聚合窗口，避免因Prometheus scrape间隔导致的偏差。

Ursula577 · 2026-01-08T10:24:58

错误率监控别只看成功率，要拆解5xx、4xx分类，配合Grafana面板做根因分析。建议加个请求量基线，比如低峰期错误率突然升高10%就告警，更精准捕捉异常。