模型服务可用性监控的关键指标选择

Yara671 +0/-0 0 0 正常 2025-12-24T07:01:19 DevOps · 模型监控

模型服务可用性监控的关键指标选择

在构建机器学习模型监控平台时,服务可用性是核心关注点。以下为可复现的监控指标配置方案:

核心指标配置

1. 响应时间(Latency)

  • 指标:p95响应时间 > 200ms
  • 配置:prometheus中使用histogram_quantile(0.95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le))

2. 请求成功率

  • 指标:错误率 > 1% 或成功率 < 99%
  • 配置:rate(http_requests_total{status=~"5.*"}[5m]) / rate(http_requests_total[5m])

3. 系统负载

  • 指标:CPU使用率 > 80% 或内存使用率 > 85%
  • 配置:rate(container_cpu_usage_seconds_total[5m])container_memory_usage_bytes / container_spec_memory_limit_bytes

告警规则设置

# 响应时间告警
ALERT HighLatency
  IF histogram_quantile(0.95, sum(rate(http_request_duration_seconds_bucket[5m])) by (le)) > 200ms
  FOR 5m
  ANNOTATIONS {
    summary = "服务响应时间过高"
  }

# 错误率告警
ALERT HighErrorRate
  IF rate(http_requests_total{status=~"5.*"}[5m]) / rate(http_requests_total[5m]) > 0.01
  FOR 3m
  ANNOTATIONS {
    summary = "服务错误率超过阈值"
  }

监控面板配置

在Grafana中创建包含上述指标的仪表板,设置自动刷新间隔为30秒,确保实时监控模型服务状态。

推广
广告位招租

讨论

0/2000
KindLion
KindLion · 2026-01-08T10:24:58
响应时间p95选200ms偏保守,建议结合业务场景动态调整,比如API网关层可设100ms告警;另外histogram_quantile计算需注意数据聚合窗口,避免因Prometheus scrape间隔导致的偏差。
Ursula577
Ursula577 · 2026-01-08T10:24:58
错误率监控别只看成功率,要拆解5xx、4xx分类,配合Grafana面板做根因分析。建议加个请求量基线,比如低峰期错误率突然升高10%就告警,更精准捕捉异常。