模型服务可用性指标的阈值设定

在机器学习模型监控中，可用性是核心指标之一。本文基于实际生产环境经验，提供具体的可用性监控指标阈值设定方案。

核心监控指标

1. 服务响应时间（P95）

阈值：>200ms（正常），>500ms（告警）
监控代码示例：

from prometheus_client import Histogram
import time

response_time = Histogram('model_response_seconds', 'Model response time')

with response_time.time():
    # 模型推理逻辑
    result = model.predict(input_data)

2. 请求成功率

阈值：>95%（正常），<90%（告警）
通过Prometheus指标收集：

1 - rate(model_requests_total{status="error"}[5m]) / rate(model_requests_total[5m])

3. 服务可用率

阈值：>99.5%（正常），<99%（告警）
实现方式：

from prometheus_client import Counter

requests_total = Counter('model_requests_total', 'Total requests')
requests_error = Counter('model_requests_error', 'Error requests')

try:
    result = model.predict(input_data)
    requests_total.inc()
except Exception as e:
    requests_error.inc()
    requests_total.inc()

告警配置方案

告警级别设置：

P0（紧急）：响应时间>500ms或可用率<99%
P1（重要）：响应时间>300ms或成功率<90%
P2（一般）：响应时间>200ms或可用率<99.5%

告警规则配置：

rule_files:
  - model_alerts.yml

groups:
  - name: model_availability
    rules:
      - alert: HighResponseTime
        expr: histogram_quantile(0.95, rate(model_response_seconds_bucket[5m])) > 0.5
        for: 2m
        labels:
          severity: page

ColdDeveloper · 2026-01-08T10:24:58

P95响应时间设为200ms阈值偏保守，实际应根据业务链路整体SLA动态调整，比如电商场景可接受300ms，而金融风控需控制在100ms内。

WildUlysses · 2026-01-08T10:24:58

成功率监控要结合错误类型细化告警，如模型推理超时、输入格式异常等，避免单一指标掩盖真实问题，建议用Prometheus分组统计错误码。

RoughNora · 2026-01-08T10:24:58

可用率告警可引入滑动窗口机制，比如5分钟内连续3次低于99%才触发P0告警，减少因瞬时抖动导致的误报干扰核心排查流程。

模型服务可用性指标的阈值设定

模型服务可用性指标的阈值设定

核心监控指标

告警配置方案

讨论

选择表情