模型服务响应时间历史基线对比分析

在机器学习模型生产环境中，响应时间是衡量系统健康度的核心指标。本文通过对比历史基线数据，提供一套可复现的监控方案。

基线数据收集

首先建立响应时间的历史基线：

import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# 模拟过去30天的响应时间数据
base_time = datetime.now()
response_times = []
for i in range(30):
    # 添加趋势和季节性变化
    base = 200 + 50 * np.sin(2 * np.pi * i / 7) + np.random.normal(0, 20)
    response_times.append({
        'timestamp': base_time - timedelta(days=i),
        'response_time_ms': max(50, base)
    })

# 计算统计基线
baseline_df = pd.DataFrame(response_times)
baseline_stats = baseline_df['response_time_ms'].describe(percentiles=[0.25, 0.5, 0.75])
print(baseline_stats)

告警配置方案

设置动态阈值告警：

正常范围：均值 ± 1.5σ
警告阈值：均值 + 2σ
严重告警：均值 + 3σ

# 动态阈值计算
mean_time = baseline_df['response_time_ms'].mean()
std_time = baseline_df['response_time_ms'].std()

critical_threshold = mean_time + 3 * std_time
warning_threshold = mean_time + 2 * std_time
normal_range = (mean_time - 1.5 * std_time, mean_time + 1.5 * std_time)

print(f"警告阈值: {warning_threshold:.2f}ms")
print(f"严重告警: {critical_threshold:.2f}ms")

实际监控实现

在Prometheus中配置监控规则：

# prometheus.yml
rule_files:
  - model_monitoring.yml

# model_monitoring.yml
groups:
- name: model_response_time
  rules:
  - alert: HighModelResponseTime
    expr: avg_over_time(response_time_ms[5m]) > 200
    for: 3m
    labels:
      severity: warning
    annotations:
      summary: "模型响应时间过高"
      description: "5分钟平均响应时间超过200ms，当前值为 {{ $value }}ms"

通过历史基线对比，可有效识别异常响应模式，避免误报和漏报。

模型服务响应时间历史基线对比分析

模型服务响应时间历史基线对比分析

基线数据收集

告警配置方案

实际监控实现

讨论

选择表情