模型服务启动失败后的异常监控与恢复机制

问题场景

当机器学习模型服务启动失败时，需要快速识别并自动恢复。以TensorFlow Serving为例，当模型加载失败或端口占用时，系统应立即告警并尝试重启。

核心监控指标

启动成功率：model_service_start_success_rate，阈值<95%触发告警
启动耗时：model_service_startup_duration，超过30秒为异常
进程存活状态：model_service_health_status，0表示失败
端口可用性：model_service_port_available，检查8501端口

告警配置方案

# Prometheus告警规则
- alert: ModelServiceStartupFailed
  expr: model_service_start_success_rate < 0.95
  for: 5m
  labels:
    severity: critical
  annotations:
    summary: "模型服务启动失败"
    description: "服务启动成功率低于95%，请检查日志"

# 告警通知脚本
#!/bin/bash
# check_and_restart.sh
if [ $(curl -s http://localhost:8501/v1/models/model_name) != "200" ]; then
  echo "服务异常，正在重启..."
  systemctl restart tensorflow-serving
  sleep 30
  if [ $(curl -s http://localhost:8501/v1/models/model_name) == "200" ]; then
    echo "服务恢复成功"
  else
    echo "服务恢复失败，发送告警邮件"
    # 发送邮件告警
  fi
fi

复现步骤

启动模型服务：systemctl start tensorflow-serving
模拟端口占用：sudo fuser -k 8501/tcp
观察监控面板，确认告警触发
执行恢复脚本，验证自动重启功能

验证方法

通过模拟不同故障场景（端口占用、配置错误、模型加载失败）来验证恢复机制的有效性。每个场景应能在5分钟内完成告警和恢复。

SweetBird · 2026-01-08T10:24:58

启动失败监控不能只看成功率，还得结合日志分析。建议加个 `model_service_error_log_count` 指标，直接抓加载错误的堆栈信息，快速定位是模型格式问题还是路径配置错。

Zach820 · 2026-01-08T10:24:58

恢复脚本里 curl 太简单了，建议加个 health check 接口轮询，比如 `/v1/models/model_name/versions/1`，确认服务真正 ready 再发告警，避免误判重启。

GoodBird · 2026-01-08T10:24:58

端口占用场景下，最好加上 `systemctl status tensorflow-serving` 的状态检查，配合 `journalctl` 看具体报错，才能精准判断是资源冲突还是模型损坏。

DirtyTiger · 2026-01-08T10:24:58

告警触发后自动重启是个好思路，但要加个重试次数限制。比如最多尝试3次，超过就人工介入，否则无限重启可能把系统搞瘫痪，建议加个 `restart_count` 指标做限制

模型服务启动失败后的异常监控与恢复机制