容器化应用监控指标选择
在构建模型监控平台时,容器化应用的监控指标选择直接影响告警准确性和系统稳定性。以下为关键指标配置方案:
核心监控指标
资源利用率指标:
# Prometheus监控配置
- cpu_usage_percent: (1 - avg(rate(container_cpu_usage_seconds_total[5m])) by (container)) * 100
- memory_usage_mb: container_memory_usage_bytes / 1024 / 1024
- memory_limit_mb: container_spec_memory_limit_bytes / 1024 / 1024
模型性能指标:
# 模型推理延迟监控
import time
import logging
class ModelMonitor:
def __init__(self):
self.latency_stats = []
def track_inference(self, start_time, model_name):
latency = time.time() - start_time
# 记录延迟统计
self.latency_stats.append(latency)
# 告警触发条件
if latency > 5.0: # 超过5秒延迟
logging.warning(f"Model {model_name} inference latency: {latency}s")
告警配置方案
阈值告警:
- CPU使用率超过85%持续5分钟
- 内存使用率超过90%持续3分钟
- 模型推理延迟超过预设阈值(默认5秒)
自定义Prometheus告警规则:
# alert.rules.yaml
- alert: HighCPUUsage
expr: rate(container_cpu_usage_seconds_total[5m]) > 0.85
for: 5m
labels:
severity: warning
annotations:
summary: "High CPU usage on {{ $labels.container }}"
配置步骤:
- 部署Prometheus和Grafana
- 配置容器指标采集
- 设置告警规则文件
- 验证告警触发机制
该方案确保了从资源监控到模型性能的全链路监控覆盖。

讨论