容器资源使用率告警
在模型监控系统中,容器资源使用率是核心监控指标之一。当容器CPU或内存使用率超过阈值时,需要及时告警。
监控指标配置
# prometheus监控配置
scrape_configs:
- job_name: 'model-serving'
kubernetes_sd_configs:
- role: pod
metrics_path: /metrics
relabel_configs:
- source_labels: [__meta_kubernetes_pod_annotation_prometheus_io_scrape]
action: keep
regex: true
- source_labels: [__meta_kubernetes_pod_container_name]
target_label: container
- source_labels: [__meta_kubernetes_pod_name]
target_label: pod
# 定义告警规则
rule_files:
- 'model-alerts.yml'
告警规则配置
# model-alerts.yml
groups:
- name: container-resource-alerts
rules:
- alert: HighCPUUsage
expr: rate(container_cpu_usage_seconds_total[5m]) > 0.8
for: 2m
labels:
severity: critical
category: resource
annotations:
summary: "容器CPU使用率过高"
description: "容器{{ $labels.pod }} CPU使用率达到 {{ $value }},超过阈值0.8"
- alert: HighMemoryUsage
expr: container_memory_usage_bytes / container_spec_memory_limit_bytes > 0.9
for: 3m
labels:
severity: warning
category: resource
annotations:
summary: "容器内存使用率过高"
description: "容器{{ $labels.pod }} 内存使用率达到 {{ $value }},超过阈值0.9"
告警处理流程
- Prometheus检测到告警条件触发
- Alertmanager发送告警通知至Slack/钉钉
- DevOps工程师根据告警信息进行资源扩容或模型优化
通过容器资源监控,可以有效预防模型服务因资源不足导致的性能下降。

讨论