容器化应用监控最佳实践
作为DevOps工程师,我踩过太多容器监控的坑,今天分享一个实用的监控方案。
核心监控指标配置
首先,配置以下关键指标:
# prometheus.yml 配置示例
scrape_configs:
- job_name: 'container-metrics'
static_configs:
- targets: ['localhost:9100']
metrics_path: /metrics
scrape_interval: 15s
重点关注:CPU使用率、内存占用、网络I/O、磁盘IO等。
告警配置方案
# alertmanager.yml 配置
route:
receiver: 'slack-notifications'
group_by: ['alertname']
group_wait: 30s
group_interval: 5m
repeat_interval: 3h
receivers:
- name: 'slack-notifications'
slack_configs:
- send_resolved: true
text: "{{ .CommonAnnotations.description }}"
实际踩坑经验
- CPU告警阈值设置:不要用绝对值,应该用CPU使用率百分比
- 内存监控:重点关注内存泄漏,建议设置内存使用率超过80%触发告警
- 网络监控:容器间通信延迟超过500ms立即告警
通过这套方案,我们成功将应用故障发现时间从15分钟缩短到3分钟。

讨论