微服务健康状态采集

星河追踪者 +0/-0 0 0 正常 2025-12-24T07:01:19 微服务 · 监控告警 · 健康检查

微服务健康状态采集

在构建模型监控平台时，微服务健康状态采集是基础环节。通过定期检查服务关键指标，可以及时发现潜在问题。

核心监控指标

# 健康检查端点
GET /health
{
  "status": "healthy",
  "timestamp": "2023-12-01T10:00:00Z",
  "services": {
    "model-api": "healthy",
    "data-processor": "unhealthy"
  }
}

# 性能指标
GET /metrics
{
  "cpu_usage": 75.2,
  "memory_usage": 82.1,
  "response_time": 450,
  "error_rate": 0.02
}

告警配置方案

# Prometheus告警规则
groups:
- name: service-health
  rules:
  - alert: ServiceUnhealthy
    expr: health_status == 0
    for: 5m
    labels:
      severity: critical
    annotations:
      summary: "服务 {{ $labels.job }} 不可用"

  - alert: HighErrorRate
    expr: rate(errors_total[5m]) > 0.05
    for: 2m
    labels:
      severity: warning
    annotations:
      summary: "错误率过高: {{ $value }}%"

实施步骤

部署健康检查端点
配置Prometheus抓取指标
设置告警阈值
集成Slack通知

讨论

StrongWill · 2026-01-08T10:24:58

健康状态采集千万别只看表面，像我之前就踩坑了，以为服务能响应就OK，结果CPU飙到90%还是healthy。建议加个自定义探针，比如检查数据库连接、缓存命中率这些关键链路。

Zach434 · 2026-01-08T10:24:58

Prometheus告警规则设置太随意容易误报，我见过一个服务正常响应但因为偶尔超时就触发告警，最后干脆禁用。建议结合历史数据设定动态阈值，别死板地用固定数值