Kafka消费者组监控告警配置实录
在机器学习模型运行时监控中,Kafka消费者组的健康状态直接影响模型推理服务质量。本文基于JMX指标构建完整的监控告警体系。
核心监控指标配置
# 消费者组关键指标
- kafka.consumer:type=consumer-fetch-manager-metrics,client-id=consumer-1
- fetch-latency-avg: 平均获取延迟
- records-per-request-avg: 每次请求记录数
- fetch-rate: 获取速率
- kafka.consumer:type=consumer-coordinator-metrics,client-id=consumer-1
- partition-rebalance-rate: 分区重平衡率
- heartbeat-rate: 心跳发送频率
告警规则配置
# 告警阈值设置
consumer_group_fetch_latency:
metric: kafka.consumer:type=consumer-fetch-manager-metrics,client-id=consumer-1,fetch-latency-avg
threshold: 5000 # ms
duration: 5m
severity: warning
action: send_slack_alert
partition_rebalance_alert:
metric: kafka.consumer:type=consumer-coordinator-metrics,client-id=consumer-1,partition-rebalance-rate
threshold: 10
duration: 1m
severity: critical
action: trigger_deployment_rollout
复现步骤
- 启动消费者组并配置JMX监控
- 使用Prometheus采集指标,配置告警规则
- 模拟高延迟场景验证告警触发
- 配置Slack通知集成
通过以上配置,可实现消费者组异常的实时告警,确保模型推理服务稳定性。

讨论