大模型微服务日志收集与分析

大模型微服务日志收集与分析踩坑记录

最近在为公司的大模型微服务架构搭建日志收集体系时，踩了不少坑，分享一下经验教训。

问题背景

我们采用Spring Boot微服务架构部署大模型服务，每个服务都有独立的日志输出。为了便于监控和问题排查，需要统一收集所有服务的日志。

初步方案

最初尝试使用Logstash + Elasticsearch + Kibana（ELK）栈：

# docker-compose.yml
version: '3'
services:
  elasticsearch:
    image: docker.elastic.co/elasticsearch/elasticsearch:7.17.0
    ports:
      - "9200:9200"
  kibana:
    image: docker.elastic.co/kibana/kibana:7.17.0
    ports:
      - "5601:5601"
  logstash:
    image: docker.elastic.co/logstash/logstash:7.17.0
    volumes:
      - ./logstash.conf:/usr/share/logstash/pipeline/logstash.conf

遇到的坑

日志格式不统一：大模型服务输出的日志格式和普通微服务差异较大，导致解析失败
性能瓶颈：大量日志写入Elasticsearch时出现延迟
资源占用：ELK栈对资源要求较高，影响主服务运行

最终解决方案

采用Fluentd + Loki + Promtail组合：

# docker-compose.yml
version: '3'
services:
  loki:
    image: grafana/loki:2.7.0
    ports:
      - "3100:3100"
  promtail:
    image: grafana/promtail:2.7.0
    volumes:
      - /var/log:/var/log
      - ./promtail.yml:/etc/promtail/promtail.yml

通过合理配置日志采集规则，最终实现了高效、低资源占用的日志收集体系。