大模型微服务可观测性设计

在大模型微服务化改造过程中，可观测性是确保系统稳定运行的核心要素。本文将从监控、日志、链路追踪三个维度，分享可复现的可观测性设计方案。

监控指标体系

首先建立核心监控指标：

# prometheus配置示例
scrape_configs:
  - job_name: 'model-service'
    static_configs:
      - targets: ['localhost:8080']
    metrics_path: '/metrics'

关键指标包括：模型推理延迟、GPU内存使用率、请求成功率等。

日志采集方案

采用结构化日志格式，统一收集所有服务输出：

import logging
import json

logger = logging.getLogger('model_service')
logger.setLevel(logging.INFO)

handler = logging.StreamHandler()
formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')
handler.setFormatter(formatter)
logger.addHandler(handler)

# 结构化日志输出
logger.info(json.dumps({
    'event': 'inference_start',
    'request_id': 'req_12345',
    'model_name': 'gpt-3.5',
    'timestamp': time.time()
}))

链路追踪实现

集成OpenTelemetry进行分布式追踪：

from opentelemetry import trace
from opentelemetry.trace import Status, StatusCode

tracer = trace.get_tracer(__name__)

with tracer.start_as_current_span("model_inference") as span:
    span.set_attribute("model.name", "gpt-3.5")
    try:
        # 执行推理逻辑
        result = model.infer(prompt)
        span.set_status(Status(StatusCode.OK))
    except Exception as e:
        span.set_status(Status(StatusCode.ERROR, str(e)))
        raise

通过以上方案，可实现大模型服务的完整可观测性覆盖，为运维决策提供数据支撑。