LLM部署中的服务发现机制

LLM部署中的服务发现机制踩坑记录

在大模型部署实践中，服务发现是保障系统稳定性和可扩展性的关键环节。最近在部署LLM服务时，踩了几个关于服务发现的坑，记录下来供后来者参考。

问题背景

使用Kubernetes部署LLM服务时，遇到服务间通信不稳定、负载不均等问题。初步排查发现，服务注册与发现机制存在缺陷。

核心问题

服务注册超时：在高并发场景下，服务注册经常出现超时
DNS解析延迟：Kubernetes DNS解析响应时间过长
健康检查不准确：健康检查逻辑过于简单，无法及时发现故障节点

解决方案与复现步骤

1. 配置服务端口和健康检查

apiVersion: v1
kind: Service
metadata:
  name: llm-service
spec:
  selector:
    app: llm-model
  ports:
  - port: 8080
    targetPort: 8080
---
apiVersion: apps/v1
kind: Deployment
metadata:
  name: llm-deployment
spec:
  replicas: 3
  selector:
    matchLabels:
      app: llm-model
  template:
    metadata:
      labels:
        app: llm-model
    spec:
      containers:
      - name: llm-container
        image: my-llm-image:latest
        ports:
        - containerPort: 8080
        livenessProbe:
          httpGet:
            path: /health
            port: 8080
          initialDelaySeconds: 10
          periodSeconds: 5

2. 调整服务发现配置

# 在Pod中添加环境变量
env:
- name: SERVICE_NAME
  value: "llm-service"
- name: NAMESPACE
  valueFrom:
    fieldRef:
      fieldPath: metadata.namespace

3. 配置服务网格（可选）

对于更复杂的场景，可以引入Istio服务网格进行精细化管理：

apiVersion: networking.istio.io/v1alpha3
kind: DestinationRule
metadata:
  name: llm-destination
spec:
  host: llm-service
  trafficPolicy:
    connectionPool:
      http:
        http1MaxPendingRequests: 1000
        maxRequestsPerConnection: 1000
    outlierDetection:
      consecutiveErrors: 3
      interval: 10s
      baseEjectionTime: 30s

最佳实践总结

健康检查应包含多个维度（网络、内存、CPU）
配置合理的超时和重试机制
使用服务网格进行精细化流量管理

通过以上配置，服务发现稳定性大幅提升，部署成功率从60%提升至95%。

Helen47 · 2026-01-08T10:24:58

服务发现机制看似简单，实则暗藏玄机。这篇笔记把问题讲清楚了，但对‘高并发下注册超时’的根因分析太浅，没提到是否是etcd压力过大或Pod启动慢导致的。建议加个监控指标，比如registry latency、pod readiness time，才能真正定位瓶颈。

魔法使者 · 2026-01-08T10:24:58

DNS解析延迟这事儿确实坑，尤其在多区域部署时。但作者只给了基础配置，没提如何优化CoreDNS或使用本地缓存策略。我之前用的是kube-dns + dnsmasq 缓存层，效果拔群。如果你们还在用默认设置，那问题大概率出在这。

星辰之舞酱 · 2026-01-08T10:24:58

健康检查逻辑太单薄，这在大模型服务里尤其致命。一个推理请求可能耗时几秒甚至十几秒，而探针只查5秒内是否返回200，明显不合适。建议改为根据实际推理负载做自适应探测，比如基于历史响应时间设置超时阈值，而不是死板的固定时间