TensorFlow Serving微服务架构中的服务注册发现

TensorFlow Serving微服务架构中的服务注册发现踩坑记

最近在将TensorFlow Serving部署到生产环境时，遇到了服务注册发现的难题。作为后端开发者，我们采用Docker容器化部署，配合负载均衡实现高可用。

问题背景

我们的TensorFlow Serving服务通过Docker容器运行，但容器启动后无法被外部服务发现。最初尝试使用Consul进行服务注册，但配置复杂且维护成本高。

解决方案：基于Docker网络的服务发现

# Docker Compose配置文件
version: '3.8'
services:
  tensorflow-serving:
    image: tensorflow/serving:latest
    container_name: tf-serving
    networks:
      - serving-network
    ports:
      - "8500:8500"
      - "8501:8501"
    environment:
      - MODEL_NAME=model_name
      - MODEL_BASE_PATH=/models
    volumes:
      - ./models:/models
    # 使用自定义健康检查
    healthcheck:
      test: ["CMD", "curl", "-f", "http://localhost:8501/healthz"]
      interval: 30s
      timeout: 10s
      retries: 3

  nginx:
    image: nginx:alpine
    container_name: nginx-proxy
    networks:
      - serving-network
    ports:
      - "80:80"
    volumes:
      - ./nginx.conf:/etc/nginx/nginx.conf
    depends_on:
      tf-serving:
        condition: service_healthy

负载均衡配置

我们使用Nginx实现负载均衡，通过Docker容器的网络通信机制实现服务发现：

upstream tensorflow_servers {
    server tf-serving:8500;
}

server {
    listen 80;
    location / {
        proxy_pass http://tensorflow_servers;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
    }
}

实际踩坑经验

容器间通信问题：必须使用container_name而非hostname进行服务发现
健康检查关键性：缺少健康检查会导致负载均衡器无法正确剔除故障实例
端口映射注意：容器内端口与宿主机端口映射要一致，避免服务调用失败

通过以上方案，我们成功实现了TensorFlow Serving的微服务化部署，服务注册发现变得简单可靠。

TensorFlow Serving微服务架构中的服务注册发现踩坑记

问题背景

解决方案：基于Docker网络的服务发现

负载均衡配置

实际踩坑经验

讨论

选择表情