在开源大模型部署过程中,Docker镜像构建失败是常见问题。本文将通过具体案例分析并提供解决方案。
问题现象
在使用NVIDIA Docker构建大模型推理服务时,出现以下错误:
Step 12/15 : RUN pip install -r requirements.txt
---> Running in 0c9a4b3d8e7f
ERROR: Could not find a version that satisfies the requirement transformers==4.33.0
ERROR: No matching distribution found for transformers==4.33.0
复现步骤
- 创建Dockerfile:
FROM nvidia/cuda:11.8.0-devel-ubuntu20.04
WORKDIR /app
COPY requirements.txt .
RUN pip install -r requirements.txt
COPY . .
CMD ["python", "app.py"]
- requirements.txt内容:
transformers==4.33.0
accelerate==0.21.0
torch==2.0.1+cu118
解决方案
方案一:使用正确的镜像基础
FROM nvidia/cuda:11.8.0-devel-ubuntu20.04
# 设置Python环境
ENV PYTHONPATH=/app
ENV PATH=/usr/local/bin:$PATH
RUN apt-get update && apt-get install -y python3-pip
WORKDIR /app
COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt
方案二:添加镜像源优化
RUN pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple/
RUN pip install -r requirements.txt
最佳实践
- 使用官方推荐的基础镜像
- 添加缓存优化
- 检查CUDA版本兼容性
- 优先使用whl包而非源码编译

讨论