基于Ansible的大模型测试部署踩坑记录
最近在开源大模型测试社区中尝试用Ansible自动化部署大模型测试环境,结果踩了不少坑,分享一下经验。
部署环境
- Ubuntu 20.04 LTS
- Python 3.8
- Ansible 2.10+
- 大模型测试框架:HuggingFace Transformers
核心问题
部署过程中遇到的最大问题是依赖冲突。在roles/model-deploy/tasks/main.yml中,我使用了这样的配置:
- name: 安装Python依赖
pip:
name:
- torch==1.10.0
- transformers==4.15.0
virtualenv: /opt/model_env
virtualenv_python: python3
但实际测试时发现,模型推理服务无法启动,报错显示ImportError: libcudart.so.11.0缺失。后来通过在playbook中添加环境变量解决:
- name: 配置环境变量
lineinfile:
path: /etc/environment
line: 'LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH'
create: yes
可复现步骤
- 创建Ansible playbook文件
- 配置model-deploy角色
- 执行部署命令:
ansible-playbook deploy.yml - 检查容器化服务状态
优化建议
建议在实际部署前先做环境兼容性测试,避免出现类似问题。
总结
虽然部署过程有些曲折,但通过自动化工具确实提升了测试效率。这个经验对其他测试工程师也有参考价值。

讨论