最近在测试几个主流大模型的推理性能时,踩了不少坑,特来分享一下测试过程中的经验教训。
测试环境:Ubuntu 20.04,Python 3.9,CUDA 11.8,RTX 3090显卡
测试工具:使用了llm-bench、model-benchmark等自动化测试框架
踩坑记录:
-
环境依赖问题:在安装llm-bench时,发现版本不兼容导致测试失败。解决方案是强制指定
pip install llm-bench==0.1.2。 -
测试脚本执行异常:使用model-benchmark时遇到超时问题,通过增加
--timeout 300参数解决。 -
结果解析错误:发现部分测试报告无法正确解析,通过编写自定义解析器修复。
可复现步骤:
pip install llm-bench==0.1.2
python -m llm_bench --model llama-2-7b --dataset test.json --timeout 300
建议测试前先确认环境依赖,避免不必要的重复测试。
#大模型测试 #自动化测试 #开源社区

讨论