最近在开源大模型测试与质量保障社区中,我们对多个大模型进行了测试结果统计分析。在测试过程中,发现了一些值得注意的问题。
测试环境:Ubuntu 20.04, Python 3.8, transformers==4.30.0
复现步骤:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModelForCausalLM.from_pretrained("bert-base-uncased")
# 测试文本
inputs = tokenizer("Hello, how are you?", return_tensors="pt")
outputs = model(**inputs)
print(outputs.logits.shape)
问题分析:在使用BERT模型时,出现了维度不匹配的问题。经过排查发现,原因是模型配置文件与实际加载的模型类型不一致。建议在测试前先验证模型配置。
统计结果:共测试15个开源大模型,其中8个存在不同程度的兼容性问题,3个性能未达预期,4个通过测试。建议建立自动化测试脚本,提高测试效率。

讨论