大模型推理阶段缓存机制失效导致性能下降
最近在测试一个大模型推理服务时,发现了一个令人头疼的问题:缓存机制似乎完全失效了,导致推理性能急剧下降。经过深入排查,发现问题出在缓存配置上。
问题现象
在使用transformers库进行推理时,发现相同输入的重复请求耗时明显增加,本应通过缓存加速的请求反而变慢。这在高并发场景下尤为明显。
复现步骤
- 启动模型服务:
python -m transformers-cli serve --model bert-base-uncased - 使用以下代码测试缓存效果:
from transformers import pipeline
import time
pipe = pipeline("text-classification", model="bert-base-uncased")
# 测试重复请求
for i in range(5):
start = time.time()
result = pipe("This is a test sentence.")
end = time.time()
print(f"Request {i+1}: {end-start:.4f}s")
- 观察输出发现每次耗时都相同,而非预期的首次慢、后续快
根本原因
经过调试发现是cache_dir参数配置错误导致。默认情况下缓存没有正确写入,需要显式指定:
pipe = pipeline("text-classification", model="bert-base-uncased", cache_dir="/tmp/bert_cache")
解决方案
- 正确设置缓存目录
- 确保目录权限正确
- 定期清理过期缓存文件
这个bug提醒我们在进行安全测试时,要格外注意配置参数的正确性,避免因为配置错误导致系统性能问题。

讨论