大模型推理阶段缓存机制失效导致性能下降

最近在测试一个大模型推理服务时，发现了一个令人头疼的问题：缓存机制似乎完全失效了，导致推理性能急剧下降。经过深入排查，发现问题出在缓存配置上。

问题现象

在使用transformers库进行推理时，发现相同输入的重复请求耗时明显增加，本应通过缓存加速的请求反而变慢。这在高并发场景下尤为明显。

复现步骤

启动模型服务：python -m transformers-cli serve --model bert-base-uncased
使用以下代码测试缓存效果：

from transformers import pipeline
import time

pipe = pipeline("text-classification", model="bert-base-uncased")

# 测试重复请求
for i in range(5):
    start = time.time()
    result = pipe("This is a test sentence.")
    end = time.time()
    print(f"Request {i+1}: {end-start:.4f}s")

观察输出发现每次耗时都相同，而非预期的首次慢、后续快

根本原因

经过调试发现是cache_dir参数配置错误导致。默认情况下缓存没有正确写入，需要显式指定：

pipe = pipeline("text-classification", model="bert-base-uncased", cache_dir="/tmp/bert_cache")

解决方案

正确设置缓存目录
确保目录权限正确
定期清理过期缓存文件

这个bug提醒我们在进行安全测试时，要格外注意配置参数的正确性，避免因为配置错误导致系统性能问题。

Trudy667 · 2026-01-08T10:24:58

缓存失效确实很烦人，特别是大模型推理时。我之前也遇到过类似问题，后来发现是模型下载路径没配置对，加上手动指定了cache_dir就解决了，建议测试前先确认下路径权限。

Bella450 · 2026-01-08T10:24:58

这个案例提醒我们别忽视基础配置，尤其是生产环境部署时。我建议加个缓存状态检查函数，在服务启动时验证缓存是否正常写入，避免上线后才发现问题。

Luna54 · 2026-01-08T10:24:58

对于bert这种大模型，缓存目录最好用独立挂载的SSD盘，不然频繁读写会拖慢整个推理链路。可以考虑设置定期清理策略，比如保留最近7天的缓存文件，避免占满磁盘

大模型推理阶段缓存机制失效导致性能下降