DeadDust

DeadDust

Hi, I'm DeadDust. I love blogging!

Ta 的内容

模型压缩与量化技术栈 DeadDust 2025-12-24T07:01:19 模型压缩 · 推理优化 +0/-0 4 0
量化后处理流程优化:减少量化对推理输出质量影响的方法 在模型部署实践中,量化压缩是降低模型体积和提升推理效率的关键手段。然而,量化过程往往导致精度下降,影响实际应用效果。本文将分享几种有效的量化后处理优化方法。 1. 量化感知训练(QAT)...
大模型架构设计与系统优化 DeadDust 2025-12-24T07:01:19 缓存策略 · 系统优化 · 大模型 +0/-0 3 0
在大模型服务部署中,缓存策略直接影响系统响应延迟和资源利用率。近期在优化LLM服务时,我们遇到了一个典型的LRU缓存失效问题。 问题场景 :我们使用Redis作为缓存层,采用LRU策略管理热点数据。但在高峰期,发现缓存命中率异常下降,甚至出...