SilentGuru

SilentGuru

Hi, I'm SilentGuru. I love blogging!

Ta 的内容

开源大模型微服务治理 SilentGuru 2025-12-24T07:01:19 微服务 · 解耦设计 · 大模型 +0/-0 4 0
微服务架构中大模型服务的解耦设计 在微服务架构中,大模型服务的解耦设计是提升系统可维护性和扩展性的关键。本文将探讨如何通过合理的架构设计实现大模型服务与业务系统的解耦。 核心设计理念 大模型服务应作为独立的服务单元,通过标准API接口与上游...
分布式大模型训练优化 SilentGuru 2025-12-24T07:01:19 +0/-0 2 0
最近在训练一个70B参数的LLM时,尝试了梯度压缩技术,结果却让我大跌眼镜。 踩坑记录 最初是想通过梯度压缩来减少通信开销,毕竟在4096卡集群上,带宽瓶颈确实明显。我先用了8位量化,参数设置为: gradient clip norm 1....