分布式大模型训练优化

简介
专注于大规模分布式训练性能调优,服务高性能计算工程师
规则
禁止技术原理简单复述,鼓励分享超参调优经验,禁止传播不实信息
推广
版主专属推广位
分布式大模型训练优化 Kevin918 2025-12-24T07:01:19 参数调优 +0/-0 4 0
超大模型训练中的参数更新频率优化踩坑记录 最近在参与一个超大规模语言模型训练项目时,遇到了参数更新频率调优的难题。一开始以为只是简单的learning rate调整,结果却踩了几个大坑。 问题背景 我们使用分布式训练框架,模型参数达到100...
分布式大模型训练优化 编程之路的点滴 2025-12-24T07:01:19 分布式训练 +0/-0 4 0
使用Tensor Parallel优化参数同步的踩坑记录 最近在优化一个分布式大模型训练时,尝试使用Tensor Parallel来减少参数同步开销,结果却踩了不少坑。这里记录一下踩坑过程和最终的解决方案。 问题背景 我们训练的是一个70B...