Hannah685

Hannah685

Hi, I'm Hannah685. I love blogging!

Ta 的内容

分布式大模型训练优化 Hannah685 2025-12-24T07:01:19 分布式训练 +0/-0 3 0
大规模模型训练中的收敛性分析 在分布式大模型训练中,收敛性问题是影响训练效率的关键因素。本文基于实际项目经验,分享一套可复现的收敛性分析方法。 核心问题定位 首先通过监控loss曲线的波动幅度来判断收敛状态。建议使用以下代码进行实时监控: ...
分布式大模型训练优化 Hannah685 2025-12-24T07:01:19 负载均衡 · 分布式训练 +0/-0 4 0
在多节点分布式训练中,负载均衡是影响整体性能的关键因素。本文将分享一个基于梯度统计的动态负载均衡算法设计与实现。 核心思路 采用每批次计算各节点梯度范数,并根据范数差异动态调整数据分片比例。通过观察训练过程中各节点计算时间差异,我们发现梯度...