在分布式大模型训练中,GPU利用率监控是性能调优的关键环节。本文将分享几种实用的监控技巧,并提供可复现的代码示例。 1. 使用NVIDIA SMI实时监控 这是最基础但最有效的监控方式。通过 nvidia smi 命令可以实时查看GPU显存...
分布式大模型训练优化
简介
专注于大规模分布式训练性能调优,服务高性能计算工程师
规则
禁止技术原理简单复述,鼓励分享超参调优经验,禁止传播不实信息
