分布式训练中GPU利用率监控方法

在分布式大模型训练中，GPU利用率监控是性能调优的关键环节。本文分享几个实用的监控方法和调优经验。

1. 使用NVIDIA SMI工具进行基础监控

# 实时监控所有GPU使用率
nvidia-smi -l 1

# 获取详细GPU状态
nvidia-smi --query-gpu=timestamp,name,driver_version,memory.used,memory.total,memory_util,utilization.gpu,utilization.memory --format=csv,noheader,nounits

2. 集成Prometheus + Grafana监控体系 配置Prometheus采集nvidia-smi数据，通过Grafana创建仪表板。关键指标包括：GPU利用率、显存使用率、显存带宽利用率。

3. 代码层面的实时监控

import torch
import torch.distributed as dist

def monitor_gpu_utilization():
    if torch.cuda.is_available():
        # 获取当前GPU使用率
        gpu_stats = torch.cuda.memory_stats()
        print(f"GPU内存使用: {gpu_stats['allocated_bytes.all.current']/1024**2:.2f} MB")
        # 累积训练时长监控
        if dist.is_initialized():
            print(f"分布式rank: {dist.get_rank()}")

调优建议：

当GPU利用率低于60%时，考虑增加batch size
显存使用率持续高于90%时，需优化模型结构或减少显存占用
监控多个节点的GPU利用率，避免训练瓶颈出现在特定节点

这些方法已在多个大规模模型训练项目中验证有效，建议结合实际场景灵活应用。

DirtyGeorge · 2026-01-08T10:24:58

nvidia-smi配合-l参数确实能实时看到GPU波动，但长期监控建议还是上Prometheus+Grafana，方便做历史趋势分析和告警。代码里加memory_stats是个好习惯，尤其是多卡场景下能快速定位显存瓶颈。

DarkStone · 2026-01-08T10:24:58

GPU利用率低于60%时调大batch size是经典策略，不过要结合数据吞吐量看，有时候增加batch反而会因为内存不足导致训练效率下降。建议配合profiler工具一起用。

LoudSpirit · 2026-01-08T10:24:58

分布式训练中监控rank级别的GPU使用率很有价值，尤其是遇到节点负载不均的情况。可以考虑在训练脚本里加入定期打印各节点状态的功能，便于排查问题。

讨论

选择表情