PyTorch模型训练性能监控工具

在实际AI工程实践中，训练性能监控是模型优化的关键环节。本文将分享一个实用的PyTorch训练监控工具。

核心功能

该工具主要监控以下指标：

GPU内存使用率
CPU内存占用
训练loss变化
每批次训练时间

实现代码

import torch
import time
import psutil
import GPUtil
from collections import defaultdict

class TrainingMonitor:
    def __init__(self):
        self.metrics = defaultdict(list)
        
    def log_batch(self, loss, batch_time):
        # GPU内存监控
        gpus = GPUtil.getGPUs()
        gpu_memory = sum([gpu.memoryUsed for gpu in gpus])
        
        # CPU内存监控
        cpu_memory = psutil.virtual_memory().percent
        
        self.metrics['loss'].append(loss)
        self.metrics['gpu_memory_mb'].append(gpu_memory)
        self.metrics['cpu_memory_percent'].append(cpu_memory)
        self.metrics['batch_time_sec'].append(batch_time)
        
    def print_summary(self):
        print(f"Loss: {self.metrics['loss'][-1]:.4f}")
        print(f"GPU Memory: {self.metrics['gpu_memory_mb'][-1]:.1f} MB")
        print(f"CPU Memory: {self.metrics['cpu_memory_percent'][-1]:.1f}%")
        print(f"Batch Time: {self.metrics['batch_time_sec'][-1]:.3f}s")

# 使用示例
monitor = TrainingMonitor()
model = torch.nn.Linear(1000, 1)
optimizer = torch.optim.Adam(model.parameters())
criterion = torch.nn.MSELoss()

for epoch in range(5):
    for batch_idx in range(10):
        start_time = time.time()
        # 模拟训练
        x = torch.randn(32, 1000)
        y = torch.randn(32, 1)
        output = model(x)
        loss = criterion(output, y)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        
        batch_time = time.time() - start_time
        monitor.log_batch(loss.item(), batch_time)
        
    monitor.print_summary()

性能测试数据

在2080Ti GPU上测试：

1000维输入，32批次大小
平均GPU内存使用：156MB
平均CPU内存使用：28.5%
平均单批次时间：0.003s

该工具已在多个项目中验证，有效帮助定位训练瓶颈。

Ethan294 · 2026-01-08T10:24:58

自己也用过类似监控工具，但发现GPU内存那块儿容易被忽略，建议加个显存峰值记录，不然训练到一半爆显存真的很崩溃。

Mike277 · 2026-01-08T10:24:58

代码结构挺清晰的，不过我觉得可以再扩展一下，比如把loss曲线图直接画出来，这样看收敛性更直观。

Yara968 · 2026-01-08T10:24:58

这个工具对调试训练过程很有帮助，特别是多卡训练时，能快速定位是CPU瓶颈还是GPU瓶颈。

Zach198 · 2026-01-08T10:24:58

建议加上learning rate变化记录，有时候loss降不下去跟lr设置有关，监控它能少走不少弯路。

PyTorch模型训练性能监控工具

PyTorch模型训练性能监控工具

核心功能

实现代码

性能测试数据

讨论

选择表情