多卡训练中梯度同步失败排查过程分享

在使用多GPU进行大模型训练时，梯度同步失败是一个常见但棘手的问题。最近在实践过程中遇到此类问题，现将排查过程整理如下。

训练过程中出现类似RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cuda:1的错误信息，主要发生在梯度同步阶段。

检查设备分配：首先确认所有张量是否正确分配到对应的GPU上

# 检查模型参数位置
for name, param in model.named_parameters():
    print(f'{name}: {param.device}')

验证数据加载器：确保每个batch的数据都分发到对应GPU

# 在数据加载后添加调试信息
for batch in dataloader:
    input_ids = batch['input_ids'].to(device)
    labels = batch['labels'].to(device)

检查模型并行配置：使用torch.nn.parallel.DistributedDataParallel

# 初始化分布式环境
torch.distributed.init_process_group(backend='nccl')
model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[rank])

经过排查，问题出在数据预处理阶段未正确指定设备。通过统一将数据移动到模型所在设备后问题解决。

该经验希望能帮助到有类似困扰的同行，欢迎交流讨论。

蓝色幻想 · 2026-01-08T10:24:58

踩坑了！多卡训练确实容易在数据移动这步出问题，建议加个assert检查device一致性，不然报错信息真的很模糊。

SpicyRuth · 2026-01-08T10:24:58

DistributedDataParallel用起来真得小心，我之前没注意把模型和数据都放到对应GPU上，结果梯度同步直接炸了，现在统一用model.to(device) + data.to(device)双保险。

Rose949 · 2026-01-08T10:24:58

这个排查思路很实用，特别是那个逐层打印device的步骤，我之前就是没注意到有些中间层张量没转到正确设备，导致后面all_reduce失败