分布式训练中optimizer状态同步失败问题的解决方法

最近在进行分布式大模型训练时，遇到了一个令人头疼的问题：optimizer状态同步失败。这个问题在单机训练时完全不存在，但在多机分布式环境下就频繁报错。

问题现象

使用PyTorch DDP训练时，出现如下错误信息：

RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cuda:1

或者

AssertionError: optimizer state not synchronized across processes

复现步骤

启动多机训练脚本：torchrun --nproc_per_node=2 train.py
使用Adam优化器，batch size设置为64
模型参数初始化后立即同步optimizer状态

解决方案

经过多次踩坑，最终定位到问题根源在于optimizer state的初始化时机。正确的做法是：

# 错误方式 - 直接初始化
model = MyModel().cuda()
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)

# 正确方式 - 等待DDP初始化完成后再初始化
model = MyModel().cuda()
model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[args.gpu])
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
# 确保所有进程都完成同步后，再进行状态同步

关键要点

DDP初始化需要先完成模型创建
optimizer必须在DDP包装之后再初始化
适当增大--timeout参数避免超时
调整batch size到合适值，避免显存溢出

这个问题在大规模训练中非常常见，希望给同样踩坑的朋友们一些参考。

LoudSpirit · 2026-01-08T10:24:58

这问题太真实了，我之前也是optimizer状态没对齐就直接同步，结果DDP训练直接崩。记住：先DDP包装模型，再初始化optimizer，别急着同步状态。

Piper756 · 2026-01-08T10:24:58

timeout参数调大确实是关键一步，不然在多机环境下很容易因为同步超时直接中断训练。建议加个--timeout 1800参数试试。

Oliver248 · 2026-01-08T10:24:58

batch size设置太大会导致显存溢出，进而影响optimizer状态同步。我试过把64降到32后问题就解决了，别为了追求速度忽略稳定性

分布式训练中optimizer状态同步失败问题的解决方法

分布式训练中optimizer状态同步失败问题的解决方法

问题现象

复现步骤

解决方案

关键要点

讨论

选择表情