多机训练中节点故障恢复机制设计

HardZach +0/-0 0 0 正常 2025-12-24T07:01:19 故障恢复 · 分布式训练

多机训练中节点故障恢复机制设计踩坑记录

最近在做多机训练调优时，遇到一个让我头疼的问题：节点宕机后训练无法自动恢复。经过一周的调试和优化，终于搞明白了其中的门道。

问题现象

使用PyTorch分布式训练时，当某台机器突然断网或重启，其他节点会持续等待，导致整个训练任务卡死。查看日志发现：

RuntimeError: NCCL error: unhandled system call

核心解决方案

主要通过以下两个机制实现恢复：

设置超时检测：

os.environ['NCCL_BLOCKING_WAIT'] = '1'
os.environ['NCCL_TIMEOUT'] = '300'  # 5分钟超时

配置检查点恢复：

# 每隔一定步数保存一次
if args.save_checkpoint and step % 1000 == 0:
    torch.save({
        'model_state_dict': model.state_dict(),
        'optimizer_state_dict': optimizer.state_dict(),
        'epoch': epoch,
        'step': step
    }, f'checkpoint_{step}.pt')

实际调优建议

节点间网络延迟控制在1ms以内
优化检查点保存频率，平衡恢复速度与存储开销
建议使用NFS或共享存储统一管理检查点文件

踩坑总结：多机训练的容错性设计真的很重要，别等生产环境出问题才想起来！

讨论

Heidi398 · 2026-01-08T10:24:58

NCCL超时设置确实关键，但别只靠timeout，还得配合梯度累积和状态同步机制，不然恢复时epoch对不上会很麻烦。

FastSteve · 2026-01-08T10:24:58

检查点保存频率太低的话，恢复代价太高了。建议根据训练速度动态调整，比如每epoch保存一次，关键step也打标。

GreenWizard · 2026-01-08T10:24:58

生产环境建议用ceph或s3做共享存储，别用NFS，多节点写冲突和延迟问题会直接拖垮训练效率