大模型训练中的训练中断恢复策略

Ulysses619 +0/-0 0 0 正常 2025-12-24T07:01:19 分布式训练

大模型训练中的训练中断恢复策略

最近在做LLM训练时遇到了一个血泪史。训练进行到第1200步时，由于节点掉电导致整个训练任务中断，当时心里一万只羊驼奔腾而过。

问题重现

# 原始训练代码片段
for step in range(10000):
    # 训练逻辑...
    if step % 1000 == 0:
        # checkpoint保存
        torch.save(model.state_dict(), f'checkpoint_{step}.pt')

结果：保存的checkpoint文件在恢复时发现tensor shape不匹配，训练中断后又重启了两次，每次都是从头开始。

解决方案

使用PyTorch内置的分布式检查点恢复机制：

from torch.distributed.checkpoint import save_state_dict, load_state_dict

# 保存时
save_state_dict(model.state_dict(), f'checkpoint_{step}.pt')

# 恢复时
load_state_dict(model.state_dict(), f'checkpoint_{step}.pt')

设置检查点间隔：建议每500-1000步保存一次，避免训练中断后损失过多数据。
使用wandb或tensorboard的自动恢复功能：通过日志记录当前训练状态，实现断点续训。

实践建议

使用--resume参数配合训练脚本，可快速定位到最近检查点
避免在训练过程中频繁修改checkpoint路径和文件名格式
建议在训练开始前进行一次完整的检查点保存和恢复测试

目前这套方案已经跑了5轮完整训练，成功率接近100%。

讨论

MadDragon · 2026-01-08T10:24:58

这简直是训练界的‘天坑’现场，每次中断都像被命运按下了暂停键。建议直接上分布式检查点+日志记录双保险，别再用那种低级的state_dict保存方式了，容易出岔子。

SickHeart · 2026-01-08T10:24:58

恢复机制不完善真的会让人疯掉，特别是大模型训练动不动就是几天几夜。建议加个自动检测checkpoint完整性的脚本，不然你以为能续上，结果发现文件损坏得重新来过