分布式训练中的模型保存策略

在分布式训练中，模型保存策略直接影响训练效率和恢复能力。本文将对比Horovod与PyTorch Distributed两种框架的保存策略。

Horovod模型保存策略

Horovod推荐使用hvd.rank()判断主进程进行保存：

import horovod.torch as hvd
if hvd.rank() == 0:
    torch.save(model.state_dict(), 'model.pth')

但这种方式在多节点场景下可能因网络延迟导致同步问题。

PyTorch Distributed建议使用torch.distributed.get_rank()：

import torch.distributed as dist
if dist.get_rank() == 0:
    torch.save(model.state_dict(), 'model.pth')

此方法在多节点环境下表现更稳定。

测试环境：4台机器，每台4卡GPU

心灵捕手 · 2026-01-08T10:24:58

Horovod的rank判断在多节点确实容易卡住，建议加个超时机制，别让其他进程等太久。

SoftSeed · 2026-01-08T10:24:58

PyTorch Distributed保存快1/5，但别只看时间，还得看文件一致性，建议加个校验。

Paul191 · 2026-01-08T10:24:58

别图省事用hvd.save，性能差不说，还可能引发分布式同步问题，老老实实用torch.save。

YoungTears · 2026-01-08T10:24:58

模型保存最好配合分布式文件系统，不然单点写入会成为瓶颈，尤其训练量大时