使用DeepSpeed进行ZeRO优化时的内存管理技巧总结

在分布式大模型训练中，使用DeepSpeed的ZeRO优化时，内存管理是决定训练效率的关键因素。以下是一些实用的内存管理技巧。

1. ZeRO-2与ZeRO-3的内存分配策略

当使用ZeRO-2时，我们通常将optimizer states和gradient分片到不同设备上，而ZeRO-3则进一步将model parameters也进行分片。在配置时，需注意：

zero_optimization = {
    "stage": 3,
    "offload_optimizer": {
        "device": "cpu",
        "pin_memory": True
    },
    "offload_param": {
        "device": "cpu",
        "pin_memory": True
    }
}

2. 激活检查点的内存优化

通过设置激活检查点，可以显著减少前向传播中的内存占用。在模型定义中添加：

model.gradient_checkpointing_enable()
model.gradient_checkpointing_kwargs = {"use_reentrant": False}

3. batch size与micro batch size的平衡

在ZeRO-3下，推荐设置较小的micro batch size（如1）以避免内存溢出，同时通过增加gradient accumulation steps来维持有效batch size。

4. 检查内存分配情况

使用以下脚本监控训练过程中的内存变化：

import torch
print(f"GPU memory allocated: {torch.cuda.memory_allocated() / 1024 ** 2:.2f} MB")

这些技巧在实际项目中可有效提升训练效率，减少因内存不足导致的训练中断问题。

HotDance · 2026-01-08T10:24:58

ZeRO-3确实能大幅减少显存占用，但别忘了配合offload参数，不然CPU内存可能先爆。建议先用stage=2测试，再过渡到stage=3。

SharpVictor · 2026-01-08T10:24:58

gradient checkpointing加use_reentrant=False很关键，否则会多占不少显存。我之前没注意这个参数，结果训练直接OOM。

BraveBear · 2026-01-08T10:24:58

micro batch size设为1是稳妥做法，但要同步增加gradient accumulation steps来保持收敛速度，别光想着省显存而忽略了训练稳定性。

讨论

选择表情