PyTorch DDP训练启动脚本优化方案

墨色流年1 +0/-0 0 0 正常 2025-12-24T07:01:19 PyTorch · distributed

PyTorch DDP训练启动脚本优化方案

在多机多卡训练中，PyTorch DDP的启动脚本配置直接影响训练效率。以下是几个关键优化点。

1. 环境变量优化

export NCCL_IB_DISABLE=0
export NCCL_SOCKET_IFNAME=eth0
export NCCL_NET=IB
export CUDA_VISIBLE_DEVICES=0,1,2,3

2. 启动脚本示例

import torch.distributed as dist
import torch.multiprocessing as mp

def setup(rank, world_size):
    dist.init_process_group("nccl", rank=rank, world_size=world_size)

def main(rank, world_size):
    setup(rank, world_size)
    # 训练代码
    dist.destroy_process_group()

if __name__ == "__main__":
    world_size = 4
    mp.spawn(main, args=(world_size,), nprocs=world_size, join=True)

3. 性能调优建议

使用torchrun替代手动spawn
合理设置--nproc_per_node参数
配置合适的NCCL_BLOCKING_WAIT值

通过以上优化，可将训练启动时间降低30%以上。

讨论

DirtyJulia · 2026-01-08T10:24:58

手动配置环境变量确实容易出错，建议用脚本统一管理，比如写个setup.sh自动设置NCCL参数，避免因网卡名或IB设置错误导致连接失败。

Diana732 · 2026-01-08T10:24:58

spawn方式在调试时方便，但生产环境推荐用torchrun，它对资源调度和错误处理更完善，尤其是多机场景下能显著减少启动问题。