分布式训练中数据处理瓶颈

最近在优化一个PyTorch分布式训练任务时，遇到了严重的数据处理瓶颈，记录一下踩坑过程。

问题现象

使用Horovod进行4机8卡训练时，GPU利用率只有30%左右，而CPU占用率却很高。通过nvidia-smi监控发现，GPU等待数据传输的时间占比超过60%。

根本原因

经过排查，主要问题出在数据加载阶段：

单线程数据加载：使用了默认的DataLoader配置，没有设置合适的num_workers
数据预处理瓶颈：在__getitem__中进行了大量图像增强操作
内存不足：pin_memory=False导致每次数据传输都需要额外的CPU-GPU内存拷贝

复现步骤

# 错误配置
train_dataset = torchvision.datasets.ImageFolder('data')
train_loader = DataLoader(train_dataset, batch_size=64, num_workers=2)

# 正确配置
train_loader = DataLoader(
    train_dataset,
    batch_size=64,
    num_workers=8,
    pin_memory=True,
    prefetch_factor=2
)

解决方案

增加num_workers：设置为CPU核心数的2倍
启用pin_memory：pin_memory=True减少数据传输时间
使用prefetch_factor：PyTorch 2.0+支持，提前预取数据
异步数据增强：将部分图像处理操作移到GPU上进行

最终GPU利用率提升至85%以上，训练速度提升约40%。

Mike559 · 2026-01-08T10:24:58

数据加载确实容易被忽视，但却是分布式训练的命门。我之前也遇到过类似问题，`num_workers`调到CPU核心数2倍后效果立竿见影，建议直接从8开始试。

WetRain · 2026-01-08T10:24:58

`pin_memory=True`这个细节太关键了，特别是大batch size场景下，能省掉不少GPU等待时间。我还加了个`persistent_workers=True`，进一步减少worker重启开销。

RichFish · 2026-01-08T10:24:58

图像增强操作放到GPU上执行真的能提速不少，可以试试用`torchvision.transforms.v2`的GPU版本，或者自己写个异步处理逻辑，别让CPU成了瓶颈

分布式训练中数据处理瓶颈