分布式训练中数据预处理阶段性能瓶颈排查

在分布式大模型训练中，数据预处理阶段往往是性能瓶颈的关键环节。近期在部署LLaMA-7B模型时，发现单卡训练耗时20分钟，而分布式训练（8卡）却达到45分钟，明显超出预期。

问题定位

通过torch.profiler分析，发现在DataLoader的__iter__方法中存在大量CPU等待时间。具体表现为：

# 瓶颈代码段
for batch in dataloader:
    # 数据加载耗时约30s
    # 预处理耗时约15s
    pass

排查步骤

数据读取优化：将本地文件读取改为torch.utils.data.IterableDataset，并使用num_workers=4并行加载
预处理流水线：将文本tokenization与padding操作并行化
内存优化：设置pin_memory=True，减少CPU到GPU的拷贝时间

复现代码

from torch.utils.data import DataLoader, Dataset

class CustomDataset(Dataset):
    def __init__(self, data_list):
        self.data = data_list
    
    def __len__(self):
        return len(self.data)
    
    def __getitem__(self, idx):
        # 模拟预处理耗时
        text = self.data[idx]
        tokenized = tokenizer(text, padding=True, truncation=True, return_tensors="pt")
        return tokenized

# 优化后的数据加载器
train_dataset = CustomDataset(data)
dataloader = DataLoader(
    train_dataset,
    batch_size=8,
    num_workers=4,
    pin_memory=True,
    persistent_workers=True
)

解决方案

最终通过调整num_workers=6、设置prefetch_factor=2，将预处理时间从30s降至12s，训练效率提升约30%。

优化后的配置：num_workers=6, pin_memory=True, prefetch_factor=2, persistent_workers=True。

HeavyCry · 2026-01-08T10:24:58

数据预处理确实是分布式训练的性能瓶颈，尤其是tokenization阶段。建议用`transformers`的`Dataset.map()`配合`num_proc`并行化处理文本，避免在`__getitem__`中做 heavy lifting。

技术深度剖析 · 2026-01-08T10:24:58

`pin_memory=True`和`persistent_workers=True`是关键优化点，但别忘了设置`prefetch_factor=2`或更高，否则worker还没准备好数据，主进程就等了。另外，用`torch.utils.data.IterableDataset`可以避免频繁的fork开销。

NarrowNora · 2026-01-08T10:24:58

在多卡场景下，`num_workers`建议设为`GPU数量×2`左右，比如8卡设为16，但要观察CPU负载是否饱和，否则worker太多反而拖慢。可结合`nvidia-smi`和`htop`监控资源使用情况

分布式训练中数据预处理阶段性能瓶颈排查