分布式训练中数据预处理加速方法

在分布式大模型训练中，数据预处理往往是性能瓶颈。本文分享几个实用的加速方法。

1. 数据预加载优化 使用 torch.utils.data.DataLoader 的 num_workers 参数，建议设置为CPU核心数的2-4倍，例如：

loader = DataLoader(dataset, batch_size=64, num_workers=8, pin_memory=True)

同时启用 pin_memory=True 将数据预加载到锁页内存中。

2. 异步数据传输 通过 torch.utils.data.DataLoader 的 prefetch_factor 参数，提前预取数据：

loader = DataLoader(dataset, batch_size=64, num_workers=4, prefetch_factor=2)

这能有效减少GPU等待数据的时间。

3. 缓存策略 对于重复使用的数据集，可使用 torch.utils.data.IterableDataset 结合缓存：

import torch.utils.data as data

class CachedDataset(data.IterableDataset):
    def __init__(self, data_path):
        self.data = []
        # 预加载并缓存数据
        for item in load_data(data_path):
            self.data.append(item)
    
    def __iter__(self):
        return iter(self.data)

4. 数据管道优化 使用 torchdata 库构建高效的数据管道：

from torchdata.datapipes.iter import IterableWrapper

dp = IterableWrapper(range(1000))
# 并行处理数据
processed_dp = dp.map(process_func).batch(32)

可复现步骤：

使用 num_workers=8 和 prefetch_factor=2 测试训练速度
对比开启/关闭 pin_memory 的性能差异
评估缓存策略对重复数据访问的加速效果

Hannah781 · 2026-01-08T10:24:58

实测下来，num_workers设成核心数2倍确实能明显减少数据准备时间，但别贪多，太高了反而因上下文切换变慢。

George765 · 2026-01-08T10:24:58

pin_memory虽然好用，但在内存紧张时容易OOM，建议先在小batch试跑，确认无问题再上大规格。

StaleSong · 2026-01-08T10:24:58

缓存策略对重复读取的数据集效果拔群，尤其是文本处理那种，一次加载后面直接从内存拿，省了不少时间。

SaltyCharlie · 2026-01-08T10:24:58

torchdata的并行处理能力很强，但要注意数据依赖逻辑别搞乱了，顺序敏感的任务得小心处理

讨论

选择表情