多机训练中CPU亲和性设置方法

在多机训练环境中，CPU亲和性设置对性能优化至关重要。本文将详细介绍如何通过配置CPU亲和性来提升Horovod和PyTorch Distributed的训练效率。

问题背景

当多个训练进程分布在不同节点上时，进程调度可能造成CPU缓存失效、内存带宽竞争等问题。合理的CPU亲和性设置可以将不同进程绑定到不同的CPU核心或NUMA节点，减少资源争用。

Horovod配置方法

# 使用taskset命令绑定CPU亲和性
horovodrun -np 8 --launcher-args="--cpu-bind=rank" python train.py

# 或者手动设置环境变量
export HOROVOD_CPU_BIND=1
export HOROVOD_NUMA=1
horovodrun -np 8 python train.py

PyTorch Distributed配置

import os
import torch.distributed as dist
import torch.multiprocessing as mp

def setup_distributed():
    # 设置CPU亲和性
    os.system('taskset -p $(pgrep python)')  # 查看当前进程CPU绑定
    # 使用torchrun启动分布式训练
    # 可配合numactl使用
    os.environ['CUDA_VISIBLE_DEVICES'] = '0,1'
    dist.init_process_group(backend='nccl')

实际操作步骤

检查系统CPU拓扑结构：lscpu
使用numactl --hardware查看NUMA拓扑
配置进程绑定：taskset -cp <pid> <cpu_list>
启动训练任务：horovodrun -np 8 python train.py

性能提升效果

通过合理设置CPU亲和性，可以减少约15-25%的通信开销，并提升数据加载效率。建议在生产环境中进行调优测试。

注意事项

确保CPU核心数量充足
避免过度绑定导致进程无法调度
结合GPU资源进行整体资源规划