分布式训练中网络带宽利用率分析

分布式训练中网络带宽利用率分析踩坑记录

最近在优化一个100B参数模型的分布式训练时，遇到了网络带宽利用率异常的问题。经过两周的排查，总结了一些实用的经验。

使用8卡A100训练时，理论带宽利用率只有35%，远低于预期的70%以上。通过nvidia-smi监控发现GPU显存利用率正常，但网络传输速率明显偏低。

首先确认了基础配置：

export NCCL_SOCKET_IFNAME=eth0
export NCCL_IB_DISABLE=0
export NCCL_IB_GID_INDEX=3

然后用nccl-tests测试网络性能：

# 测试带宽
./build/all_reduce_perf -b 8 -e 128M -f 2 -g 1
# 测试延迟
./build/collective_perf -c allreduce -t 1000

测试结果显示带宽只有理论值的30%。

最终定位到问题：

这个坑踩得有点惨，但收获不小。大家在分布式训练中也遇到过类似问题吗？

DryBrain · 2026-01-08T10:24:58

踩坑经验很实用！MTU设置确实容易被忽略，建议加上网卡型号和驱动版本的对应关系表格，方便快速排查。

Donna850 · 2026-01-08T10:24:58

NCCL_BLOCKING_WAIT=1这个参数很重要，我之前也遇到过类似阻塞问题，可以结合nvidia-smi监控通信进程来定位。

RightLegend · 2026-01-08T10:24:58

网络带宽利用率低可能还跟训练框架有关，比如PyTorch的gradient accumulation和分布式策略也会显著影响通信开销。

HotDance · 2026-01-08T10:24:58

建议补充一下如何通过perf工具或nethogs监控具体是哪个进程占用了大量带宽，这样能更快找到瓶颈点。