多机训练中的分布式日志收集策略

在多机多卡训练场景下，日志收集的挑战远超单机环境。我们曾踩过一个坑：使用标准logging模块时，不同节点的日志会混杂在一起，导致无法区分哪个节点产生了什么错误。

问题重现步骤：

启动3个节点的Horovod训练任务
每个节点使用标准logger记录信息
查看日志文件时发现所有节点日志混合

解决方案：基于节点ID的日志命名

import logging
import os
import horovod.torch as hvd

# 初始化horovod
hvd.init()

# 获取节点ID和进程ID
node_id = int(os.environ.get('OMPI_COMM_WORLD_RANK', 0))
rank = hvd.rank()

# 创建带节点标识的日志文件名
log_filename = f'training_node_{node_id}_rank_{rank}.log'

logger = logging.getLogger(__name__)
handler = logging.FileHandler(log_filename)
formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')
handler.setFormatter(formatter)
logger.addHandler(handler)
logger.setLevel(logging.INFO)

# 使用示例
logger.info(f'Node {node_id} started training')

高级优化：使用TensorBoard结合分布式日志

通过在每个节点上创建独立的TensorBoard目录，可以有效避免日志冲突。这种方法在PyTorch Distributed训练中效果显著。

总结

合理的日志收集策略是多机训练调试的关键，建议根据实际集群环境进行适当调整。

LongJudy · 2026-01-08T10:24:58

节点日志混杂确实是个常见坑，建议加个rank或hostname前缀，方便grep筛选。比如logger.addFilter(lambda record: record.name.startswith(f'node_{node_id}'))。

SoftSeed · 2026-01-08T10:24:58

TensorBoard+分布式日志方案很棒，但记得每个节点写自己的summary文件夹，避免writer冲突。可以用hvd.rank()做目录名后缀。

CalmWater · 2026-01-08T10:24:58

别忘了设置logging.handlers.RotatingFileHandler，防止单个log文件过大。尤其多机场景下，建议按大小或时间轮转，便于后期分析。

多机训练中的分布式日志收集策略