TensorFlow分布式训练中的checkpoint保存失败排查过程

WarmMaster +0/-0 0 0 正常 2025-12-24T07:01:19 TensorFlow · 分布式训练

TensorFlow分布式训练中的checkpoint保存失败排查过程

最近在进行大规模分布式训练时遇到了一个棘手的问题：TensorFlow的checkpoint保存总是失败，日志显示Permission denied错误。这让我花费了整整一天时间才找到根本原因。

问题现象

在使用tf.distribute.MirroredStrategy进行多GPU训练时，模型训练到一定epoch后，model.save_checkpoint()报错：

Permission denied: /path/to/checkpoint

但奇怪的是，其他日志显示模型计算正常，只是checkpoint保存环节出问题。

排查过程

权限检查：确认了存储目录的写入权限，ls -ld /path/to/checkpoint显示正常
代码定位：在分布式训练代码中添加调试信息，发现错误发生在tf.train.Checkpoint的save()方法调用处
文件锁问题排查：通过lsof | grep checkpoint发现有进程持有checkpoint目录的文件锁
关键发现：在主进程中使用了tf.keras.callbacks.ModelCheckpoint回调，但在分布式环境中，这个回调会在每个worker上都触发，导致多个进程同时尝试写入同一个路径

解决方案

最终通过以下修改解决：

# 修改前
model_checkpoint = tf.keras.callbacks.ModelCheckpoint(
    filepath='/path/to/checkpoint',
    save_best_only=True
)

# 修改后
if strategy.extended.worker_devices[0] == tf.train.get_or_create_global_step():
    model_checkpoint = tf.keras.callbacks.ModelCheckpoint(
        filepath='/path/to/checkpoint',
        save_best_only=True
    )

经验总结

在分布式训练中，务必注意：1. callback的执行时机；2. checkpoint路径权限；3. 多进程文件访问冲突问题。这个bug浪费了我4个小时，建议大家在分布式训练时多加小心！

讨论

Piper494 · 2026-01-08T10:24:58

遇到过类似问题，主要是多进程写文件冲突。建议在分布式训练中用strategy.num_replicas_in_sync来判断主节点，只让一个worker保存checkpoint，避免多个进程同时操作目录。

Ursula200 · 2026-01-08T10:24:58

这个排查思路很清晰，特别是通过lsof定位文件锁的步骤很有启发性。实际项目中可以加上try-except捕获save异常并打印详细路径信息，能更快定位问题。