大模型训练时出现训练不稳定的原因排查

SmallCat +0/-0 0 0 正常 2025-12-24T07:01:19 模型部署 · 大模型微调

大模型训练时出现训练不稳定的原因排查

在大模型微调过程中，训练不稳定是一个常见但棘手的问题。本文将从多个维度分析可能导致训练不稳定的因素，并提供可复现的排查步骤。

常见原因分析

1. 学习率设置不当 学习率过高会导致loss剧烈震荡，过低则训练缓慢甚至停滞。建议使用学习率预热策略：

from transformers import get_linear_schedule_with_warmup
scheduler = get_linear_schedule_with_warmup(
    optimizer, 
    num_warmup_steps=1000,
    num_training_steps=total_steps
)

2. 梯度爆炸/消失 检查梯度范数：

# 在训练循环中添加
grad_norm = torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1.0)
if grad_norm > 1.0:
    print(f"Large gradient norm: {grad_norm}")

3. 数据分布问题 数据不平衡会导致模型偏移，建议使用class_weight或重采样策略。

复现步骤

使用相同配置训练两个epoch对比loss曲线
逐步调整学习率观察变化
检查batch内样本分布

最佳实践

始终监控梯度范数
使用学习率调度器
定期保存检查点
数据清洗和预处理至关重要

讨论

SickFiona · 2026-01-08T10:24:58

训练不稳定真的很容易被忽视，尤其是梯度爆炸这种隐性问题。我之前就是没加clip_grad_norm，结果loss直接飙到无穷大，排查了好久才发现是梯度没控制好。建议大家在训练一开始就加上这个监控，比事后找问题省时省力。

Will825 · 2026-01-08T10:24:58

学习率调参确实是个玄学活，但有套路可循。我习惯先用小learning rate跑几个batch看loss变化，再逐步放大。另外别忘了检查一下数据loader是不是shuffle了，有时候顺序问题也会导致训练震荡，特别是做对话生成的时候。