ChatGLM2微调参数设置不当导致训练失败记录

在为ChatGLM2模型进行微调时，由于参数设置不当导致训练过程中出现严重问题，现将问题复盘记录如下。

问题现象

使用以下配置进行微调时，训练过程出现梯度爆炸，loss值迅速变为NaN：

model_args = {
    'learning_rate': 5e-5,
    'per_device_train_batch_size': 8,
    'gradient_accumulation_steps': 1,
    'num_train_epochs': 3,
    'logging_steps': 10,
    'save_steps': 100
}

根本原因

通过排查发现，主要问题在于learning_rate设置过高，且未进行梯度裁剪。ChatGLM2模型参数量大，对学习率极其敏感。

解决方案

调整后的配置如下：

model_args = {
    'learning_rate': 1e-5,
    'per_device_train_batch_size': 4,
    'gradient_accumulation_steps': 2,
    'num_train_epochs': 3,
    'logging_steps': 10,
    'save_steps': 100,
    'max_grad_norm': 1.0
}

部署建议

建议在生产环境中使用以下最佳实践：

根据模型规模调整学习率（通常为1e-5到5e-6）
合理设置梯度裁剪阈值
采用小批量训练并配合梯度累积

此问题在社区中具有代表性，建议所有使用ChatGLM系列模型的开发者关注参数调优策略。

注意：微调前应先进行小规模测试验证，避免资源浪费。

Oscar731 · 2026-01-08T10:24:58

学习率调到1e-5是关键，但别只看这个数字。我之前也踩坑，没注意gradient_accumulation_steps和batch_size的搭配，导致显存爆了还训不动。建议先用小数据集跑个试验，把batch size和accum steps一起调好。

樱花飘落 · 2026-01-08T10:24:58

梯度裁剪max_grad_norm=1.0这一步太容易被忽略，我就是没加，结果loss直接变nan。不过光靠这个还不行，得配合learning_rate的衰减策略，不然最后收敛效果差。可以试试cosine schedule或者linear warmup。

BoldHero · 2026-01-08T10:24:58

说白了这是个经验活，每个模型对参数敏感度不一样。ChatGLM2这种大模型，我一般会从1e-5开始，然后逐步降到5e-6，同时观察loss曲线有没有震荡。建议写个自动化调参脚本，别手动试了，浪费时间还容易漏掉最优解。

ChatGLM2微调参数设置不当导致训练失败记录