踩坑记录：微调过程中遇到的模型不稳定和梯度爆炸

在进行LLM微调工程化实践中，我们遇到了一个典型问题：模型训练过程中的不稳定性和梯度爆炸。这不仅导致训练中断，还让我们的LoRA微调方案效果大打折扣。

问题复现步骤

我们使用的是LoRA微调框架，并在transformers库中通过以下代码启动训练：

from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir="./lora_finetuned",
    num_train_epochs=3,
    per_device_train_batch_size=4,
    gradient_accumulation_steps=2,
    learning_rate=1e-4,
    logging_dir="./logs",
    logging_steps=10,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
)
trainer.train()

在训练初期，loss值波动剧烈，随后迅速发散，最终导致NaN。我们尝试了多个调整方案：

降低学习率：从1e-4降至1e-5，问题依旧存在。
增加梯度裁剪：设置max_grad_norm=1.0后，虽然稳定了些，但训练效果不佳。
检查LoRA配置：确认LoRA层的r值设置为8，并未使用高秩参数。

解决方案

最终发现是数据预处理阶段的问题。由于输入文本中存在大量特殊符号和异常token，在微调前我们添加了以下清理逻辑：

from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
train_dataset = train_dataset.map(lambda x: tokenizer(x["text"], truncation=True, padding="max_length", max_length=512))

同时，使用了gradient_checkpointing=True和torch_dtype=torch.float16来优化资源占用。最终，模型训练趋于稳定。

这提醒我们：在工程化微调流程中，数据预处理的严谨性至关重要。

踩坑记录：微调过程中遇到的模型不稳定和梯度爆炸

踩坑记录：微调过程中遇到的模型不稳定和梯度爆炸

问题复现步骤

解决方案

讨论

选择表情