踩坑记录：微调过程中遇到的模型收敛异常问题

在进行LLM微调工程化实践时，我们遇到了一个典型的收敛异常问题。当使用LoRA微调方案训练Qwen-7B模型时，发现loss值在训练初期下降缓慢，随后出现剧烈震荡甚至发散。

问题复现步骤

# 使用HuggingFace Trainer进行LoRA微调
from transformers import QwenForCausalLM, QwenTokenizer
from trl import SFTTrainer

model = QwenForCausalLM.from_pretrained("Qwen/Qwen-7B", trust_remote_code=True)
tokenizer = QwenTokenizer.from_pretrained("Qwen/Qwen-7B", trust_remote_code=True)

# LoRA配置
peft_config = LoraConfig(
    r=8,
    lora_alpha=32,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
    lora_dropout=0.1,
    bias="none",
    task_type="CAUSAL_LM"
)

trainer = SFTTrainer(
    model=model,
    train_dataset=train_dataset,
    peft_config=peft_config,
    tokenizer=tokenizer,
    args=TrainingArguments(
        output_dir="./qwen-lora",
        num_train_epochs=1,
        per_device_train_batch_size=4,
        gradient_accumulation_steps=8,
        learning_rate=2e-4,
        logging_steps=10,
        save_steps=100,
        report_to=None
    )
)

根本原因分析

经过排查，问题出在学习率设置过高且梯度累积步数不当。初始配置中，batch_size=4, gradient_accumulation_steps=8导致实际有效batch_size=32，但学习率未相应调整。

解决方案

降低学习率至5e-5
调整梯度累积步数为4
添加梯度裁剪防止爆炸

args = TrainingArguments(
    output_dir="./qwen-lora",
    num_train_epochs=1,
    per_device_train_batch_size=8,
    gradient_accumulation_steps=4,
    learning_rate=5e-5,
    max_grad_norm=1.0,
    logging_steps=10,
    save_steps=100,
    report_to=None
)

调整后模型训练稳定，loss曲线平滑下降，收敛效果明显改善。

踩坑记录：微调过程中遇到的模型收敛异常问题

踩坑记录：微调过程中遇到的模型收敛异常问题

问题复现步骤

根本原因分析

解决方案

讨论

选择表情