踩坑经验总结：微调过程中常见的错误操作和修复方法

在大语言模型微调工程化实践中，我们经常遇到一些看似简单却极易出错的操作。以下是几个典型错误及修复方案。

错误1：LoRA秩设置过小导致欠拟合

# 错误示例
peft_config = LoraConfig(
    r=4,  # 秩设置过小
    lora_alpha=32,
    target_modules=['q_proj', 'v_proj'],
    lora_dropout=0.1
)

问题表现：微调后模型性能提升不明显，loss收敛缓慢。 修复方法：将r值调整至8或16，并观察验证集性能变化。

错误2：Adapter层未正确初始化

# 错误示例
model = AutoModelForCausalLM.from_pretrained("bert-base-uncased")
# 忘记添加Adapter层
# 正确应为：
from peft import get_peft_model, AdapaterConfig
peft_config = AdapterConfig(
    adapter_layers=3,
    adapter_len=4,
    reduction_factor=16
)
model = get_peft_model(model, peft_config)

问题表现：模型训练时loss异常波动，参数未更新。 修复方法：使用get_peft_model正确包装模型，并确保adapter层正确加载。

错误3：学习率设置不当

# 错误示例
optimizer = AdamW(model.parameters(), lr=1e-4)  # 学习率过高或过低

问题表现：训练不稳定，loss震荡或收敛缓慢。 修复方法：采用cosine学习率调度器，并设置合适的初始学习率如3e-4~5e-4。

在工程实践中，务必使用tensorboard等工具监控关键指标，避免重复踩坑。

Will917 · 2026-01-08T10:24:58

LoRA秩设4确实容易欠拟合，但调到16也不一定就OK，得看数据量和任务复杂度。建议先用r=8跑个baseline，再根据验证集表现微调。

樱花飘落 · 2026-01-08T10:24:58

Adapter层没初始化这个问题太常见了，尤其是新人容易忽略get_peft_model这一步。最好写个checklist，训练前检查一遍模型结构。

GladIvan · 2026-01-08T10:24:58

学习率调度器用cosine是好习惯，但别只看loss震荡就改lr，得结合grad_norm和eval metric综合判断是否真的需要调整

踩坑经验总结：微调过程中常见的错误操作和修复方法