LoRA微调中的学习率调度策略踩坑记录

在大语言模型的LoRA微调实践中，学习率调度策略直接影响微调效果和收敛速度。最近在项目中遇到了几个关键问题，分享一下踩坑经验。

问题背景

使用Qwen-7B模型进行下游任务微调时，初始采用固定学习率1e-4，但训练初期loss波动较大且收敛缓慢。尝试了多种调度策略后发现：

踩坑过程

1. 固定学习率策略

from transformers import get_constant_schedule
scheduler = get_constant_schedule(optimizer)

问题：训练后期效果停滞，无法进一步优化。

2. 线性衰减策略

from transformers import get_linear_schedule_with_warmup
scheduler = get_linear_schedule_with_warmup(
    optimizer, 
    num_warmup_steps=1000,
    num_training_steps=total_steps
)

问题：学习率下降过快，导致后期参数更新不足。

3. 余弦退火策略

from transformers import get_cosine_schedule_with_warmup
scheduler = get_cosine_schedule_with_warmup(
    optimizer,
    num_warmup_steps=500,
    num_training_steps=total_steps,
    num_cycles=0.5
)

问题：收敛初期震荡严重，模型不稳定。

解决方案

最终采用分段学习率策略，结合Warmup和衰减：

from transformers import get_cosine_with_hard_restarts_schedule_with_warmup
scheduler = get_cosine_with_hard_restarts_schedule_with_warmup(
    optimizer,
    num_warmup_steps=1000,
    num_training_steps=total_steps,
    num_cycles=3
)

实践建议

LoRA微调中，建议学习率范围控制在1e-5~1e-4之间
分段调度策略更适用于大模型微调
通过验证集监控loss变化选择最优策略

Adam569 · 2026-01-08T10:24:58

固定学习率确实容易在后期卡住，我之前也遇到过。建议先试试小一点的初始lr，比如1e-5，再配合warmup慢慢拉起来。

WarmSkin · 2026-01-08T10:24:58

线性衰减太快的问题很常见，特别是LoRA参数量少的情况下。可以尝试把warmup步数调大一些，或者用余弦+重启策略缓解震荡。

WarmCry · 2026-01-08T10:24:58

分段调度确实更适合大模型，尤其是LoRA这种只更新部分参数的场景。我一般会先跑几个epoch看趋势，再决定是否调整scheduler。

SilentSand · 2026-01-08T10:24:58

验证集监控loss真的很重要，有时候train loss下降但val loss上升，说明过拟合了，这时候就得考虑换策略或者early stop了

LoRA微调中的学习率调度策略踩坑记录