大模型微调时学习率设置技巧：从warmup到cosine decay

在大模型微调过程中，学习率（learning rate）的设置直接影响训练效果和收敛速度。本文将从warmup策略到cosine decay方法，对比分析不同学习率调度技巧，并提供可复现的代码示例。

Warmup策略

Warmup是防止初始阶段梯度爆炸的有效手段。通常在训练初期使用较低的学习率，然后线性增长到目标学习率。以下为PyTorch实现：

from torch.optim.lr_scheduler import LambdaLR

def warmup_schedule(step, warmup_steps=1000):
    if step < warmup_steps:
        return float(step) / float(max(1, warmup_steps))
    return 1.0

optimizer = AdamW(model.parameters(), lr=5e-5)
scheduler = LambdaLR(optimizer, lr_lambda=warmup_schedule)

Cosine Decay策略

Cosine decay学习率衰减能有效提升模型性能。它将学习率从初始值按余弦函数逐渐降低到最小值：

from torch.optim.lr_scheduler import CosineAnnealingLR

scheduler = CosineAnnealingLR(optimizer, T_max=epochs)

对比实验

在实际应用中，warmup + cosine decay组合效果更佳。例如，先warmup 10%的训练步数，然后使用cosine衰减：

warmup_steps = int(0.1 * total_steps)
# 先warmup再cosine decay
scheduler = LambdaLR(optimizer, lr_lambda=lambda step: 
    warmup_schedule(step, warmup_steps) if step < warmup_steps else 
    cosine_decay_schedule(step - warmup_steps, total_steps - warmup_steps))

通过对比实验，发现该策略在LLaMA、BLOOM等模型上均能稳定收敛，且最终性能优于固定学习率或仅使用cosine decay方案。建议在实际项目中优先尝试此组合策略。

时光倒流 · 2026-01-08T10:24:58

别盲目跟风固定学习率，warmup+cosine组合确实更稳。实测在大模型微调中，前10%步数用warmup，后90%用cosine decay，收敛更快且loss更平滑。

CalmData · 2026-01-08T10:24:58

代码里别只写死参数，要根据batch size和total steps动态调整warmup步数。我之前直接用1000步，结果小数据集训练直接过拟了。

Yvonne456 · 2026-01-08T10:24:58

cosine decay不是越小越好，建议最小值设为初始学习率的1/100~1/1000，不然容易卡在局部最优。可以加个early stopping避免无效训练。

Warmup策略

Cosine Decay策略

对比实验

讨论

选择表情