大模型微调过程中的学习率调整策略

在大模型微调实践中，学习率调整策略直接决定了微调效果和收敛速度。本文基于实际部署经验，分享几个关键的调参技巧。

我曾遇到一个典型问题：使用固定学习率0.001进行Llama3微调时，模型在前几个epoch就出现过拟合现象，loss不降反升。经过分析发现，这个学习率对大模型来说过高了。

# 基于epoch的线性衰减
def linear_decay_lr(initial_lr, epoch, total_epochs):
    return initial_lr * (1 - epoch / total_epochs)

import math

def cosine_decay_lr(initial_lr, epoch, total_epochs):
    return initial_lr * (1 + math.cos(math.pi * epoch / total_epochs)) / 2)

针对不同层采用不同学习率：

在生产环境中，建议使用warmup + cosine decay组合策略。具体配置：

这种策略既保证了初期充分训练，又避免了后期过拟合。在实际部署中，我观察到该策略能够将验证集loss稳定降低约30%。

避免使用过高的初始学习率，特别是微调大模型时，通常建议从1e-5到1e-4范围开始尝试。

SharpTara · 2026-01-08T10:24:58

别再用固定学习率了，大模型微调就是个‘慢热型’选手，0.001的lr直接劝退，建议从1e-5开始，配合warmup+cosine decay，不然你连过拟合都还没看清就结束了。

ThickFlower · 2026-01-08T10:24:58

线性衰减和余弦退火都行，但别迷信。我见过太多人只改了学习率策略，却忘了调整batch size和optimizer，结果loss曲线还是那套老一套，微调等于白调。

WiseRock · 2026-01-08T10:24:58

分层学习率确实有用，但不是万能钥匙。Embedding层0.0001、Transformer层0.0005这种设定，得看具体任务，别照搬论文里的配置，得根据验证集表现动态调