大语言模型微调中的模型冻结策略

大语言模型微调中的模型冻结策略踩坑记录

最近在做LLM微调项目时，尝试了不同的模型冻结策略，踩了不少坑，分享一下经验。

我们目标是微调一个7B参数的LLM，在有限资源下进行领域适应。最初采用全量微调，但显存占用过高（超过80GB），无法在单卡上运行。

策略1：完全冻结除输出层外的所有层

# 伪代码示例
for name, param in model.named_parameters():
    if 'output_layer' not in name:
        param.requires_grad = False

结果：训练效果不佳，模型几乎没有学习到新任务特征。

策略2：冻结底层层，微调中层和输出层

# 冻结前10层
for i, layer in enumerate(model.layers):
    if i < 10:
        for param in layer.parameters():
            param.requires_grad = False

结果：显存降低到40GB，但学习效果仍然不理想。

策略3：分阶段冻结（推荐）

显而易见，简单的冻结策略并不能解决所有问题，需要结合具体任务和资源进行调优。

NiceWind · 2026-01-08T10:24:58

别再盲目冻结了， freezing 要有策略。我见过太多人只冻输出层就以为万事大吉，结果训练效果惨不忍睹。真正有效的做法是按层解冻，比如先冻前30%，再逐步放开，这样才能让模型真正学到任务特征。

夜色温柔 · 2026-01-08T10:24:58

显存优化只是表象，核心问题是冻结策略没对齐任务复杂度。如果下游任务需要细粒度适配，全盘冻结底层基本等于白搭。建议结合梯度分析，在关键层做局部解冻，而不是一刀切。

CrazyData · 2026-01-08T10:24:58

分阶段冻结是真香，但别搞成流水线作业。每层训练多少epoch要根据实际收敛情况动态调整，盲目设定10轮只会浪费时间。可以用验证集监控性能，找到最优的解冻节奏和学习率调度