微调代码调试过程中的典型错误总结

在LLM微调工程化实践中，调试过程中的错误往往成为项目推进的瓶颈。本文总结了基于LoRA和Adapter微调方案中常见的典型错误。

1. LoRA权重初始化错误 在使用LoRA微调时，若未正确初始化低秩矩阵，会导致模型训练不稳定。常见错误代码：

# 错误示例
lora_A = nn.Parameter(torch.randn(r, embed_dim))  # 忘记初始化为0
lora_B = nn.Parameter(torch.randn(embed_dim, r))  # 忘记初始化为0

正确做法：

lora_A = nn.Parameter(torch.zeros(r, embed_dim))
lora_B = nn.Parameter(torch.zeros(embed_dim, r))

2. Adapter模块维度不匹配 Adapter结构中，中间层维度设置不当会引发RuntimeError。错误代码：

# 错误示例
adapter = nn.Sequential(
    nn.Linear(embed_dim, 1024),  # 假设输入维度不匹配
    nn.ReLU(),
    nn.Linear(1024, embed_dim)
)

修复方法：确保输入输出维度一致，通过打印模型结构验证。

3. 学习率设置问题 在多模块微调中，若LoRA和原模型共享学习率，可能导致梯度爆炸。建议为不同模块设置独立学习率：

optimizer = AdamW([
    {'params': lora_params, 'lr': 1e-4},
    {'params': model_params, 'lr': 1e-5}
])

调试技巧：使用torch.nn.utils.clip_grad_norm_限制梯度范数，防止训练不稳定。