Adapter网络中Dropout参数设置问题记录

最近在做LLM微调项目时，遇到了一个很坑的问题：在使用Adapter微调方案时，发现模型训练效果不稳定，loss波动很大。经过深入排查，发现问题出在Dropout参数设置上。

使用LoRA+Adapter混合方案微调Qwen-7B时，训练初期loss下降正常，但训练到5000步后开始剧烈震荡，验证集准确率也大幅下降。

通过对比实验发现，问题与Adapter模块中的dropout设置有关。原始配置：

adapter_config = {
    "adapter_layers": 3,
    "adapter_len": 4,
    "dropout": 0.1,
    "alpha": 32
}

在Adapter网络中，当使用低dropout值（如0.1）时，在训练过程中某些通道会被意外置零，导致信息丢失严重。特别是在LoRA与Adapter同时激活的情况下，这种效应被放大。

修改为：

adapter_config = {
    "adapter_layers": 3,
    "adapter_len": 4,
    "dropout": 0.05,
    "alpha": 32
}

或者在训练时使用动态dropout策略：

# 训练初期设置较高dropout，后期逐渐降低
scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size=2000, gamma=0.5)

修改后，loss曲线稳定，验证集准确率稳定在87%左右，训练效果显著改善。

建议：在使用Adapter微调时，特别是与LoRA结合时，需要根据具体任务调整dropout参数，避免过高的dropout值导致信息丢失。