Adapter模块与主干网络连接方式研究

在LLM微调实践中，Adapter模块的接入方式直接影响模型性能和训练效率。本文记录了在实际项目中遇到的几个关键坑点。

常见连接方式对比

1. 串联式Adapter（推荐）

# 在transformers框架中实现
import torch.nn as nn

class AdapterLayer(nn.Module):
    def __init__(self, hidden_size, adapter_size=64):
        super().__init__()
        self.down_proj = nn.Linear(hidden_size, adapter_size)
        self.up_proj = nn.Linear(adapter_size, hidden_size)
        self.act_fn = nn.ReLU()
        
    def forward(self, x):
        return x + self.up_proj(self.act_fn(self.down_proj(x)))

# 应用到Transformer层
adapter = AdapterLayer(768)
output = adapter(input_tensor)

2. 并联式Adapter（踩坑较多） 在某些实现中，直接将Adapter连接到主干网络的输出上，容易导致梯度爆炸。

实际踩坑记录

项目中使用LoRA微调时，最初采用并联方式，训练初期loss剧烈波动。通过查阅论文和源码，发现关键问题在于：

Adapter层初始化权重不当
梯度回传路径不清晰
与主干网络参数更新频率不匹配

推荐方案

使用低秩分解的Adapter结构
初始化时使用小值（如0.01）
调整学习率，使Adapter学习率低于主干网络

# 正确初始化方式
adapter.down_proj.weight.data.normal_(mean=0.0, std=0.01)
adapter.up_proj.weight.data.normal_(mean=0.0, std=0.01)

通过以上方案，最终实现了稳定训练和良好效果。

Adapter模块与主干网络连接方式研究

Adapter模块与主干网络连接方式研究

常见连接方式对比

实际踩坑记录

推荐方案

讨论

选择表情