联合训练系统中特征提取器参数设置踩坑指南

在多模态大模型联合训练中，特征提取器的参数设置直接影响模型性能。本文通过对比实验，总结了常见踩坑点。

问题场景：以图像-文本检索任务为例，使用ResNet50作为视觉特征提取器，BERT作为文本特征提取器。

关键参数设置错误：

学习率设置不当：直接将视觉和文本分支设置相同学习率（如1e-4），导致视觉特征过拟合而文本特征未充分训练。正确做法是：

optimizer = torch.optim.Adam([
    {'params': visual_model.parameters(), 'lr': 1e-5},  # 视觉分支更低的学习率
    {'params': text_model.parameters(), 'lr': 1e-4}
])

批量大小不匹配：视觉输入为224×224，文本序列长度为64，若批量大小设置不当会引发梯度爆炸。建议采用：batch_size=32（视觉）和batch_size=64（文本）的混合策略。

融合策略对比：

早期融合：在特征提取后直接拼接，简单但容易信息冲突。
晚期融合：分别训练后在最后层融合，效果更佳。推荐使用交叉注意力机制实现。

可复现步骤：

准备数据集并进行预处理
设置不同学习率组合进行训练
记录各阶段准确率和损失值
对比不同融合策略的效果

该方案已在多个多模态任务中验证有效，建议在实际项目中优先尝试晚期融合+分层学习率的设置。

讨论

选择表情