图像文本对齐训练的损失权重平衡踩坑记录

背景

最近在设计一个多模态大模型架构时，遇到一个经典问题：如何平衡图像和文本的损失权重。最初以为只要简单地给两个分支分配不同权重就行，结果发现实际效果差强人意。

以CLIP训练为例，传统做法是设置loss = αimage_loss + βtext_loss，但我们在实验中发现：

经过多次实验，我总结了以下几个关键问题：

# 错误做法
loss = alpha * image_loss + beta * text_loss

# 正确做法（使用动态权重）
alpha = 1.0 / (1.0 + torch.exp(-epoch))
beta = 1.0 / (1.0 + torch.exp(epoch))

# 原始CLIP损失
logits = image_features @ text_features.T / temperature

# 优化后
if epoch < 5:
    temp = 0.07  # 初始温度
else:
    temp = 0.01   # 后期降低温度

通过上述调整，模型对齐效果显著提升。最终的损失函数为：

loss = (alpha * image_loss + beta * text_loss) / (alpha + beta)