大模型微调过程中的损失函数选择与调整技巧

在大模型微调过程中，损失函数的选择直接影响模型的收敛速度和最终性能。本文将分享几种常用的损失函数及其调整技巧。

常用损失函数

1. 交叉熵损失（CrossEntropyLoss）

这是最基础也是最常用的损失函数，适用于分类任务。在微调时可以通过调整标签平滑参数来防止过拟合：

import torch.nn.functional as F
loss = F.cross_entropy(logits, targets, label_smoothing=0.1)

2. Focal Loss

针对类别不平衡问题，Focal Loss通过降低易分类样本的权重来关注难分类样本：

from focal_loss import FocalLoss
focal_loss = FocalLoss(alpha=0.25, gamma=2.0)
loss = focal_loss(logits, targets)

3. Label Smoothing

通过在标签中加入噪声来提升模型泛化能力：

# 自定义LabelSmoothing
class LabelSmoothingLoss(nn.Module):
    def __init__(self, smoothing=0.1):
        super().__init__()
        self.smoothing = smoothing
        self.confidence = 1.0 - smoothing
    def forward(self, x, target):
        logprobs = F.log_softmax(x, dim=-1)
        nll_loss = -logprobs.gather(dim=-1, index=target.unsqueeze(1))
        smooth_loss = -logprobs.mean(dim=-1)
        loss = self.confidence * nll_loss + self.smoothing * smooth_loss
        return loss.mean()

调整技巧

动态调整学习率：根据损失值变化调整学习率，避免陷入局部最优
多阶段训练：先用大损失函数训练，再切换到小损失函数微调
损失函数组合：将交叉熵与KL散度结合使用

实践建议

在实际应用中，建议从基础的交叉熵开始，通过验证集性能来决定是否需要调整。对于特定任务，可以尝试组合不同的损失函数以获得最佳效果。

MadFlower · 2026-01-08T10:24:58

交叉熵确实是最稳妥的选择，但别忽视了任务特性。比如在对话场景中，加点label smoothing能显著提升泛化，建议从0.05开始试。

Xena226 · 2026-01-08T10:24:58

Focal Loss对不平衡数据效果明显，不过调参时要小心gamma值过大导致梯度消失，我一般从1.0开始逐步调优。

Yara770 · 2026-01-08T10:24:58

多阶段训练思路很好，但要注意不同loss切换的时机。我通常在验证集loss稳定后才换，避免频繁切换影响收敛。

Yvonne480 · 2026-01-08T10:24:58

组合损失函数是高手操作了，比如CE+KL散度适合做模型蒸馏，但要控制权重比例，否则容易冲掉主任务信号。