梯度累积实战：小batch size下的训练稳定性提升方案

在实际工程实践中，受限于显存资源，我们经常需要使用较小的batch size进行训练。然而，小batch size会导致梯度估计不稳定，影响模型收敛和最终性能。

问题复现

以ResNet50为例，使用batch_size=8训练时，损失曲线波动剧烈：

import torch
import torch.nn as nn
from torch.utils.data import DataLoader

# 模拟小batch size训练
model = torchvision.models.resnet50(pretrained=False)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
criterion = nn.CrossEntropyLoss()

for epoch in range(5):
    for batch_idx, (data, target) in enumerate(train_loader):
        optimizer.zero_grad()
        output = model(data)
        loss = criterion(output, target)
        loss.backward()
        optimizer.step()
        
        if batch_idx % 100 == 0:
            print(f'Epoch: {epoch}, Batch: {batch_idx}, Loss: {loss.item()}')

梯度累积解决方案

通过梯度累积，我们可以在保持小batch size的同时，模拟大batch size的训练效果：

# 梯度累积实现
accumulation_steps = 4
model.train()
for epoch in range(5):
    for batch_idx, (data, target) in enumerate(train_loader):
        output = model(data)
        loss = criterion(output, target) / accumulation_steps  # 归一化
        loss.backward()  # 累积梯度
        
        if (batch_idx + 1) % accumulation_steps == 0:
            optimizer.step()  # 执行优化
            optimizer.zero_grad()
            print(f'Epoch: {epoch}, Step: {batch_idx//accumulation_steps}, Loss: {loss.item()*accumulation_steps}')

性能对比

在CIFAR-10数据集上测试，batch_size=4，累积步数分别为1和4：

参数设置	最终损失	训练时间(s)	GPU显存使用
batch=4	2.18	245	3.2GB
batch=4, accum=4	1.87	310	3.1GB

结果表明，在保持相同显存占用的前提下，梯度累积可提升模型收敛稳定性，降低最终损失值约15%。

Kevin468 · 2026-01-08T10:24:58

小batch size确实容易导致训练不稳定，但梯度累积是个不错的折中方案。我之前在做目标检测时也遇到类似问题，通过4步累积+适当调整学习率，损失曲线明显平滑了。

Steve693 · 2026-01-08T10:24:58

别光看loss数值，还要关注val指标的波动情况。我用梯度累积后发现训练初期loss下降很快，但验证集acc提升很慢，说明过拟合风险增加了，需要及时加正则。

Gerald21 · 2026-01-08T10:24:58

这个方法适合显存紧张的情况，但如果计算资源充足，直接上大batch更高效。我建议在小batch+累积和大batch之间做一下性能对比，避免为了稳定牺牲效率。

StaleKnight · 2026-01-08T10:24:58

梯度累积虽然能平滑损失，但要注意累积步数设置。太少起不到效果，太多容易过拟合。我的经验是先用1~4的步数试跑几个epoch，观察收敛趋势再定最终值

梯度累积实战：小batch size下的训练稳定性提升方案