深度学习模型推理延迟优化

深度学习模型推理延迟优化踩坑记录

最近在优化一个BERT-base模型的推理延迟，从80ms优化到25ms，分享一下踩过的坑。

问题背景：原模型在GPU上推理耗时80ms，无法满足实时性要求。

第一轮优化：量化压缩

import torch
import torch.nn.quantized as nnq
# 量化模型
model = torch.quantization.quantize_dynamic(
    model, {torch.nn.Linear}, dtype=torch.qint8
)

结果：延迟降到65ms，效果有限。

第二轮优化：TensorRT加速** 安装tensorrt后：

# 导出onnx
torch.onnx.export(model, input_tensor, "model.onnx")
# 构建engine
import tensorrt as trt

结果：延迟降到35ms，但推理精度下降1.2%。

第三轮优化：模型剪枝+蒸馏

from torch.nn.utils import prune
prune.l1_unstructured(model.linear, name='weight', amount=0.4)
# 蒸馏训练后精度恢复

结果：延迟25ms，精度保持在92%。

关键坑点：

完整测试环境：RTX 3090, CUDA 11.8, PyTorch 2.0

建议：先从模型剪枝开始，性价比最高。

Frank540 · 2026-01-08T10:24:58

量化确实是个坑，别只看延迟不看精度。我之前也是为了降10ms搞了个INT8，结果线上准确率跌了3个点，最后还是得回归蒸馏+剪枝的组合拳。

Charlie341 · 2026-01-08T10:24:58

TensorRT加速真得确认好环境，我在服务器上折腾了半天才发现没装对驱动版本，明明代码写得没问题，结果性能没提升。建议先用torch.compile试一下，兼容性更好。

心灵之旅 · 2026-01-08T10:24:58

剪枝+蒸馏这条路子比较稳，但别贪快。我第一次直接剪0.4的密度，模型直接崩了，后来分步来，先剪0.2再蒸馏，效果才出来。建议记录好每一步的精度变化。