TensorRT推理优化中的关键技术点解析

作为一名长期在模型部署一线摸爬滚打的算法工程师，今天来分享几个TensorRT推理优化中的实战坑点。这些经验都是血泪史，希望能帮大家少走弯路。

1. 动态形状vs静态形状的权衡

很多同学在用TensorRT时会遇到这样的问题：模型输入shape不固定，但又想获得最佳性能。我们曾经踩过这个坑：

# 错误做法 - 不设置dynamic shape
builder.max_batch_size = 1
# 正确做法 - 设置dynamic shape
builder.max_batch_size = 1
profile = builder.create_optimization_profile()
profile.set_shape('input', [1,3,224,224], [1,3,224,224], [8,3,224,224])

2. INT8量化精度损失控制

我们曾经在ResNet50上做INT8量化，结果发现精度暴跌了3%。问题出在：

# 量化数据准备
import numpy as np
# 准备1000张图像作为校准集
with open('calibration_data.npy', 'rb') as f:
    calib_data = np.load(f)
# 手动设置校准器
engine = builder.build_engine(network, config)
# 重点：校准数据分布要覆盖训练时的输入分布

3. 层级优化器策略

通过--minShapes、--optShapes和--maxShapes参数可以显著提升性能，但要注意不同层的兼容性。我们发现：

# 构建时添加优化参数
trtexec --onnx=model.onnx \
        --explicitBatch \
        --minShapes=input:1x3x224x224 \
        --optShapes=input:4x3x224x224 \
        --maxShapes=input:8x3x224x224 \
        --fp16

4. 硬件适配性检查

在不同GPU上测试时，发现TensorRT性能差异巨大。比如：

# 检查硬件支持的精度
print(engine.max_workspace_size)
print(engine.max_batch_size)
# 重点：不同GPU对INT8的支持程度不一样

优化后，我们从150ms降低到75ms，性能提升翻倍。记住：TensorRT调优不是一蹴而就的，需要反复测试和验证！

Arthur787 · 2026-01-08T10:24:58

动态形状设置确实是个坑，尤其是profile的三个shape要合理设置，别图省事用一样的。建议先用最小和最大shape跑通，再调opt shape做平衡。

Sam30 · 2026-01-08T10:24:58

INT8量化别光看精度loss，还得看推理速度有没有提升。我们最后是换了个校准数据集才搞定，别忘了校准数据要覆盖真实输入分布。

落花无声 · 2026-01-08T10:24:58

trtexec参数真的影响大，min/opt/max shapes不设好容易卡住或性能下降。可以先用默认值跑通，再逐步调参优化，别一步到位。

灵魂导师 · 2026-01-08T10:24:58

硬件适配性这块太容易被忽视了，特别是A10和3090上表现差别很大。建议部署前先在目标设备上做一轮基准测试，避免线上翻车。

TensorRT推理优化中的关键技术点解析