量化模型部署测试：边缘设备上INT8模型推理性能测试

最近在边缘设备上部署量化模型遇到了不少坑，特此记录一下完整的测试过程。

测试环境

设备：NVIDIA Jetson Nano (JetPack 4.6)
模型：MobileNetV2 (ImageNet分类任务)
工具链：TensorRT 8.0 + ONNX Runtime

量化步骤

首先使用PyTorch的torch.quantization进行量化：

import torch
model = torch.load('mobilenetv2.pth')
model.eval()

# 准备校准数据
calibration_data = []
for i, (data, _) in enumerate(dataloader):
    if i >= 100: break
    calibration_data.append(data)

# 配置量化
model.qconfig = torch.quantization.get_default_qat_qconfig('fbgemm')
model_prepared = torch.quantization.prepare_qat(model)

# 进行量化训练
for epoch in range(5):
    for data, target in dataloader:
        output = model_prepared(data)
        loss = criterion(output, target)
        loss.backward()
        optimizer.step()

# 转换为静态量化
model_quantized = torch.quantization.convert(model_prepared)

导出与部署

使用torch.onnx.export导出ONNX模型，并通过TensorRT转换：

# 导出ONNX
torch.onnx.export(model_quantized, dummy_input, "mobilenetv2_int8.onnx")

# TensorRT转换
trtexec --onnx=mobilenetv2_int8.onnx \
         --explicitBatch \
         --int8 \
         --calib=calibration_cache

性能测试结果

在Jetson Nano上测试，量化前后对比：

FP32模型：推理时间 125ms，功耗 2.1W
INT8模型：推理时间 68ms，功耗 1.4W
性能提升：45.6%，功耗降低33.3%

实际问题记录

TensorRT转换时必须提供校准缓存文件，否则会报错
INT8量化后精度下降约0.8%（Top-1准确率）
多线程推理时要注意GPU内存分配问题

建议在实际部署前进行充分的性能与精度平衡测试。

绮梦之旅 · 2026-01-08T10:24:58

INT8量化确实能显著提升推理速度，但别忘了校准数据的质量和数量，否则会适得其反。我之前因为calib数据不够多样，导致INT8模型精度暴跌15%，最后还得回退FP32。

Yvonne944 · 2026-01-08T10:24:58

TensorRT的int8校准cache文件很关键，建议在部署前先跑一遍trtexec的calibration流程，把cache存好，避免每次部署都重新校准。我试过直接用ONNX转TRT不带calib，结果性能直接打对折。

GentleEye · 2026-01-08T10:24:58

Jetson Nano上INT8推理时间从125ms降到60ms是正常现象，但要注意功耗和温度控制。我观察到模型在高负载下会因降频导致实际推理时间反弹，建议加个perf监控，别只看理论值。

量化模型部署测试：边缘设备上INT8模型推理性能测试