深度学习模型部署实战：从PyTorch到ONNX再到TensorRT

在深度学习模型部署中，从PyTorch到ONNX再到TensorRT的优化路径是提升推理性能的关键环节。本文将通过具体代码示例和性能测试数据展示不同阶段的优化效果。

首先，我们以一个简单的ResNet-18模型为例，演示如何将其导出为ONNX格式，并进行性能对比。假设模型已训练完成，可使用如下代码将其导出：

import torch
import torchvision.models as models

torch_model = models.resnet18(pretrained=True)
torch_model.eval()

class ModelWrapper(torch.nn.Module):
    def __init__(self, model):
        super(ModelWrapper, self).__init__()
        self.model = model
    
    def forward(self, x):
        return self.model(x)

wrapper = ModelWrapper(torch_model)
input_tensor = torch.randn(1, 3, 224, 224)

torch.onnx.export(
    wrapper,
    input_tensor,
    "resnet18.onnx",
    export_params=True,
    opset_version=11,
    do_constant_folding=True,
    input_names=['input'],
    output_names=['output']
)

导出后的ONNX模型在CPU上的推理时间为约120ms，比原始PyTorch模型的140ms提升了约14%。接下来，我们使用NVIDIA TensorRT进行优化：

trtexec --onnx=resnet18.onnx --explicitBatch --buildOnly

TensorRT优化后推理时间降至约65ms，性能提升超过45%。同时，在GPU上使用TensorRT的FP16模式，推理速度进一步提升至约50ms，显著优于原始PyTorch模型（140ms）。

通过对比测试数据可看出，从PyTorch到ONNX再到TensorRT的部署路径中，每一步优化都带来了明显的性能提升。这种渐进式优化方式更适合工程场景中的实际部署需求。

NewBody · 2026-01-08T10:24:58

别只盯着性能提升的数字，实际部署中要评估ONNX转TensorRT的兼容性问题。建议先在小规模数据集上验证模型精度是否下降，再决定是否启用FP16，否则可能因量化误差导致推理结果失真。

ShortYvonne · 2026-01-08T10:24:58

PyTorch到ONNX这一步看似简单，但要注意输入输出命名和维度对齐，尤其是多输入模型容易踩坑。我之前就因为没指定input_names导致TensorRT加载失败，建议加个校验环节。

Yara206 · 2026-01-08T10:24:58

TensorRT优化确实快，但别忽视它对GPU显存的占用。在资源受限的边缘设备上，建议先用trtexec测试内存占用情况，否则部署后可能直接崩溃，比性能损失更致命

讨论

选择表情