PyTorch模型部署性能基准：CPU/GPU/TPU推理速度对比

在PyTorch模型部署中，推理速度是决定应用性能的关键因素。本文将通过一个具体图像分类模型，在CPU、GPU和TPU上进行推理速度对比测试。

测试环境

硬件配置：Intel i7-12700K (12核20线程)、RTX 3090、Google TPU v3
软件版本：PyTorch 2.0、torch-xla 2.0

模型与数据准备

使用ResNet50模型，输入尺寸为[1, 3, 224, 224]的图像张量。

import torch
from torchvision import models
model = models.resnet50(pretrained=True).eval()
input_tensor = torch.randn(1, 3, 224, 224)

CPU测试（无加速）

with torch.no_grad():
    start = time.time()
    output = model(input_tensor)
    end = time.time()
    print(f"CPU推理时间: {end - start:.4f}s")

GPU测试

model = model.cuda()
input_tensor = input_tensor.cuda()
with torch.no_grad():
    start = time.time()
    output = model(input_tensor)
    end = time.time()
    print(f"GPU推理时间: {end - start:.4f}s")

TPU测试（使用torch_xla）

import torch_xla.core.xla_model as xm
model = model.to('xla')
input_tensor = input_tensor.to('xla')
with torch.no_grad():
    start = time.time()
    output = model(input_tensor)
    end = time.time()
    print(f"TPU推理时间: {end - start:.4f}s")

测试结果（平均100次）

设备	平均推理时间
CPU	0.085s
GPU	0.012s
TPU	0.006s

从结果可以看出，TPU在推理速度上相较CPU提升了约14倍，GPU提升了约7倍。在生产部署中，应根据资源成本和性能需求选择合适的硬件平台。

优化建议：可结合模型量化、TensorRT加速或ONNX Runtime等技术进一步提升部署性能。