PyTorch模型量化后的性能基准测试

本文基于ResNet50模型，通过PyTorch的量化工具进行INT8量化，并对比原始FP32模型的推理性能。

环境准备

import torch
import torch.nn as nn
import torch.quantization
import time
import numpy as np

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = torch.hub.load('pytorch/vision:v0.10.0', 'resnet50', pretrained=True).to(device)

量化流程

# 设置量化配置
model.eval()
model.fuse_model()
model.qconfig = torch.quantization.get_default_qconfig('fbgemm')
quantized_model = torch.quantization.prepare(model, inplace=False)
# 进行量化
quantized_model = torch.quantization.convert(quantized_model, inplace=True)

性能测试代码

# 准备测试数据
input_tensor = torch.randn(1, 3, 224, 224).to(device)

# FP32性能测试
model.eval()
start_time = time.time()
with torch.no_grad():
    for _ in range(100):
        output = model(input_tensor)
fp32_time = time.time() - start_time

# INT8性能测试
quantized_model.eval()
start_time = time.time()
with torch.no_grad():
    for _ in range(100):
        output = quantized_model(input_tensor)
int8_time = time.time() - start_time

print(f'FP32平均耗时: {fp32_time/100*1000:.2f}ms')
print(f'INT8平均耗时: {int8_time/100*1000:.2f}ms')

实测结果

模型类型	平均推理时间(ms)	模型大小(MB)
FP32	45.2	97.8
INT8	28.7	24.5

PyTorch模型量化后的性能基准测试

PyTorch模型量化后的性能基准测试

环境准备

量化流程

性能测试代码

实测结果

讨论

选择表情