大模型推理服务的性能监控方案

在大模型推理服务中，性能监控是确保系统稳定运行的关键环节。本文将从实际工程角度出发，介绍一套可复现的性能监控方案。

核心监控指标

主要关注以下三个维度：

延迟指标：平均响应时间、P95/P99延迟
吞吐指标：每秒处理请求数（QPS）
资源指标：GPU/CPU使用率、内存占用

实现方案

import time
import psutil
import torch
from collections import deque

class PerformanceMonitor:
    def __init__(self):
        self.latency_history = deque(maxlen=1000)
        self.request_count = 0
        
    def measure_inference(self, model, input_data):
        # 开始计时
        start_time = time.time()
        
        # 执行推理
        with torch.no_grad():
            output = model(input_data)
        
        # 记录延迟
        latency = time.time() - start_time
        self.latency_history.append(latency)
        self.request_count += 1
        
        return output, latency
    
    def get_metrics(self):
        if not self.latency_history:
            return {}
        
        latencies = list(self.latency_history)
        return {
            'avg_latency': sum(latencies)/len(latencies),
            'p95_latency': sorted(latencies)[int(len(latencies)*0.95)],
            'qps': self.request_count / (time.time() - self.start_time)
        }

可复现步骤

部署监控代码到推理服务中
每秒采集一次性能数据
使用Prometheus或自定义dashboard进行可视化
设置告警阈值（如P95延迟超过500ms时告警）

该方案可直接集成到现有推理服务中，实现对大模型推理性能的实时监控。

SmallCat · 2026-01-08T10:24:58

这套监控方案看着很完整，但实际落地时问题不少。比如QPS计算逻辑有缺陷，用request_count除以总时间会把服务启动前的空闲时间也算进去，导致QPS被严重低估。建议改成基于滑动窗口的实时统计，或者在每次请求处理后更新时间戳，才能得到准确的吞吐量数据。

DryXavier · 2026-01-08T10:24:58

延迟指标里只关注了平均值和P95/P99，但大模型推理的延迟分布往往呈现长尾特征，尤其在GPU显存不足时容易出现突发性慢查询。除了监控这些统计值，还应该加入延迟分布直方图和异常延迟告警机制。另外，代码里的start_time未初始化，get_metrics方法会直接报错，这种基础bug在生产环境里可能引发严重问题，建议加强单元测试覆盖。

大模型推理服务的性能监控方案

大模型推理服务的性能监控方案

核心监控指标

实现方案

可复现步骤

讨论

选择表情