机器学习模型性能评估基准
核心监控指标体系
模型输出质量指标:准确率(accuracy)、精确率(precision)、召回率(recall)、F1-score,通过sklearn.metrics计算;AUC-ROC曲线面积,使用roc_auc_score函数。
性能基准指标:推理延迟(ms),通过time.time()记录;内存占用(MB),使用psutil.virtual_memory().used监控。
数据质量指标:输入特征分布变化率(>5%触发告警)、缺失值比例、异常值占比,通过pandas.DataFrame.describe()分析。
告警配置方案
阈值设定:
- 准确率下降超过2%触发一级告警
- 推理延迟超过100ms触发二级告警
- 内存占用超过80%触发三级告警
监控脚本示例:
import time
from sklearn.metrics import accuracy_score
import psutil
class ModelMonitor:
def __init__(self, threshold=0.02):
self.threshold = threshold
def check_performance(self, y_true, y_pred):
acc = accuracy_score(y_true, y_pred)
if acc < (self.last_acc - self.threshold):
self.trigger_alert('accuracy_drop')
def check_latency(self):
start = time.time()
# 模型推理代码
end = time.time()
latency = (end - start) * 1000
if latency > 100:
self.trigger_alert('latency_exceed')
可复现步骤**:
- 部署监控脚本到生产环境
- 设置Prometheus监控指标暴露端口
- 配置Grafana仪表板展示关键指标
- 创建钉钉/企业微信告警机器人
评估基准值建议
- 基准准确率:>90%
- 基准延迟:<50ms
- 基准内存:<2GB

讨论