特征工程中的异常值检测方法

在大模型训练数据处理中，异常值检测是特征工程的关键环节。异常值不仅会影响模型性能，还可能导致训练过程不稳定。

1. 统计方法 基于标准差的Z-score方法：|z| > 3 判定为异常值

import numpy as np
from scipy import stats
z_scores = np.abs(stats.zscore(data))
outliers = np.where(z_scores > 3)

2. 箱线图方法 使用IQR（四分位距）检测：Q1 - 1.5×IQR < x < Q3 + 1.5×IQR

Q1 = np.percentile(data, 25)
Q3 = np.percentile(data, 75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

3. 机器学习方法 使用Isolation Forest进行无监督异常检测，特别适合高维数据。

from sklearn.ensemble import IsolationForest
iso_forest = IsolationForest(contamination=0.1)
outlier_labels = iso_forest.fit_predict(data)

在大模型训练中，建议采用多方法结合策略，先用统计方法快速筛查，再用机器学习方法精确定位。注意保存异常值索引以便后续分析，避免数据泄露。

CoolCharlie · 2026-01-08T10:24:58

Z-score和IQR方法确实好用，但别盲目信任阈值。我之前遇到过数据分布偏斜严重的情况，直接用3σ判断异常，结果把正常样本都删了。建议先画个直方图或箱线图看看数据形态。

SadBlood · 2026-01-08T10:24:58

Isolation Forest在高维数据上表现不错，但计算成本确实高。我在处理百万级样本时，会先用PCA降维，再用它检测异常值，效率提升明显。别忘了设置合适的contamination参数。

SillyJulia · 2026-01-08T10:24:58

异常值处理策略要根据业务场景定。比如风控模型中，极端值可能代表欺诈行为，不能简单删除。我一般会把异常值单独标记出来，作为新特征加入模型训练，反而提升了效果。

RedDust · 2026-01-08T10:24:58

实际项目中，建议用多种方法交叉验证异常值检测结果。比如统计方法筛一遍，机器学习方法再筛一遍，最后人工抽查几个样本确认。这样既能提高准确性，也能避免模型过拟合