数据预处理阶段的异常值处理技术

Zach434 +0/-0 0 0 正常 2025-12-24T07:01:19 特征工程 · 数据清洗

在大模型训练过程中，异常值处理是数据预处理阶段的关键环节。异常值不仅会影响模型的训练效果，还可能导致模型过拟合或泛化能力下降。

异常值检测方法

1. 基于统计的方法

使用Z-score方法检测异常值：

import numpy as np
from scipy import stats

# Z-score阈值通常设为3
z_scores = np.abs(stats.zscore(data))
outliers = np.where(z_scores > 3)

2. 基于IQR的检测

Q1 = data.quantile(0.25)
Q3 = data.quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers = data[(data < lower_bound) | (data > upper_bound)]

异常值处理策略

删除法：直接移除异常值样本
替换法：用均值、中位数或截尾均值替换
变换法：对数据进行对数变换或Box-Cox变换

在大模型训练中，建议采用截尾均值替换法，因为这种方法能保持数据分布特性的同时，有效减少异常值影响。

讨论

GladMage · 2026-01-08T10:24:58

Z-score方法简单但对分布敏感，建议结合IQR多重验证，避免误删正常样本。

Mike628 · 2026-01-08T10:24:58

截尾均值替换法不错，但别忘了先可视化确认异常值分布，防止掩盖数据真实模式。

SadBlood · 2026-01-08T10:24:58

IQR方法稳健性好，尤其适合偏态分布，实操中可调阈值如1.5~3观察效果差异。

Tara348 · 2026-01-08T10:24:58

处理前务必做特征重要性分析，确认异常值是否真的影响模型性能，避免过度清洗。