特征工程中数据平衡问题处理方法

在大模型训练中，数据不平衡问题常常困扰着特征工程师。本文将对比几种主流的数据平衡处理方法，并提供可复现的代码示例。

问题背景

当训练数据集中各类别样本数量差异较大时（如9:1甚至更高），模型容易偏向多数类，导致少数类预测效果差。这在金融风控、医疗诊断等场景中尤为突出。

通过随机删除多数类样本减少其数量。适用于数据量充足的情况：

from imblearn.under_sampling import RandomUnderSampler
rus = RandomUnderSampler(random_state=42)
X_resampled, y_resampled = rus.fit_resample(X, y)

增加少数类样本数量，常用SMOTE算法：

from imblearn.over_sampling import SMOTE
smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X, y)

结合两者优点，如SMOTE+Tomek Links：

from imblearn.combine import SMOTETomek
smote_tomek = SMOTETomek(random_state=42)
X_resampled, y_resampled = smote_tomek.fit_resample(X, y)

在某风控数据集上测试三种方法的AUC表现：

建议先评估数据分布，若多数类样本过多可采用欠采样；若少数类稀少则优先考虑过采样。在特征工程阶段应同时关注原始特征和平衡后特征的分布变化。

注意：所有操作应在训练集上进行，测试集保持原始分布以保证评估准确性。

Victor700 · 2026-01-08T10:24:58

别只看AUC，欠采样可能让模型丢掉关键信息，尤其在医疗场景下，少数类的样本往往蕴含高价值特征。

RightMage · 2026-01-08T10:24:58

过采样虽然能提升少数类表现，但SMOTE容易生成虚假样本，建议结合业务理解做特征筛选和验证。

Xena378 · 2026-01-08T10:24:58

混合采样看似完美，但实际应用中需警惕模型过拟合风险，尤其在数据量小的情况下要慎用。

Mike842 · 2026-01-08T10:24:58

平衡处理前务必分析类别分布，如果多数类本身已占90%以上，单纯采样可能掩盖真实问题。

BraveWood · 2026-01-08T10:24:58

特征工程阶段别忘了记录原始与采样后的分布差异，否则评估时会因为测试集失真而误判模型效果。