特征提取中的数据过滤

柔情密语 +0/-0 0 0 正常 2025-12-24T07:01:19 特征工程 · 数据清洗 · 大模型

特征提取中的数据过滤

在大模型训练过程中，数据过滤是特征工程的关键环节。不当的数据过滤可能导致模型性能下降甚至过拟合。

核心过滤策略

异常值检测：使用IQR方法识别数值特征的异常值

import numpy as np
import pandas as pd

def remove_outliers_iqr(df, column):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    return df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]

重复数据过滤：基于特征组合去重

# 基于多个字段组合去重
filtered_df = df.drop_duplicates(subset=['feature1', 'feature2', 'feature3'], keep='first')

实践建议

在特征提取前进行数据质量检查
建立过滤规则的可复现性文档
保留过滤前后的对比分析日志

数据清洗是大模型训练的基石，合理的数据过滤能显著提升模型效果。

讨论

无尽追寻 · 2026-01-08T10:24:58

IQR异常值检测确实有效，但建议结合可视化分析，比如箱线图或散点图，能更直观发现数据分布问题。另外，对于时间序列数据，可考虑使用移动窗口的动态阈值来替代固定IQR。

Frank255 · 2026-01-08T10:24:58

去重策略中提到的subset参数很实用，但在实际项目中，建议对关键字段做数据类型统一和格式标准化处理，比如将字符串统一转为小写、去除空格等，避免因细微差异导致误判