特征工程中数据预处理自动化实现

在大模型训练过程中，数据预处理是决定模型性能的关键环节。本文将分享特征工程中数据预处理自动化的实现方法。

数据预处理自动化流程

1. 数据清洗自动化

import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, LabelEncoder

def auto_clean_data(df):
    # 处理缺失值
    df = df.fillna(df.mean(numeric_only=True)))
    
    # 异常值检测（使用IQR方法）
    for col in df.select_dtypes(include=[np.number]).columns:
        Q1 = df[col].quantile(0.25)
        Q3 = df[col].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        df[col] = df[col].clip(lower_bound, upper_bound)
    
    return df

2. 特征标准化

# 自动特征缩放
scaler = StandardScaler()
numeric_features = df.select_dtypes(include=[np.number]).columns
df[numeric_features] = scaler.fit_transform(df[numeric_features])

3. 分类变量处理

# 标签编码自动化
label_encoders = {}
for column in df.select_dtypes(include=['object']).columns:
    le = LabelEncoder()
    df[column] = le.fit_transform(df[column].astype(str))
    label_encoders[column] = le