模型训练前数据预处理最佳实践

在大模型训练中，数据预处理是决定模型性能的关键环节。以下是经过验证的预处理流程和最佳实践。

1. 数据清洗与缺失值处理

import pandas as pd
import numpy as np

df = pd.read_csv('dataset.csv')
# 检查缺失值
print(df.isnull().sum())
# 删除缺失值过多的列
df = df.dropna(thresh=len(df)*0.8, axis=1)
# 数值型特征填充均值
numeric_cols = df.select_dtypes(include=[np.number]).columns
for col in numeric_cols:
    df[col].fillna(df[col].mean(), inplace=True)

2. 异常值检测与处理

# 使用IQR方法识别异常值
Q1 = df.quantile(0.25)
Q3 = df.quantile(0.75)
IQR = Q3 - Q1
df_clean = df[~((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))).any(axis=1)]

3. 特征标准化与归一化

from sklearn.preprocessing import StandardScaler, MinMaxScaler

# 标准化
scaler = StandardScaler()
df_scaled = pd.DataFrame(scaler.fit_transform(df.select_dtypes(include=[np.number])))

# 归一化
minmax_scaler = MinMaxScaler()
df_normalized = pd.DataFrame(minmax_scaler.fit_transform(df.select_dtypes(include=[np.number])))

4. 文本特征预处理

import re

def preprocess_text(text):
    # 转小写，移除特殊字符
    text = re.sub(r'[^a-zA-Z0-9\s]', '', text.lower())
    # 移除多余空格
    text = re.sub(r'\s+', ' ', text).strip()
    return text

df['processed_text'] = df['text'].apply(preprocess_text)

遵循这些步骤可以显著提升模型训练效果，建议在实际项目中按需组合使用。