模型训练数据清洗标准

HotApp +0/-0 0 0 正常 2025-12-24T07:01:19 特征工程 · 数据清洗 · 大模型

模型训练数据清洗标准

在大模型训练过程中，数据质量直接影响模型性能。本文档总结了标准化的数据清洗流程和最佳实践。

数据清洗流程

缺失值处理

import pandas as pd
import numpy as np

df = pd.read_csv('dataset.csv')
# 查看缺失值情况
missing_data = df.isnull().sum()
print(missing_data[missing_data > 0])

# 删除缺失值过多的列
threshold = len(df) * 0.5
df_cleaned = df.dropna(thresh=threshold)

异常值检测

from scipy import stats

# Z-score方法识别异常值
z_scores = np.abs(stats.zscore(df['numeric_column']))
outliers = df[z_scores > 3]
# 或者使用IQR方法
Q1 = df['column'].quantile(0.25)
Q3 = df['column'].quantile(0.75)
IQR = Q3 - Q1
df_cleaned = df[~((df['column'] < Q1 - 1.5 * IQR) | (df['column'] > Q3 + 1.5 * IQR))]

重复数据处理

# 检测并删除重复行
print(f'重复行数: {df.duplicated().sum()}')
# 删除完全重复的行
df_cleaned = df.drop_duplicates()
# 根据特定列去重
df_cleaned = df.drop_duplicates(subset=['key_column'])

数据标准化规范

统一数据格式，如日期格式统一为'YYYY-MM-DD'
数值型数据归一化或标准化处理
文本数据去除特殊字符和多余空格

这些清洗步骤应作为数据预处理的标准流程，在每次模型训练前执行。

讨论

Helen228 · 2026-01-08T10:24:58

数据清洗不是简单的“删删改改”，而是模型成败的关键一步。别把缺失值处理当成小事，50%以上的数据缺失直接可能导致模型过拟合或性能崩塌。建议先做缺失模式分析，再决定是删除、填充还是建模处理。

WrongMind · 2026-01-08T10:24:58

异常值检测别只用Z-score或IQR，尤其在金融、医疗等高敏感领域，要结合业务逻辑判断。我见过一个风控模型因误删了关键异常样本，导致真实欺诈案例全漏判。建议加个人工审核环节，至少对可疑数据做交叉验证。