数据清洗效果评估体系
在大模型训练过程中,数据质量直接影响模型性能。本文将构建一套系统化的数据清洗效果评估体系。
核心评估维度
1. 数据完整性检查
import pandas as pd
import numpy as np
def check_data_completeness(df):
completeness = (df.count() / len(df)) * 100
return completeness
2. 异常值检测
from scipy import stats
def detect_outliers_iqr(df, column):
Q1 = df[column].quantile(0.25)
Q3 = df[column].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
return df[(df[column] < lower_bound) | (df[column] > upper_bound)]
3. 数据分布一致性
from sklearn.metrics import mean_squared_error
def compare_distributions(original_df, cleaned_df):
# 计算原始与清洗后数据的统计特征差异
original_stats = original_df.describe()
cleaned_stats = cleaned_df.describe()
mse = mean_squared_error(original_stats, cleaned_stats)
return mse
可复现步骤
- 构建数据质量基线
- 执行清洗操作
- 量化评估指标
- 建立清洗效果报告模板
通过这套体系,可有效量化清洗前后数据质量变化,为大模型训练提供高质量数据保障。

讨论