数据清洗效果评估指标
在大模型训练中,数据清洗质量直接影响模型性能。本文将介绍几种关键的数据清洗效果评估指标及其实践方法。
核心评估指标
1. 数据完整性率
计算清洗后数据的完整程度:
import pandas as pd
import numpy as np
def completeness_rate(df):
total_cells = df.shape[0] * df.shape[1]
missing_cells = df.isnull().sum().sum()
return (total_cells - missing_cells) / total_cells
2. 数据一致性检验
通过统计检验验证数据分布:
from scipy import stats
def consistency_check(df, column):
# 计算偏度和峰度
skewness = df[column].skew()
kurtosis = df[column].kurtosis()
return skewness, kurtosis
3. 异常值检测率
使用IQR方法识别异常值:
def outlier_rate(df, column):
Q1 = df[column].quantile(0.25)
Q3 = df[column].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]
return len(outliers) / len(df)
实践建议
定期执行这些指标的基线测试,建立数据质量监控体系,确保清洗后的数据满足大模型训练要求。

讨论