在大模型训练中,数据清洗的质量直接影响模型性能。本文介绍一个可复现的数据质量评估模型。
核心评估指标
- 完整性检查:统计缺失值比例
- 一致性验证:检查数据格式统一性
- 异常值检测:使用IQR方法识别离群点
- 重复数据识别:基于哈希值去重
实现步骤
import pandas as pd
import numpy as np
from scipy import stats
def quality_assessment(df):
# 完整性评估
missing_rate = df.isnull().sum() / len(df)
# 一致性检查
consistency_score = {}
for col in df.columns:
if df[col].dtype == 'object':
consistency_score[col] = df[col].str.len().std()
# 异常值检测
outliers = {}
for col in df.select_dtypes(include=[np.number]).columns:
Q1, Q3 = df[col].quantile(0.25), df[col].quantile(0.75)
IQR = Q3 - Q1
outliers[col] = ((df[col] < Q1 - 1.5 * IQR) | (df[col] > Q3 + 1.5 * IQR)).sum()
return {
'missing_rate': missing_rate,
'consistency': consistency_score,
'outliers': outliers
}
应用建议
该模型可作为清洗流程的前置检查工具,帮助数据科学家快速定位数据质量问题。建议结合业务逻辑调整阈值参数。

讨论