大模型训练数据质量评估标准制定
在大模型训练过程中,数据质量直接影响模型性能。本文将分享一套可复现的数据质量评估标准。
核心评估维度
- 数据完整性:检查缺失值比例
- 数据一致性:格式统一性验证
- 数据准确性:异常值检测
- 数据多样性:特征分布分析
可复现步骤
import pandas as pd
import numpy as np
def evaluate_data_quality(df):
# 1. 完整性检查
missing_ratio = df.isnull().sum() / len(df)
# 2. 一致性检查
consistency_score = {}
for col in df.columns:
if df[col].dtype == 'object':
unique_ratio = df[col].nunique() / len(df)
consistency_score[col] = unique_ratio
# 3. 准确性检查(异常值)
outlier_counts = {}
for col in df.select_dtypes(include=[np.number]).columns:
Q1 = df[col].quantile(0.25)
Q3 = df[col].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]
outlier_counts[col] = len(outliers)
return {
'missing_ratio': missing_ratio,
'consistency_scores': consistency_score,
'outlier_counts': outlier_counts
}
评估标准建议
- 缺失值比例 < 5%:优秀
- 异常值比例 < 1%:优秀
- 数据格式统一性 > 90%:优秀
此标准可作为大模型训练前的数据质量把关依据。

讨论