在大模型训练过程中,数据质量直接决定了模型性能。本文将分享一套完整的模型训练数据质量评估方法。
数据质量评估维度
- 数据完整性:检查缺失值比例
- 数据一致性:验证数据格式统一性
- 数据准确性:识别异常值和错误数据
- 数据时效性:确保数据新鲜度
可复现步骤:
import pandas as pd
import numpy as np
# 加载数据
df = pd.read_csv('training_data.csv')
# 1. 缺失值分析
missing_data = df.isnull().sum()
print("缺失值统计:")
print(missing_data[missing_data > 0])
# 2. 异常值检测
numeric_columns = df.select_dtypes(include=[np.number]).columns
for col in numeric_columns:
Q1 = df[col].quantile(0.25)
Q3 = df[col].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)]
print(f"{col} 异常值数量:{len(outliers)}")
# 3. 数据分布检查
for col in numeric_columns:
print(f"{col} 均值:{df[col].mean():.2f}, 标准差:{df[col].std():.2f}")
通过以上评估,可以及时发现并处理数据质量问题,为后续模型训练奠定基础。

讨论