构建数据质量评估体系的完整流程
在大模型训练中,数据质量直接影响模型性能。本文分享一个可复现的数据质量评估体系构建流程。
1. 数据概览分析
首先对原始数据进行基础统计:
import pandas as pd
import numpy as np
df = pd.read_csv('raw_data.csv')
# 基础信息查看
print(df.info())
print(df.describe())
# 检查缺失值
missing_data = df.isnull().sum()
print(missing_data[missing_data > 0])
2. 核心质量指标定义
建立以下关键指标:
- 缺失率:缺失值占比
- 唯一值率:唯一值占比,判断数据冗余
- 异常值检测:使用IQR方法
# 计算异常值
Q1 = df.quantile(0.25)
Q3 = df.quantile(0.75)
IQR = Q3 - Q1
outliers = ((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))).sum()
3. 自动化评估脚本
编写质量报告生成器:
from datetime import datetime
def generate_quality_report(df):
report = {
'timestamp': datetime.now(),
'total_rows': len(df),
'missing_rate': df.isnull().sum().sum() / (df.shape[0] * df.shape[1]),
'duplicate_rows': df.duplicated().sum()
}
return report
4. 质量问题修复
根据评估结果,实施清洗策略:
- 缺失值处理:数值型用中位数填充,类别型用众数
- 异常值处理:根据业务逻辑决定是否剔除或修正
此流程已在多个大模型数据工程实践中验证有效。
⚠️ 注意:确保处理过程符合数据隐私保护要求,避免敏感信息泄露

讨论