数据质量评估自动化框架实现
在大模型训练过程中,数据质量直接影响模型性能。本文分享一个可复现的数据质量评估自动化框架。
核心问题
训练数据往往存在缺失值、异常值、分布偏移等问题,手动检查效率低下。
解决方案
基于pandas和numpy构建自动化评估流程:
import pandas as pd
import numpy as np
from scipy import stats
class DataQualityChecker:
def __init__(self, df):
self.df = df
self.results = {}
def check_missing(self):
missing_pct = self.df.isnull().sum() / len(self.df) * 100
self.results['missing'] = missing_pct[missing_pct > 0]
return missing_pct
def check_duplicates(self):
dup_count = self.df.duplicated().sum()
self.results['duplicates'] = dup_count
return dup_count
def check_outliers(self, column):
Q1 = self.df[column].quantile(0.25)
Q3 = self.df[column].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers = self.df[(self.df[column] < lower_bound) |
(self.df[column] > upper_bound)]
return len(outliers)
def generate_report(self):
report = {
'missing_values': self.check_missing(),
'duplicates': self.check_duplicates()
}
return report
使用示例
# 加载数据
df = pd.read_csv('your_dataset.csv')
# 初始化检查器
checker = DataQualityChecker(df)
# 生成报告
report = checker.generate_report()
print(report)
实践建议
- 根据业务场景自定义阈值
- 定期自动化运行质量检查
- 建立数据质量基线
此框架已在多个训练集上验证,可有效识别数据质量问题。

讨论