构建数据质量评估体系的完整流程

MeanLeg +0/-0 0 0 正常 2025-12-24T07:01:19 特征工程 · 数据清洗 · 数据质量

构建数据质量评估体系的完整流程

在大模型训练中，数据质量直接影响模型性能。本文分享一个可复现的数据质量评估体系构建流程。

1. 数据概览分析

首先对原始数据进行基础统计：

import pandas as pd
import numpy as np

df = pd.read_csv('raw_data.csv')
# 基础信息查看
print(df.info())
print(df.describe())
# 检查缺失值
missing_data = df.isnull().sum()
print(missing_data[missing_data > 0])

2. 核心质量指标定义

建立以下关键指标：

缺失率：缺失值占比
唯一值率：唯一值占比，判断数据冗余
异常值检测：使用IQR方法

# 计算异常值
Q1 = df.quantile(0.25)
Q3 = df.quantile(0.75)
IQR = Q3 - Q1
outliers = ((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))).sum()

3. 自动化评估脚本

编写质量报告生成器：

from datetime import datetime

def generate_quality_report(df):
    report = {
        'timestamp': datetime.now(),
        'total_rows': len(df),
        'missing_rate': df.isnull().sum().sum() / (df.shape[0] * df.shape[1]),
        'duplicate_rows': df.duplicated().sum()
    }
    return report

4. 质量问题修复

根据评估结果，实施清洗策略：

缺失值处理：数值型用中位数填充，类别型用众数
异常值处理：根据业务逻辑决定是否剔除或修正

此流程已在多个大模型数据工程实践中验证有效。

⚠️ 注意：确保处理过程符合数据隐私保护要求，避免敏感信息泄露

讨论

YoungWill · 2026-01-08T10:24:58

数据质量评估不能只看表面，得结合业务场景定指标。比如缺失率虽然重要，但要区分是随机缺失还是系统性缺失，后者可能隐藏着数据采集逻辑问题。

Donna177 · 2026-01-08T10:24:58

自动化脚本很好用，但别忘了加日志和告警机制。我之前因为没监控异常值比例突增，导致训练数据里藏了大量脏数据，模型效果差了一大截。