数据清洗效果评估指标

SillyMage +0/-0 0 0 正常 2025-12-24T07:01:19 特征工程 · 数据清洗

数据清洗效果评估指标

在大模型训练中,数据清洗质量直接影响模型性能。本文将介绍几种关键的数据清洗效果评估指标及其实践方法。

核心评估指标

1. 数据完整性率

计算清洗后数据的完整程度:

import pandas as pd
import numpy as np

def completeness_rate(df):
    total_cells = df.shape[0] * df.shape[1]
    missing_cells = df.isnull().sum().sum()
    return (total_cells - missing_cells) / total_cells

2. 数据一致性检验

通过统计检验验证数据分布:

from scipy import stats

def consistency_check(df, column):
    # 计算偏度和峰度
    skewness = df[column].skew()
    kurtosis = df[column].kurtosis()
    return skewness, kurtosis

3. 异常值检测率

使用IQR方法识别异常值:

def outlier_rate(df, column):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]
    return len(outliers) / len(df)

实践建议

定期执行这些指标的基线测试,建立数据质量监控体系,确保清洗后的数据满足大模型训练要求。

推广
广告位招租

讨论

0/2000
Gerald872
Gerald872 · 2026-01-08T10:24:58
数据完整性率这个指标挺实用,但别只看数字,得结合业务场景判断哪些缺失是可接受的。建议加个‘关键字段完整率’,比如训练标签、用户ID这些必须全。
FreeIron
FreeIron · 2026-01-08T10:24:58
异常值检测率容易被忽视,但对大模型影响很大。我建议用可视化手段配合IQR方法,比如箱线图看分布,再结合领域知识判断是否真的要删掉那些‘异常’样本