数据清洗中的自动化脚本开发经验

在大模型训练数据处理中，数据清洗是至关重要的一步。本文分享一些实用的自动化脚本开发经验，帮助数据科学家高效处理大规模数据集。

1. 数据质量检测自动化 使用pandas和numpy进行批量数据质量检查：

import pandas as pd
import numpy as np

def quality_check(df):
    report = {}
    report['missing_values'] = df.isnull().sum()
    report['duplicates'] = df.duplicated().sum()
    report['data_types'] = df.dtypes
    return report

2. 异常值处理脚本 针对数值型数据的异常值检测：

from scipy import stats

def remove_outliers(df, column):
    z_scores = np.abs(stats.zscore(df[column]))
    return df[z_scores < 3]

3. 自动化清洗流水线 将上述功能整合成可复用的清洗函数：

def clean_pipeline(df):
    # 删除重复行
    df = df.drop_duplicates()
    # 处理缺失值
    df = df.fillna(df.mean())
    # 去除异常值
    numeric_columns = df.select_dtypes(include=[np.number]).columns
    for col in numeric_columns:
        df = remove_outliers(df, col)
    return df

这些脚本可在特征工程阶段快速应用，显著提升数据处理效率。