从零搭建数据清洗流水线的工程实践分享

HeavyZach +0/-0 0 0 正常 2025-12-24T07:01:19 特征工程 · 数据清洗

从零搭建数据清洗流水线的工程实践分享

在大模型训练过程中，数据质量直接决定了模型性能。本文将分享一个完整的数据清洗流水线搭建过程，涵盖从原始数据到高质量训练集的全流程。

核心步骤

数据接入与初步检查

import pandas as pd
import numpy as np

df = pd.read_csv('raw_data.csv')
print(df.info())
print(df.describe())

缺失值处理

# 删除缺失值过多的列
threshold = 0.5
df = df.dropna(thresh=len(df)*threshold, axis=1)

# 填充数值型缺失值
numeric_columns = df.select_dtypes(include=[np.number]).columns
for col in numeric_columns:
    df[col].fillna(df[col].median(), inplace=True)

异常值检测与处理

from scipy import stats
z_scores = np.abs(stats.zscore(df[numeric_columns]))
outliers = np.where(z_scores > 3)
# 可选择删除或替换异常值

文本清洗

import re
def clean_text(text):
    text = re.sub(r'[^\w\s]', '', text)
    text = re.sub(r'\s+', ' ', text).strip()
    return text

数据标准化与保存

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df_scaled = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)
df_scaled.to_csv('cleaned_data.csv', index=False)

通过以上步骤，可以构建一个可复现的数据清洗流水线，为后续模型训练提供高质量数据基础。

讨论

AliveSky · 2026-01-08T10:24:58

别看这流程简单，真落地时坑多得很。比如z-score异常值检测，对长尾分布数据容易误判，建议加个可视化校验环节，不然清洗完的数据可能比原数据还脏。

雨后彩虹 · 2026-01-08T10:24:58

文本清洗那块直接上正则表达式，看似高效，但实际项目中中文标点、特殊符号混杂，建议先做样本抽样分析，再定制化清洗规则，否则容易把有效信息一并过滤掉。