数据清洗工具使用经验分享

北极星光 +0/-0 0 0 正常 2025-12-24T07:01:19 特征工程 · 数据清洗

数据清洗工具使用经验分享

在大模型训练过程中,数据质量直接影响模型性能。今天分享几个实用的数据清洗工具和方法。

1. pandas 数据清洗基础操作

import pandas as pd
import numpy as np

# 处理缺失值
 df = pd.read_csv('dataset.csv')
# 查看缺失值情况
print(df.isnull().sum())
# 删除含有缺失值的行
 df.dropna(inplace=True)
# 填充缺失值
 df.fillna(df.mean(), inplace=True)  # 数值型用均值填充

2. 使用regex进行文本清洗

import re

def clean_text(text):
    # 去除特殊字符和多余空格
    text = re.sub(r'[^a-zA-Z0-9\s]', '', text)
    text = re.sub(r'\s+', ' ', text).strip()
    return text

df['cleaned_text'] = df['raw_text'].apply(clean_text)

3. 特征工程中的数据标准化

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
# 对数值特征进行标准化处理
numeric_features = ['age', 'income', 'score']
df[numeric_features] = scaler.fit_transform(df[numeric_features])

这些方法在实际项目中能有效提升数据质量,建议根据具体场景选择合适的清洗策略。

推广
广告位招租

讨论

0/2000
落日之舞姬
落日之舞姬 · 2026-01-08T10:24:58
pandas的dropna和fillna确实好用,但要先看缺失值分布,别盲目删除。
SilentSand
SilentSand · 2026-01-08T10:24:58
正则清洗文本时,记得加try-except,防止报错中断整个流程。
David99
David99 · 2026-01-08T10:24:58
标准化前先检查数据分布,偏态严重时考虑用RobustScaler。
David281
David281 · 2026-01-08T10:24:58
处理缺失值前最好分析一下缺失模式,是随机还是系统性缺失。
Nina473
Nina473 · 2026-01-08T10:24:58
文本清洗别只去特殊字符,还要注意统一大小写和去除停用词。
BigQuinn
BigQuinn · 2026-01-08T10:24:58
用fillna填充时,分类变量建议用众数而不是均值。
ColdCoder
ColdCoder · 2026-01-08T10:24:58
数据清洗不是一蹴而就的,建议分步骤做,每步都记录处理逻辑。
ShortStar
ShortStar · 2026-01-08T10:24:58
特征标准化后记得保存scaler对象,训练和预测要用同一套参数。
Xavier535
Xavier535 · 2026-01-08T10:24:58
正则表达式写完后最好先用几个样本测试,避免误删关键信息。
FunnyPiper
FunnyPiper · 2026-01-08T10:24:58
pandas的query方法在清洗时特别实用,比布尔索引更直观。