基于Python的数据清洗脚本最佳实践

在大模型训练中，数据质量直接决定了模型性能。本文将分享基于Python的数据清洗最佳实践，涵盖常见问题及解决方案。

1. 数据缺失值处理 使用pandas的isnull()和fillna()方法：

import pandas as pd
# 检查缺失值
df.isnull().sum()
# 填充缺失值
df.fillna(df.mean(), inplace=True)  # 数值型用均值填充

2. 异常值检测 采用IQR方法识别异常值：

Q1 = df.quantile(0.25)
Q3 = df.quantile(0.75)
IQR = Q3 - Q1
df = df[~((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))).any(axis=1)]

3. 数据类型优化 合理设置数据类型减少内存占用：

# 转换为合适的数据类型
df['category_col'] = df['category_col'].astype('category')
df['int_col'] = pd.to_numeric(df['int_col'], downcast='integer')

4. 文本数据清洗 去除特殊字符和多余空格：

import re
df['text_col'] = df['text_col'].apply(lambda x: re.sub(r'[^\w\s]', '', x))
df['text_col'] = df['text_col'].str.strip()

这些方法可有效提升数据质量，为后续特征工程打下坚实基础。