模型训练数据清洗策略踩坑记录
最近在处理大模型训练数据时,踩了不少坑,分享一下数据清洗的心得。
常见问题
1. 数据重复检测
import pandas as pd
# 重复行检测
df_duplicated = df[df.duplicated(keep=False)]
# 删除完全重复的行
df_cleaned = df.drop_duplicates()
2. 异常值处理 使用IQR方法识别异常值,但要注意业务逻辑:
Q1 = df['column'].quantile(0.25)
Q3 = df['column'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
# 根据业务需求决定是删除还是替换
3. 缺失值处理 不要盲目填充,要分析缺失模式:
# 检查缺失模式
missing_pattern = df.isnull().sum()
# 对于大模型数据,建议使用插值或删除策略
实用技巧
- 建立数据质量检查清单
- 使用特征工程工具进行自动化清洗
- 保留清洗日志便于回溯
记住:数据质量决定模型上限!

讨论