模型训练数据清洗策略

模型训练数据清洗策略踩坑记录

最近在处理大模型训练数据时，踩了不少坑，分享一下数据清洗的心得。

常见问题

1. 数据重复检测

import pandas as pd
# 重复行检测
df_duplicated = df[df.duplicated(keep=False)]
# 删除完全重复的行
df_cleaned = df.drop_duplicates()

2. 异常值处理 使用IQR方法识别异常值，但要注意业务逻辑：

Q1 = df['column'].quantile(0.25)
Q3 = df['column'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
# 根据业务需求决定是删除还是替换

3. 缺失值处理 不要盲目填充，要分析缺失模式：

# 检查缺失模式
missing_pattern = df.isnull().sum()
# 对于大模型数据，建议使用插值或删除策略

实用技巧

建立数据质量检查清单
使用特征工程工具进行自动化清洗
保留清洗日志便于回溯

记住：数据质量决定模型上限！

Frank540 · 2026-01-08T10:24:58

数据清洗真的不能图快，尤其是大模型训练数据，我之前为了节省时间直接用drop_duplicates()，结果发现很多语义相似但表达不同的样本被误删了，后续模型效果差得离谱。建议加个文本相似度检测，比如用bertscore或者sentence-bert来判断是否真正重复。

KindLion · 2026-01-08T10:24:58

异常值处理一定要结合业务场景，我见过有人用IQR直接把所有超出范围的值都删掉，结果把一些重要案例全干掉了。正确的做法是先画箱线图看分布，再根据领域知识判断哪些是合理的边界值，或者用分位数替换而不是直接删除。

模型训练数据清洗策略

模型训练数据清洗策略踩坑记录

常见问题

实用技巧

讨论

选择表情