大模型训练数据清洗流程踩坑记录
在大模型微调实践中,数据质量直接决定了模型效果。本文记录了我在生产环境中遇到的数据清洗问题及解决方案。
常见问题
- 重复数据 - 多个样本完全相同或高度相似
- 低质量文本 - 包含大量噪声、语法错误或无意义内容
- 格式不一致 - 数据结构混乱,难以处理
实用清洗步骤
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
# 读取数据
df = pd.read_csv('raw_data.csv')
# 去除重复内容
df_clean = df.drop_duplicates(subset=['text'], keep='first')
# 使用TF-IDF计算相似度,去除高度相似的样本
vectorizer = TfidfVectorizer(max_features=1000)
tfidf_matrix = vectorizer.fit_transform(df_clean['text'])
similarity_matrix = cosine_similarity(tfidf_matrix)
# 设置阈值过滤重复项
threshold = 0.95
rows_to_drop = []
for i in range(len(similarity_matrix)):
for j in range(i+1, len(similarity_matrix)):
if similarity_matrix[i][j] > threshold:
rows_to_drop.append(j)
df_final = df_clean.drop(rows_to_drop).reset_index(drop=True)
最佳实践建议
- 建立数据质量检查机制
- 定期进行数据清洗流程自动化
- 根据具体任务调整相似度阈值
生产环境中的数据清洗是一项持续性工作,需要结合业务场景灵活调整策略。

讨论