大模型训练数据的清洗流程

大模型训练数据清洗流程踩坑记录

在大模型微调实践中，数据质量直接决定了模型效果。本文记录了我在生产环境中遇到的数据清洗问题及解决方案。

常见问题

重复数据 - 多个样本完全相同或高度相似
低质量文本 - 包含大量噪声、语法错误或无意义内容
格式不一致 - 数据结构混乱，难以处理

实用清洗步骤

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# 读取数据
df = pd.read_csv('raw_data.csv')

# 去除重复内容
 df_clean = df.drop_duplicates(subset=['text'], keep='first')

# 使用TF-IDF计算相似度，去除高度相似的样本
vectorizer = TfidfVectorizer(max_features=1000)
tfidf_matrix = vectorizer.fit_transform(df_clean['text'])
similarity_matrix = cosine_similarity(tfidf_matrix)

# 设置阈值过滤重复项
threshold = 0.95
rows_to_drop = []
for i in range(len(similarity_matrix)):
    for j in range(i+1, len(similarity_matrix)):
        if similarity_matrix[i][j] > threshold:
            rows_to_drop.append(j)
            
df_final = df_clean.drop(rows_to_drop).reset_index(drop=True)

最佳实践建议

建立数据质量检查机制
定期进行数据清洗流程自动化
根据具体任务调整相似度阈值

生产环境中的数据清洗是一项持续性工作，需要结合业务场景灵活调整策略。

大模型训练数据清洗流程踩坑记录

常见问题

实用清洗步骤

最佳实践建议

讨论

选择表情