大模型训练数据的清洗流程

星辰之舞酱 +0/-0 0 0 正常 2025-12-24T07:01:19 机器学习 · 数据清洗 · 大模型

大模型训练数据清洗流程踩坑记录

在大模型微调实践中,数据质量直接决定了模型效果。本文记录了我在生产环境中遇到的数据清洗问题及解决方案。

常见问题

  1. 重复数据 - 多个样本完全相同或高度相似
  2. 低质量文本 - 包含大量噪声、语法错误或无意义内容
  3. 格式不一致 - 数据结构混乱,难以处理

实用清洗步骤

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# 读取数据
df = pd.read_csv('raw_data.csv')

# 去除重复内容
 df_clean = df.drop_duplicates(subset=['text'], keep='first')

# 使用TF-IDF计算相似度,去除高度相似的样本
vectorizer = TfidfVectorizer(max_features=1000)
tfidf_matrix = vectorizer.fit_transform(df_clean['text'])
similarity_matrix = cosine_similarity(tfidf_matrix)

# 设置阈值过滤重复项
threshold = 0.95
rows_to_drop = []
for i in range(len(similarity_matrix)):
    for j in range(i+1, len(similarity_matrix)):
        if similarity_matrix[i][j] > threshold:
            rows_to_drop.append(j)
            
df_final = df_clean.drop(rows_to_drop).reset_index(drop=True)

最佳实践建议

  • 建立数据质量检查机制
  • 定期进行数据清洗流程自动化
  • 根据具体任务调整相似度阈值

生产环境中的数据清洗是一项持续性工作,需要结合业务场景灵活调整策略。

推广
广告位招租

讨论

0/2000
心灵之约
心灵之约 · 2026-01-08T10:24:58
这流程太理想化了,实际项目里哪有那么多干净数据?建议加个人工抽检环节,不然TF-IDF过滤掉的可能是有价值但表述奇怪的内容。
FreeYvonne
FreeYvonne · 2026-01-08T10:24:58
相似度阈值设0.95有点武断,不同任务场景差别很大。比如问答系统可能要更宽松,而摘要生成则需要严格很多,得根据下游效果调参。
Piper667
Piper667 · 2026-01-08T10:24:58
清洗后数据量锐减是常态,但别只看数量,要看质量分布。建议加个关键词频率分析,确保核心领域内容不被误删