在大模型训练中,数据质量直接决定了模型效果。本文分享一套实用的文本数据清洗质量控制标准。
核心检查清单
1. 重复数据检测 使用以下Python代码识别重复文本:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
df = pd.read_csv('data.csv')
vectorizer = TfidfVectorizer(max_features=10000, stop_words='english')
X = vectorizer.fit_transform(df['text'])
cos_sim = cosine_similarity(X)
# 找出相似度大于0.95的重复项
threshold = 0.95
duplicates = []
for i in range(len(cos_sim)):
for j in range(i+1, len(cos_sim)):
if cos_sim[i][j] > threshold:
duplicates.append((i, j))
2. 异常长度过滤
# 过滤极短或极长文本
df['text_length'] = df['text'].str.len()
df_filtered = df[(df['text_length'] >= 10) & (df['text_length'] <= 5000)]
实践建议
- 建立自动化清洗流水线,定期检查数据质量
- 设置阈值监控,及时发现数据异常波动
- 记录每次清洗操作,确保可追溯性
这套标准已在多个大模型项目中验证有效,建议团队建立标准化流程。

讨论