在大语言模型微调过程中,数据质量直接影响模型性能。本文分享一套可复现的数据清洗策略。
核心原则:首先明确,数据清洗不是简单的去重或过滤,而是要保持语义一致性和训练效果的平衡。我们采用三阶段清洗流程:
- 初步筛选:使用文本长度、重复率等基础指标过滤异常数据。Python代码示例:
import pandas as pd
def filter_basic(texts):
# 过滤太短或太长的文本
filtered = [t for t in texts if 10 < len(t) < 1000]
# 去除重复内容
unique = list(set(filtered))
return unique
- 语义清洗:利用预训练模型计算文本相似度,去除语义重复项。通过Sentence-BERT计算余弦相似度:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('all-MiniLM-L6-v2')
embeddings = model.encode(texts)
- 质量评估:人工抽样+自动化指标(如BLEU分数)结合判断数据质量。建议保留BLEU>0.3的样本。
实际部署中,建议将清洗流程封装为流水线组件,在生产环境中实现自动化处理。

讨论