大规模语料库去重算法优化方案分享

在大模型训练过程中，数据去重是确保训练质量的关键环节。本文分享一套可复现的去重算法优化方案。

问题分析

传统基于完全匹配的去重方法在大规模语料中存在以下问题：

同义表达导致误判
文本格式差异造成漏检
内存消耗大，处理效率低

解决方案

我们采用多层去重策略，结合文本相似度计算和哈希优化。

第一步：基于特征的快速筛选

import hashlib
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

def compute_hash(text):
    return hashlib.md5(text.encode()).hexdigest()

# 预处理并生成hash
processed_texts = [preprocess(text) for text in corpus]
hashes = [compute_hash(text) for text in processed_texts]

第二步：TF-IDF相似度计算

vectorizer = TfidfVectorizer(max_features=10000, stop_words='english')
tfidf_matrix = vectorizer.fit_transform(processed_texts)

# 计算余弦相似度矩阵
from sklearn.metrics.pairwise import cosine_similarity
similarity_matrix = cosine_similarity(tfidf_matrix)

第三步：分层去重策略

thresholds = [0.95, 0.85, 0.75]
for threshold in thresholds:
    # 找出相似度高于阈值的文本对
    similar_pairs = find_similar_pairs(similarity_matrix, threshold)
    # 根据语义重要性选择保留样本
    keep_samples = select_representative_samples(similar_pairs)