大模型训练数据清洗技巧

在大模型训练过程中，数据质量直接影响模型性能。本文分享几种实用的数据清洗方法。

1. 重复数据检测

使用Python进行基本的重复数据识别：

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def find_duplicates(df, text_column, threshold=0.95):
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(df[text_column])
    similarity_matrix = cosine_similarity(tfidf_matrix)
    
    duplicates = []
    for i in range(len(similarity_matrix)):
        for j in range(i+1, len(similarity_matrix)):
            if similarity_matrix[i][j] > threshold:
                duplicates.append((i, j))
    return duplicates

2. 噪声数据过滤

通过统计方法识别异常值：

import numpy as np

def remove_outliers(df, column, z_threshold=3):
    z_scores = np.abs((df[column] - df[column].mean()) / df[column].std())
    return df[z_scores < z_threshold]

3. 隐私信息检测

使用正则表达式识别敏感信息：

import re

sensitive_patterns = {
    'phone': r'1[3-9]\d{9}',
    'id_card': r'\d{17}[\dXx]',
    'email': r'\w+@\w+\.\w+'
}

for pattern_name, pattern in sensitive_patterns.items():
    df = df[~df['text'].str.contains(pattern, regex=True)]

建议在清洗前先备份数据，避免误删重要信息。

WellVictor · 2026-01-08T10:24:58

重复数据检测别只看完全相同，TF-IDF+余弦相似度是好方法，但要根据业务场景调参，比如对话数据可以适当降低阈值避免误删。

软件测试视界 · 2026-01-08T10:24:58

噪声过滤用Z-score简单粗暴，但对长尾分布不友好，建议结合IQR或者局部离群点检测，尤其在处理用户评论这种非正态分布时更稳健。

Ethan723 · 2026-01-08T10:24:58

隐私信息识别不能只靠正则，要结合NLP模型做实体识别，比如用BERT提取人名、地名等，避免误删或漏掉敏感字段。

ThinCry · 2026-01-08T10:24:58

数据清洗是个迭代过程，建议建立清洗规则库和回溯机制，记录每次清洗对模型效果的影响，才能持续优化流程而不是盲目操作。

大模型训练数据清洗技巧

大模型训练数据清洗技巧

1. 重复数据检测

2. 噪声数据过滤

3. 隐私信息检测

讨论

选择表情