大模型训练数据清洗技巧

Steve693 +0/-0 0 0 正常 2025-12-24T07:01:19 隐私保护 · 数据清洗 · 大模型

大模型训练数据清洗技巧

在大模型训练过程中,数据质量直接影响模型性能。本文分享几种实用的数据清洗方法。

1. 重复数据检测

使用Python进行基本的重复数据识别:

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def find_duplicates(df, text_column, threshold=0.95):
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(df[text_column])
    similarity_matrix = cosine_similarity(tfidf_matrix)
    
    duplicates = []
    for i in range(len(similarity_matrix)):
        for j in range(i+1, len(similarity_matrix)):
            if similarity_matrix[i][j] > threshold:
                duplicates.append((i, j))
    return duplicates

2. 噪声数据过滤

通过统计方法识别异常值:

import numpy as np

def remove_outliers(df, column, z_threshold=3):
    z_scores = np.abs((df[column] - df[column].mean()) / df[column].std())
    return df[z_scores < z_threshold]

3. 隐私信息检测

使用正则表达式识别敏感信息:

import re

sensitive_patterns = {
    'phone': r'1[3-9]\d{9}',
    'id_card': r'\d{17}[\dXx]',
    'email': r'\w+@\w+\.\w+'
}

for pattern_name, pattern in sensitive_patterns.items():
    df = df[~df['text'].str.contains(pattern, regex=True)]

建议在清洗前先备份数据,避免误删重要信息。

推广
广告位招租

讨论

0/2000
WellVictor
WellVictor · 2026-01-08T10:24:58
重复数据检测别只看完全相同,TF-IDF+余弦相似度是好方法,但要根据业务场景调参,比如对话数据可以适当降低阈值避免误删。
软件测试视界
软件测试视界 · 2026-01-08T10:24:58
噪声过滤用Z-score简单粗暴,但对长尾分布不友好,建议结合IQR或者局部离群点检测,尤其在处理用户评论这种非正态分布时更稳健。
Ethan723
Ethan723 · 2026-01-08T10:24:58
隐私信息识别不能只靠正则,要结合NLP模型做实体识别,比如用BERT提取人名、地名等,避免误删或漏掉敏感字段。
ThinCry
ThinCry · 2026-01-08T10:24:58
数据清洗是个迭代过程,建议建立清洗规则库和回溯机制,记录每次清洗对模型效果的影响,才能持续优化流程而不是盲目操作。