文本数据清洗质量评估方法

在大模型训练中，数据质量直接影响模型性能。本文将介绍几种实用的文本数据清洗质量评估方法。

1. 基础质量指标评估

首先建立基础质量检查清单：

import pandas as pd
import numpy as np

def basic_quality_check(df, text_column):
    # 检查空值率
    null_rate = df[text_column].isnull().sum() / len(df)
    
    # 检查重复率
    duplicate_rate = df[text_column].duplicated().sum() / len(df)
    
    # 检查平均长度
    avg_length = df[text_column].str.len().mean()
    
    return {
        'null_rate': null_rate,
        'duplicate_rate': duplicate_rate,
        'avg_length': avg_length
    }

2. 语言质量评估

使用语言模型检测文本的语法和语义完整性：

from transformers import pipeline

def evaluate_language_quality(texts):
    # 使用预训练的语言模型进行质量评估
    classifier = pipeline("text-classification", model="cardiffnlp/twitter-roberta-base-sentiment-latest")
    results = classifier(texts)
    
    # 分析负面文本比例
    negative_ratio = sum(1 for r in results if r['label'] == 'LABEL_2') / len(results)
    return negative_ratio

3. 特征工程质量验证

清洗后的数据应保持原有特征分布：

import matplotlib.pyplot as plt
from sklearn.feature_extraction.text import CountVectorizer

# 清洗前后词汇分布对比
vectorizer = CountVectorizer(max_features=1000)

# 原始数据词频
original_tf = vectorizer.fit_transform(original_texts)

# 清洗后数据词频
cleaned_tf = vectorizer.fit_transform(cleaned_texts)

# 绘制词频分布图对比
plt.figure(figsize=(12, 4))
plt.subplot(1, 2, 1)
plt.hist(original_tf.sum(axis=0).A1, bins=50)
plt.title('Original Data')

plt.subplot(1, 2, 2)
plt.hist(cleaned_tf.sum(axis=0).A1, bins=50)
plt.title('Cleaned Data')