数据预处理阶段的错误日志分析

在大模型训练的数据工程流程中，预处理阶段是确保数据质量的关键环节。然而，在实际操作中，我们经常遇到各种数据异常和错误，需要通过系统性的日志分析来定位问题。

常见错误类型

预处理阶段常见的错误包括：

数据类型不匹配（如字符串转数字失败）
缺失值处理不当
异常值检测失效
字符编码问题

日志分析方法

import pandas as pd
import numpy as np
from datetime import datetime

# 创建示例数据
raw_data = pd.DataFrame({
    'id': [1, 2, 3, 4, 5],
    'value': ['10', '20', 'abc', '40', None],
    'category': ['A', 'B', 'C', 'D', 'E']
})

# 日志记录函数
logger = []

def log_error(message, row_index):
    logger.append({
        'timestamp': datetime.now(),
        'error_type': message,
        'row_index': row_index
    })

# 数据预处理过程
try:
    # 类型转换错误处理
    raw_data['value'] = pd.to_numeric(raw_data['value'], errors='coerce')
    # 检查缺失值
    if raw_data['value'].isnull().sum() > 0:
        log_error('Missing value detected', 'value_column')
        # 填充缺失值
        raw_data['value'].fillna(0, inplace=True)
        
except Exception as e:
    log_error(f'Conversion error: {str(e)}', 'value_conversion')
    
# 输出错误日志
print("Error Log:")
for log in logger:
    print(log)