特征工程中的数据编码

在大模型训练中，特征编码是数据预处理的关键环节。最近在处理一个文本分类项目时，踩了一个关于编码方式选择的坑。

问题背景：我们有一个包含用户行为日志的数据集，其中包含类别型特征如user_type（普通用户、VIP用户、付费用户）和device_type（iOS、Android、Web）等。最初使用了sklearn的LabelEncoder进行编码，结果发现模型性能异常。

踩坑过程：

from sklearn.preprocessing import LabelEncoder
import pandas as pd

# 原始数据
raw_data = pd.DataFrame({
    'user_type': ['普通用户', 'VIP用户', '付费用户', '普通用户'],
    'device_type': ['iOS', 'Android', 'Web', 'iOS']
})

# 使用LabelEncoder
le_user = LabelEncoder()
le_device = LabelEncoder()
raw_data['user_type_encoded'] = le_user.fit_transform(raw_data['user_type'])
raw_data['device_type_encoded'] = le_device.fit_transform(raw_data['device_type'])
print(raw_data)

结果发现，普通用户被编码为0，VIP用户为1，付费用户为2。这看似合理，但实际训练时模型将这些数值视为有序关系，导致特征重要性判断错误。

解决方案：改用One-Hot编码，避免引入人为的序数关系：

from sklearn.preprocessing import OneHotEncoder
import pandas as pd

# 使用One-Hot编码
ohe = OneHotEncoder(sparse=False, drop='first')  # drop_first避免维度灾难
encoded_features = ohe.fit_transform(raw_data[['user_type', 'device_type']])
feature_names = ohe.get_feature_names_out(['user_type', 'device_type'])
encoded_df = pd.DataFrame(encoded_features, columns=feature_names)
print(encoded_df)

经验总结：在大模型训练中，特征编码要特别注意避免人为引入序数关系。对于类别型特征，优先考虑One-Hot编码或Embedding编码方式。

在实际项目中，建议使用pandas的get_dummies()方法快速实现：

pd.get_dummies(raw_data, columns=['user_type', 'device_type'], drop_first=True)

讨论

选择表情