特征选择算法在实际应用中的效果验证

在大模型训练中，特征选择是提升模型性能和效率的关键环节。本文通过实际案例验证几种主流特征选择算法的效果。

实验环境与数据准备

使用Python 3.8，scikit-learn 1.2.0，pandas 1.5.0。

import pandas as pd
from sklearn.datasets import load_boston
from sklearn.feature_selection import SelectKBest, f_regression, mutual_info_regression
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# 加载数据
boston = load_boston()
df = pd.DataFrame(boston.data, columns=boston.feature_names)
df['target'] = boston.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(
    df.drop('target', axis=1), df['target'], test_size=0.2, random_state=42
)

三种特征选择算法对比

1. 基于统计的特征选择（SelectKBest + f_regression）

# 选择前10个最优特征
selector1 = SelectKBest(score_func=f_regression, k=10)
X_train_selected1 = selector1.fit_transform(X_train, y_train)
X_test_selected1 = selector1.transform(X_test)

2. 基于互信息的特征选择（mutual_info_regression）

# 选择前10个最优特征
selector2 = SelectKBest(score_func=mutual_info_regression, k=10)
X_train_selected2 = selector2.fit_transform(X_train, y_train)
X_test_selected2 = selector2.transform(X_test)

3. 递归特征消除（RFE）

from sklearn.feature_selection import RFE
from sklearn.linear_model import LinearRegression

# 使用线性回归进行RFE
estimator = LinearRegression()
rfe = RFE(estimator, n_features_to_select=10)
X_train_selected3 = rfe.fit_transform(X_train, y_train)
X_test_selected3 = rfe.transform(X_test)

模型性能评估

# 评估各方法的MSE
models_mse = {}
for i, (name, X_train_sel, X_test_sel) in enumerate([
    ('统计方法', X_train_selected1, X_test_selected1),
    ('互信息', X_train_selected2, X_test_selected2),
    ('RFE', X_train_selected3, X_test_selected3)
]):
    model = LinearRegression()
    model.fit(X_train_sel, y_train)
    pred = model.predict(X_test_sel)
    mse = mean_squared_error(y_test, pred)
    models_mse[name] = mse
    print(f'{name}: MSE = {mse:.2f}')