数据预处理阶段的标准化与归一化策略

在大模型训练过程中，数据预处理阶段的标准化与归一化是影响模型性能的关键环节。本文将系统性地探讨这两种数据转换策略的原理、适用场景及具体实现方法。

标准化（Standardization）

标准化是将数据转换为均值为0、标准差为1的分布，公式为：z = (x - μ) / σ。适用于特征尺度差异较大的情况，特别是当数据近似服从正态分布时。

from sklearn.preprocessing import StandardScaler
import numpy as np

# 示例数据
X = np.array([[1, 2], [3, 4], [5, 6]])

# 创建标准化器
scaler = StandardScaler()
X_standardized = scaler.fit_transform(X)
print(X_standardized)

归一化（Normalization）

归一化将数据缩放到固定范围，通常为[0,1]。常用的方法是Min-Max缩放：(x - min) / (max - min)。

from sklearn.preprocessing import MinMaxScaler

# 创建归一化器
minmax_scaler = MinMaxScaler()
X_normalized = minmax_scaler.fit_transform(X)
print(X_normalized)