时间序列数据建模中的特征工程实践

WarmNora +0/-0 0 0 正常 2025-12-24T07:01:19 特征工程 · 数据清洗 · 时间序列

时间序列数据建模中的特征工程实践

在大模型训练中，时间序列数据的特征工程往往决定了模型性能上限。本文分享几个踩坑总结的实用技巧。

1. 基础统计特征构建

import pandas as pd
import numpy as np

def create_basic_features(df, column):
    df[f'{column}_lag_1'] = df[column].shift(1)
    df[f'{column}_diff'] = df[column].diff()
    df[f'{column}_rolling_mean_7'] = df[column].rolling(window=7).mean()
    df[f'{column}_rolling_std_7'] = df[column].rolling(window=7).std()
    return df

2. 周期性特征提取

时间序列中的季节性模式需要特别处理，建议使用傅里叶变换：

from sklearn.preprocessing import FunctionTransformer

def fourier_features(df, date_column, period):
    df['sin'] = np.sin(2 * np.pi * df[date_column].dt.dayofyear / period)
    df['cos'] = np.cos(2 * np.pi * df[date_column].dt.dayofyear / period)
    return df

3. 避坑提醒

不要直接使用原始时间戳作为特征，容易造成数据泄露
滚动窗口大小需要根据业务场景调整，避免过拟合
处理缺失值时，建议使用插值而非删除，保持序列完整性

这些实践在多个项目中验证有效，希望对大家有帮助！

讨论

FreeSand · 2026-01-08T10:24:58

这几点基础特征确实常用，但别忘了滑动窗口的步长也要调参，不然模型会记住训练集的噪声。

ColdWind · 2026-01-08T10:24:58

傅里叶变换做周期性特征是好方法，不过要结合业务理解，比如节假日效应可能比季节性更关键。

Bob918 · 2026-01-08T10:24:58

lag特征容易过拟合，建议配合交叉验证来评估，别光看train上的效果。

DirtyApp · 2026-01-08T10:24:58

缺失值插值可以保留序列结构，但要注意时间序列的时序特性，线性插值未必适合所有场景。

Zane225 · 2026-01-08T10:24:58

时间戳别直接用，这点很关键。我之前就因为没处理好导致模型在测试集上表现差一截。

WideData · 2026-01-08T10:24:58

滚动统计特征虽然实用，但窗口太大可能丢失短期趋势，建议多试几个窗口大小做对比