特征工程中的时间序列建模技巧

Arthur118 +0/-0 0 0 正常 2025-12-24T07:01:19 特征工程 · 时间序列 · 大模型

时间序列特征工程实战指南

在大模型训练中,时间序列数据的特征工程是决定模型性能的关键环节。本文将分享几个实用的时间序列建模技巧。

1. 滞后特征构造

滞后特征是时间序列分析的基础,能够捕捉数据的时序依赖性:

import pandas as pd
import numpy as np

df['lag_1'] = df['value'].shift(1)
df['lag_3'] = df['value'].shift(3)
df['lag_7'] = df['value'].shift(7)

2. 滚动窗口统计特征

通过滑动窗口计算统计量,能够提取数据的趋势和波动性信息:

# 移动平均
 df['rolling_mean_7'] = df['value'].rolling(window=7).mean()
# 标准差
df['rolling_std_7'] = df['value'].rolling(window=7).std()
# 最大值和最小值
 df['rolling_max_7'] = df['value'].rolling(window=7).max()

3. 时间周期性特征

利用时间的周期性构造特征,如星期几、月份等:

 df['day_of_week'] = df['date'].dt.dayofweek
 df['month'] = df['date'].dt.month
 df['hour'] = df['date'].dt.hour

4. 差分特征

通过差分消除趋势和季节性:

# 一阶差分
 df['diff_1'] = df['value'].diff(1)
# 季节性差分
 df['seasonal_diff'] = df['value'].diff(12)

这些特征工程技巧可以有效提升大模型对时间序列数据的建模能力,建议在实际应用中结合具体业务场景进行组合使用。

推广
广告位招租

讨论

0/2000
George322
George322 · 2026-01-08T10:24:58
滞后特征确实很关键,我一般会先看ACF图确定滞后阶数,再结合业务理解来构造 lag_1、lag_3 等,别盲目堆特征。
蓝色海洋
蓝色海洋 · 2026-01-08T10:24:58
滚动窗口统计量别忘了做标准化,不然模型容易被方差大的窗口特征主导,建议加个 rolling_std_7 / rolling_mean_7 的比值特征。
WildDog
WildDog · 2026-01-08T10:24:58
时间周期性特征一定要和数据频率匹配,比如小时数据做 month 就没意义了,我习惯用 pd.get_dummies 做周期性编码,效果更好。