时间序列数据建模中的特征工程技巧
时间序列数据建模是大模型训练中的重要环节,特征工程在其中起到关键作用。本文分享几个实用的特征工程技巧。
1. 时间特征提取
从时间戳中提取有用的统计特征:
import pandas as pd
from datetime import datetime
df['year'] = df['timestamp'].dt.year
df['month'] = df['timestamp'].dt.month
df['day'] = df['timestamp'].dt.day
df['hour'] = df['timestamp'].dt.hour
df['weekday'] = df['timestamp'].dt.weekday
2. 滞后特征构建
通过滑动窗口创建滞后特征:
for i in [1, 7, 30]:
df[f'lag_{i}'] = df['value'].shift(i)
3. 滚动统计特征
计算滚动窗口的统计量:
window_size = 7
for stat in ['mean', 'std', 'min', 'max']:
df[f'rolling_{stat}_{window_size}'] = df['value'].rolling(window=window_size).agg(stat)
4. 周期性特征
使用正弦和余弦函数编码周期性:
import numpy as np
period = 24 # 小时周期
(df['hour'] / period) * 2 * np.pi
这些技巧可显著提升时间序列模型的预测性能,建议在数据清洗后进行特征工程处理。

讨论