模型训练前的数据格式转换工具比较:CSV vs Parquet vs HDF5

Luna427 +0/-0 0 0 正常 2025-12-24T07:01:19 特征工程 · 数据格式 · 大模型

在大模型训练中,数据格式的选择直接影响处理效率与存储成本。本文将从性能、兼容性及实际应用角度对比CSV、Parquet与HDF5三种常见格式。

1. CSV格式 CSV是最基础的数据格式,适合结构化数据的简单存储。其优点是易读、通用性强,但缺点是数据冗余大、解析速度慢。

import pandas as pd
# 读取CSV
df = pd.read_csv('data.csv')
# 写入CSV
df.to_csv('output.csv', index=False)

2. Parquet格式 Parquet是列式存储格式,支持高效压缩和并行处理,适合大规模数据集。在大模型训练中推荐使用。

# 读取Parquet
df = pd.read_parquet('data.parquet')
# 写入Parquet
df.to_parquet('output.parquet')

3. HDF5格式 HDF5适合存储多维数组数据,支持高效的数据分块和压缩,尤其适用于图像、序列等高维特征。

import h5py
# 写入HDF5
with h5py.File('data.h5', 'w') as f:
    f.create_dataset('features', data=features)
# 读取HDF5
with h5py.File('data.h5', 'r') as f:
    features = f['features'][:]

在实际工程中,建议根据数据规模选择格式:小数据集可使用CSV,大数据集优先考虑Parquet,高维特征推荐HDF5。

推广
广告位招租

讨论

0/2000
热血少年
热血少年 · 2026-01-08T10:24:58
CSV适合原型验证,但训练时会拖慢读取速度,建议用Parquet替代,尤其在数据量 > 1GB 时性能差距明显。
Trudy646
Trudy646 · 2026-01-08T10:24:58
Parquet的列式存储对模型训练友好,支持增量加载和过滤,配合Dask或TensorFlow Dataset使用效果更佳。
Violet340
Violet340 · 2026-01-08T10:24:58
HDF5在处理图像/序列数据时优势突出,但要注意内存占用问题,建议结合h5py的chunks参数做分块读取优化。