在大模型训练中,数据格式的选择直接影响处理效率与存储成本。本文将从性能、兼容性及实际应用角度对比CSV、Parquet与HDF5三种常见格式。
1. CSV格式 CSV是最基础的数据格式,适合结构化数据的简单存储。其优点是易读、通用性强,但缺点是数据冗余大、解析速度慢。
import pandas as pd
# 读取CSV
df = pd.read_csv('data.csv')
# 写入CSV
df.to_csv('output.csv', index=False)
2. Parquet格式 Parquet是列式存储格式,支持高效压缩和并行处理,适合大规模数据集。在大模型训练中推荐使用。
# 读取Parquet
df = pd.read_parquet('data.parquet')
# 写入Parquet
df.to_parquet('output.parquet')
3. HDF5格式 HDF5适合存储多维数组数据,支持高效的数据分块和压缩,尤其适用于图像、序列等高维特征。
import h5py
# 写入HDF5
with h5py.File('data.h5', 'w') as f:
f.create_dataset('features', data=features)
# 读取HDF5
with h5py.File('data.h5', 'r') as f:
features = f['features'][:]
在实际工程中,建议根据数据规模选择格式:小数据集可使用CSV,大数据集优先考虑Parquet,高维特征推荐HDF5。

讨论