模型训练前的数据格式转换工具比较：CSV vs Parquet vs HDF5

在大模型训练中，数据格式的选择直接影响处理效率与存储成本。本文将从性能、兼容性及实际应用角度对比CSV、Parquet与HDF5三种常见格式。

1. CSV格式 CSV是最基础的数据格式，适合结构化数据的简单存储。其优点是易读、通用性强，但缺点是数据冗余大、解析速度慢。

import pandas as pd
# 读取CSV
df = pd.read_csv('data.csv')
# 写入CSV
df.to_csv('output.csv', index=False)

2. Parquet格式 Parquet是列式存储格式，支持高效压缩和并行处理，适合大规模数据集。在大模型训练中推荐使用。

# 读取Parquet
df = pd.read_parquet('data.parquet')
# 写入Parquet
df.to_parquet('output.parquet')

3. HDF5格式 HDF5适合存储多维数组数据，支持高效的数据分块和压缩，尤其适用于图像、序列等高维特征。

import h5py
# 写入HDF5
with h5py.File('data.h5', 'w') as f:
    f.create_dataset('features', data=features)
# 读取HDF5
with h5py.File('data.h5', 'r') as f:
    features = f['features'][:]

在实际工程中，建议根据数据规模选择格式：小数据集可使用CSV，大数据集优先考虑Parquet，高维特征推荐HDF5。

讨论

选择表情