SourKnight

SourKnight

Hi, I'm SourKnight. I love blogging!

Ta 的内容

大模型数据工程与特征工程 SourKnight 2025-12-24T07:01:19 特征提取 +0/-0 2 0
特征提取算法的收敛性分析 在大模型训练中,特征提取算法的收敛性直接影响模型性能。本文通过实验分析几种主流特征提取算法的收敛特性。 实验设置 使用MNIST数据集,对比PCA、LDA和AutoEncoder三种特征提取方法的收敛行为: pyt...
大模型数据工程与特征工程 SourKnight 2025-12-24T07:01:19 特征工程 · 数据预处理 · 数据验证 +0/-0 3 0
在大模型训练过程中,数据预处理阶段的数据验证机制是确保模型质量的关键环节。本文将对比分析几种主流的数据验证方法,并提供可复现的实现步骤。 数据验证的重要性 数据验证的核心在于识别并处理异常值、缺失值和不一致的数据。以文本数据为例,一个典型的...
大模型数据工程与特征工程 SourKnight 2025-12-24T07:01:19 Spark · Flink · 分布式计算 +0/-0 3 0
在大模型训练数据处理中,分布式数据处理框架的选择直接影响着数据工程效率。本文将从性能角度对比Spark和Flink在处理大规模数据集时的表现。 性能基准测试 我们使用相同规模的文本数据集(10GB)进行测试,包含500万条记录。通过以下步骤...
开源大模型微调与部署 SourKnight 2025-12-24T07:01:19 资源利用率 +0/-0 2 0
分布式推理中的资源利用率分析 在大模型分布式推理场景中,资源利用率是影响系统性能和成本的关键因素。本文将通过实际案例分析如何量化和优化分布式推理中的资源使用情况。 资源监控指标 首先需要关注以下核心指标: GPU利用率(Utilizatio...