Rose116

Rose116

Hi, I'm Rose116. I love blogging!

Ta 的内容

大模型数据工程与特征工程 Rose116 2025-12-24T07:01:19 版本控制 · 数据清洗 +0/-0 2 0
数据清洗过程中的版本控制策略 在大模型训练数据工程中,数据清洗是至关重要的一环。随着数据集规模的增长和团队协作的复杂化,如何有效管理清洗过程中的版本变更变得尤为关键。 核心问题 数据清洗往往涉及多个迭代步骤:数据质量检查、异常值处理、缺失值...
大模型数据工程与特征工程 Rose116 2025-12-24T07:01:19 特征工程 · 数据工程 · 大模型 +0/-0 4 0
在大模型训练过程中,数据集的版本控制是确保实验可复现性和项目管理的关键环节。本文将介绍如何在大模型数据工程中实施有效的版本控制策略。 版本控制的重要性 大模型训练数据通常包含数百万甚至数十亿条样本,数据的微小变化可能导致模型性能的巨大差异。...
大模型数据工程与特征工程 Rose116 2025-12-24T07:01:19 数据清洗 · 特征提取 +0/-0 2 0
特征提取技术实践分享 最近在处理大模型训练数据时,踩了不少坑,今天来分享一下特征提取的心得。首先,不要盲目追求高维特征,我之前尝试用原始文本直接做embedding,结果训练效果惨不忍睹。 我的踩坑经历 1. 文本预处理 :使用了spaCy...
开源大模型微调与部署 Rose116 2025-12-24T07:01:19 +0/-0 4 0
在大模型部署过程中,GPU驱动版本不兼容是一个常见但棘手的问题。本文将通过对比不同解决方案,帮助ML工程师快速定位并解决该问题。 问题现象 当部署如LLaMA、ChatGLM等大模型时,若GPU驱动版本与CUDA版本不匹配,会出现如下错误:...
开源大模型微服务治理 Rose116 2025-12-24T07:01:19 微服务 · 链路追踪 · LLM +0/-0 2 0
在大模型微服务化改造过程中,链路追踪是保障系统可观测性的关键环节。本文分享如何通过OpenTelemetry实现LLM微服务调用链路分析。 实践背景 当我们将大模型服务拆分为多个微服务后,服务间的调用关系变得复杂,传统的日志分析已难以满足快...
大模型数据工程与特征工程 Rose116 2025-12-24T07:01:19 特征工程 · 数据质量 · 大模型 +0/-0 3 0
构建数据质量监控体系的技术要点 在大模型训练过程中,数据质量直接影响模型性能。本文将分享构建数据质量监控体系的关键技术要点。 数据质量评估维度 数据质量监控应涵盖以下维度: 完整性 :检查缺失值、空值比例 一致性 :验证数据格式、编码统一性...