用户主页 - 极简博客

大模型架构设计与系统优化 Rose116 2025-12-24T07:01:19 Grafana · 监控 · 大模型 +0/-0 3 0

基于Grafana的大模型服务监控实践在大模型服务部署过程中，监控体系的建设至关重要。本文分享一个基于Grafana的完整监控实践方案。监控指标设计首先确定核心监控指标：模型推理延迟：通过 model inference dura...

大模型数据工程与特征工程 Rose116 2025-12-24T07:01:19 版本控制 · 数据清洗 +0/-0 2 0

数据清洗过程中的版本控制策略在大模型训练数据工程中，数据清洗是至关重要的一环。随着数据集规模的增长和团队协作的复杂化，如何有效管理清洗过程中的版本变更变得尤为关键。核心问题数据清洗往往涉及多个迭代步骤：数据质量检查、异常值处理、缺失值...

大模型数据工程与特征工程 Rose116 2025-12-24T07:01:19 特征工程 · 数据工程 · 大模型 +0/-0 3 0

大模型数据处理的可扩展架构设计在大模型训练过程中，数据处理是决定模型效果的关键环节。本文将介绍一个可扩展的数据处理架构设计，帮助数据科学家高效处理大规模数据集。架构概览我们采用分层处理架构，包括： 1. 数据接入层（Data Inge...

大模型数据集版本控制

大模型数据工程与特征工程 Rose116 2025-12-24T07:01:19 特征工程 · 数据工程 · 大模型 +0/-0 4 0

在大模型训练过程中，数据集的版本控制是确保实验可复现性和项目管理的关键环节。本文将介绍如何在大模型数据工程中实施有效的版本控制策略。版本控制的重要性大模型训练数据通常包含数百万甚至数十亿条样本，数据的微小变化可能导致模型性能的巨大差异。...

大模型数据清洗最佳实践

大模型数据工程与特征工程 Rose116 2025-12-24T07:01:19 特征工程 · 数据清洗 · 大模型 +0/-0 4 0

大模型数据清洗最佳实践在大模型训练过程中，数据质量直接影响模型性能。本文分享一套可复现的数据清洗流程。 1. 数据质量评估首先进行基础统计分析： python import pandas as pd import numpy as np...

特征提取技术实践分享

大模型数据工程与特征工程 Rose116 2025-12-24T07:01:19 数据清洗 · 特征提取 +0/-0 2 0

特征提取技术实践分享最近在处理大模型训练数据时，踩了不少坑，今天来分享一下特征提取的心得。首先，不要盲目追求高维特征，我之前尝试用原始文本直接做embedding，结果训练效果惨不忍睹。我的踩坑经历 1. 文本预处理：使用了spaCy...

开源大模型微调与部署 Rose116 2025-12-24T07:01:19 +0/-0 4 0

在大模型部署过程中，GPU驱动版本不兼容是一个常见但棘手的问题。本文将通过对比不同解决方案，帮助ML工程师快速定位并解决该问题。问题现象当部署如LLaMA、ChatGLM等大模型时，若GPU驱动版本与CUDA版本不匹配，会出现如下错误：...

开源大模型微服务治理 Rose116 2025-12-24T07:01:19 微服务 · 链路追踪 · LLM +0/-0 2 0

在大模型微服务化改造过程中，链路追踪是保障系统可观测性的关键环节。本文分享如何通过OpenTelemetry实现LLM微服务调用链路分析。实践背景当我们将大模型服务拆分为多个微服务后，服务间的调用关系变得复杂，传统的日志分析已难以满足快...

大模型数据工程与特征工程 Rose116 2025-12-24T07:01:19 特征工程 · 数据质量 · 大模型 +0/-0 3 0

构建数据质量监控体系的技术要点在大模型训练过程中，数据质量直接影响模型性能。本文将分享构建数据质量监控体系的关键技术要点。数据质量评估维度数据质量监控应涵盖以下维度：完整性：检查缺失值、空值比例一致性：验证数据格式、编码统一性...

分布式大模型训练优化 Rose116 2025-12-24T07:01:19 性能优化 · 分布式训练 +0/-0 2 0

大规模训练中的模型切片技术分享在分布式大模型训练中，模型切片是提升训练效率的关键优化手段。本文分享几个实用的切片策略和调优经验。切片维度选择对于Transformer模型，我们通常采用以下切片策略： python 按层数切片示例 mo...

Rose116