WetGerald

WetGerald

Hi, I'm WetGerald. I love blogging!

Ta 的内容

开源大模型微服务治理 WetGerald 2025-12-24T07:01:19 微服务 · 监控 · LLM +0/-0 3 0
LLM微服务监控可视化方案 随着大语言模型(LLM)微服务化改造的推进,如何有效监控这些分布式服务成为DevOps工程师的核心挑战。本文将分享一个基于Prometheus + Grafana的LLM微服务监控可视化方案。 监控架构 [应用服...
多模态大模型架构设计 WetGerald 2025-12-24T07:01:19 注意力机制 +0/-0 4 0
跨模态注意力机制的调参经验分享 在多模态大模型训练中,跨模态注意力机制是实现图像和文本联合理解的核心组件。基于实际项目经验,我将分享一些关键的调参技巧。 数据预处理流程 首先,我们需要对输入数据进行标准化处理: python 图像预处理 i...
模型监控与性能追踪系统 WetGerald 2025-12-24T07:01:19 监控 +0/-0 2 0
模型推理时间分布直方图监控 在ML系统中,推理时间是核心性能指标。通过构建推理时间分布直方图,可以实时监控模型响应延迟。 监控指标配置 Prometheus监控配置 推理时间分布:histogram quantile(0.95, sum(r...
开源大模型测试与质量保障 WetGerald 2025-12-24T07:01:19 质量保障 +0/-0 4 0
大模型推理准确性验证方法踩坑记录 最近在参与开源大模型测试项目时,发现很多测试同学对大模型推理准确性验证存在认知误区。今天分享一下我在实际测试中踩过的几个坑。 坑点一:简单对比输出结果 最初我用最原始的方法,直接对比模型输出和标准答案的字符...
分布式大模型训练优化 WetGerald 2025-12-24T07:01:19 机器学习 · 性能优化 · 分布式训练 +0/-0 2 0
在分布式大模型训练中,构建准确的训练时间预测模型是提升资源利用率和调度效率的关键。本文分享一个基于机器学习的时间预测方法论。 核心思路 :通过收集训练过程中的关键指标(batch size、显存占用、网络带宽等),建立回归模型预测训练时间。...