用户主页 - 极简博客

Java Spring Boot Actuator监控编程之路的点滴 2025-12-24T07:01:19 Spring Boot · 微服务监控 +0/-0 2 0

在微服务架构中，监控指标管理是确保系统稳定运行的关键环节。Spring Boot Actuator为微服务提供了强大的监控能力。基础配置首先，在 pom.xml 中添加依赖： xml <dependency <groupId org.s...

开源大模型微服务治理编程之路的点滴 2025-12-24T07:01:19 微服务 · 大模型 +0/-0 2 0

大模型微服务部署过程中的资源浪费分析最近在将大模型微服务化改造过程中，遇到了一个典型的资源浪费问题，特此记录踩坑过程。问题现象在使用Kubernetes部署大模型服务时，发现Pod启动后CPU和内存使用率远高于预期。通过 kubect...

分布式大模型训练优化编程之路的点滴 2025-12-24T07:01:19 分布式训练 +0/-0 4 0

使用Tensor Parallel优化参数同步的踩坑记录最近在优化一个分布式大模型训练时，尝试使用Tensor Parallel来减少参数同步开销，结果却踩了不少坑。这里记录一下踩坑过程和最终的解决方案。问题背景我们训练的是一个70B...

开源大模型微调与部署编程之路的点滴 2025-12-24T07:01:19 模型评估 · 大模型微调 +0/-0 4 0

微调后模型的泛化性能评估方法在大模型微调完成后，评估模型的泛化性能是确保其在生产环境中稳定运行的关键步骤。本文将介绍一套完整的评估流程，包括数据准备、指标计算和结果分析。 1. 构建测试集首先需要准备一个独立的测试集，该数据集应满足以下...

开源大模型训练与推理技术编程之路的点滴 2025-12-24T07:01:19 PyTorch +0/-0 2 0

在大模型训练过程中，显存使用率异常是一个常见但棘手的问题。本文将结合实际场景，分享一套系统性的排查方法。问题现象在使用PyTorch进行大模型训练时，观察到显存使用率持续攀升，甚至在某些epoch后出现OOM（Out of Memory...

开源大模型训练与推理技术编程之路的点滴 2025-12-24T07:01:19 深度学习 · 模型训练 · 大模型 +0/-0 2 0

深度学习模型训练稳定性优化经验总结在大模型训练过程中，训练稳定性是影响模型收敛和最终性能的关键因素。本文将分享几个实用的稳定性优化技巧。 1. 学习率调度优化使用余弦退火衰减策略可以有效避免训练震荡： python import tor...

大模型安全防护体系编程之路的点滴 2025-12-24T07:01:19 +0/-0 4 0

大模型安全审计工具使用经验分享在实际工作中，我们团队构建了一套基于对抗样本检测的模型安全防护体系。以下分享几个实用的审计工具和防御策略。 1. 对抗样本检测工具部署 bash pip install adversarial robustn...

开源大模型测试与质量保障编程之路的点滴 2025-12-24T07:01:19 自动化测试 · 质量保障 +0/-0 4 0

大模型测试用例的设计方法在开源大模型测试与质量保障社区中，设计有效的测试用例是确保模型质量的关键环节。本文将介绍一套系统化的测试用例设计方法。测试用例设计原则 1. 覆盖性原则测试用例应覆盖模型的主要功能模块，包括输入输出处理、推理能...

开源大模型训练与推理技术编程之路的点滴 2025-12-24T07:01:19 推理优化 +0/-0 2 0

在现代推理系统中，多模型协同机制已成为提升性能的关键技术。本文将探讨如何构建一个高效的多模型推理系统，并提供可复现的实现方案。核心概念多模型协同指的是在推理过程中同时利用多个不同模型的优势，通过模型融合、任务分配等方式提升整体性能。常见...

LLM模型输入处理防御

大模型安全防护体系编程之路的点滴 2025-12-24T07:01:19 +0/-0 4 0

LLM模型输入处理防御实战记录背景最近在测试一个问答系统时，发现攻击者可以通过构造特殊输入来绕过模型的安全防护。经过深入分析，决定实施输入处理防御机制。防御策略采用输入规范化+恶意字符过滤的双重防护方案： python import...

编程之路的点滴