用户主页 - 极简博客

开源大模型安全与隐私保护 Bob137 2025-12-24T07:01:19 隐私保护 +0/-0 2 0

大模型配置文件安全加固指南在大模型部署过程中，配置文件是安全防护的关键环节。本文将介绍如何通过合理的配置加固来提升模型安全性。配置文件敏感信息保护首先需要识别并移除配置文件中的敏感信息： yaml 危险的配置示例 api key: "...

开源大模型微服务治理 Bob137 2025-12-24T07:01:19 Prometheus · monitoring · LLM +0/-0 4 0

基于Prometheus的LLM服务监控面板构建在大模型微服务化改造过程中，监控体系的建设至关重要。本文记录了为LLM服务搭建Prometheus监控面板的踩坑历程。环境准备首先安装必要的组件： bash 安装Prometheus w...

开源大模型微调与部署 Bob137 2025-12-24T07:01:19 模型微调 +0/-0 3 0

在Stable Diffusion微调过程中，图像质量不稳定是一个常见问题。本文将分享几种有效的解决方法。问题分析微调时出现的图像质量波动主要源于学习率设置不当、训练轮数不足或数据集偏差。建议从以下几方面入手： 1. 学习率调整使用较...

开源大模型训练与推理技术 Bob137 2025-12-24T07:01:19 +0/-0 2 0

大模型训练中的模型保存与恢复策略在大模型训练过程中，模型的保存与恢复是确保训练连续性和结果可复现的关键环节。特别是在训练时间长、资源消耗大的场景下，合理的模型管理策略能有效避免因意外中断导致的计算资源浪费。 1. 常见保存策略对比策略一...

开源大模型训练与推理技术 Bob137 2025-12-24T07:01:19 PyTorch · 故障恢复 · 分布式训练 +0/-0 4 0

分布式训练中节点故障自动恢复机制实现踩坑记录最近在参与一个大规模分布式模型训练项目时，遇到了一个非常头疼的问题：训练过程中某个节点突然宕机，导致整个训练中断。虽然有checkpoint机制，但手动重启和状态恢复太费时间了。于是决定研究下如...

开源大模型微服务治理 Bob137 2025-12-24T07:01:19 微服务 · 资源调度 · 大模型 +0/-0 2 0

在大模型服务治理中，资源限制与调度策略的调优是保障系统稳定性和性能的关键环节。本文将结合开源大模型微服务化改造实践，探讨如何通过合理的资源配置和调度策略来优化服务表现。资源限制配置以Kubernetes为例，我们可以通过Resource...

模型压缩与量化技术栈 Bob137 2025-12-24T07:01:19 模型压缩 +0/-0 3 0

量化算法优化技巧：提高量化精度的关键方法在模型部署实践中，量化精度的提升是模型轻量化的核心挑战。本文分享几种可复现的量化优化技巧。 1. 量化范围优化使用TensorFlow Lite的动态范围量化时，可通过调整激活值范围来提升精度： ...

分布式训练框架优化指南 Bob137 2025-12-24T07:01:19 分布式训练 +0/-0 2 0

分布式训练网络协议选择指南在多机多卡训练中，网络协议的选择直接影响训练性能。本文将深入分析不同协议的适用场景和配置方法。协议对比 TCP协议 TCP协议简单可靠，适用于大多数场景。配置示例： bash Horovod启动命令 horov...

多任务LoRA微调效果验证

LLM微调工程化实践 Bob137 2025-12-24T07:01:19 LoRa · Adapter +0/-0 3 0

多任务LoRA微调效果验证在大语言模型的工程化实践中，多任务LoRA微调已成为提升模型泛化能力的重要手段。本文将分享一个完整的多任务LoRA微调方案，通过实际案例验证其效果。实践背景针对文本分类、问答和摘要三个任务，我们采用LoRA方...

大模型推理加速技术研究 Bob137 2025-12-24T07:01:19 ONNX Runtime +0/-0 2 0

使用ONNX Runtime进行推理加速调优在Transformer模型推理优化中，ONNX Runtime（ORT）已成为重要的加速工具。本文将通过具体案例展示如何使用ORT进行推理加速调优。环境准备 bash pip install...

Bob137