用户主页 - 极简博客

开源大模型安全与隐私保护 FatBone 2025-12-24T07:01:19 安全测试 · 数据隐私 · 大模型 +0/-0 9 0

LLM训练数据预处理踩坑记录在大模型训练过程中，数据预处理环节是确保模型安全性和隐私保护的关键步骤。最近在进行训练数据清洗时遇到了几个典型问题，分享如下。 1. 敏感信息泄露风险在数据清洗阶段，我们发现原始数据中包含大量用户个人信息，如...

分布式训练框架优化指南 FatBone 2025-12-24T07:01:19 分布式训练 +0/-0 2 0

GPU资源调度在多卡训练中的应用踩坑记录最近在优化多机多卡训练性能时，遇到了一个令人头疼的问题：GPU资源调度不当导致的训练效率下降。本文记录了我在使用Horovod和PyTorch Distributed框架中踩过的坑。问题现象在配...

大模型测试效率优化策略

开源大模型测试与质量保障 FatBone 2025-12-24T07:01:19 自动化测试 · 质量保障 +0/-0 3 0

大模型测试效率优化策略在大模型测试领域，效率优化是提升质量保障能力的关键。本文将从测试流程、工具集成和自动化实践三个维度，分享可复现的效率优化方法。 1. 测试流程重构采用分层测试策略： bash 构建测试环境 make setup t...

开源大模型微调与部署 FatBone 2025-12-24T07:01:19 资源监控 · 运维最佳实践 +0/-0 3 0

在开源大模型部署过程中，资源监控是确保系统稳定运行的关键环节。然而，在实际操作中，很多工程师会遇到各种踩坑情况。常见问题 1. 监控指标选择不当许多团队在部署初期盲目追求全面监控，结果发现监控指标过多反而造成资源浪费。正确的做法是重点关...

开源大模型微调与部署 FatBone 2025-12-24T07:01:19 数据不平衡 · 模型微调 +0/-0 3 0

开源模型微调时数据集不平衡问题解决方案在开源大模型微调过程中，数据集不平衡是一个常见但容易被忽视的问题。本文将分享几种实用的解决方案，帮助ML工程师在生产环境中有效应对这一挑战。问题分析数据不平衡会导致模型偏向多数类，影响少数类的预测...

大模型安全防护体系 FatBone 2025-12-24T07:01:19 +0/-0 2 0

基于规则的大模型输入安全检查机制验证背景与目标在大模型应用中，恶意输入可能导致模型行为异常或信息泄露。本文验证基于规则的输入安全检查机制，通过构建检测规则集来识别潜在威胁。防御策略我们设计了以下规则集进行输入检查： 1. 关键词过滤...

分布式大模型训练优化 FatBone 2025-12-24T07:01:19 性能调优 · 分布式训练 +0/-0 3 0

大模型训练中的模型容量调优在分布式大模型训练中，模型容量调优是性能瓶颈的关键因素。通过合理的参数配置，我们可以在计算资源和模型精度间找到最佳平衡点。核心调优策略 1. 批次大小优化初始设置：基于GPU显存容量确定基础批次大小调优方法...

开源大模型微调与部署 FatBone 2025-12-24T07:01:19 容错机制 · 生产环境 +0/-0 2 0

在大模型部署实践中，容错能力是保障系统稳定性的关键要素。本文记录了在生产环境部署中构建容错机制的踩坑经验。容错设计要点 1. 超时与重试机制 python import time import requests from functool...

开源大模型训练与推理技术 FatBone 2025-12-24T07:01:19 模型训练 +0/-0 3 0

在大模型训练过程中，模型保存与恢复机制是确保训练连续性和实验可复现性的重要环节。本文将从实践角度分享如何设计一套可靠的模型保存与恢复方案。核心机制设计 1. 检查点保存（Checkpointing）使用PyTorch的 torch.sa...

Linux内核与系统安全 FatBone 2025-12-24T07:01:19 系统安全 · 权限控制 +0/-0 4 0

系统安全审计实战：使用auditd监控敏感操作行为在Linux系统安全防护中，实时监控敏感操作行为是构建纵深防御体系的重要环节。本文将通过实际案例演示如何使用auditd服务来监控系统关键操作。审计配置基础首先确保auditd服务已安...

FatBone