用户主页 - 极简博客

模型监控与性能追踪系统 NewEarth 2025-12-24T07:01:19 DevOps · 模型监控 +0/-0 3 0

模型服务请求成功率低于阈值的告警机制在机器学习模型监控中，请求成功率是核心指标之一。当模型服务请求成功率持续低于设定阈值时，表明系统可能存在性能瓶颈或异常情况。监控指标配置 Prometheus监控配置 metric: model re...

开源大模型训练与推理技术 NewEarth 2025-12-24T07:01:19 性能监控 · 开源技术 · 大模型 +0/-0 2 0

在大模型部署过程中，性能监控系统的设计至关重要。本文将分享一个基于Prometheus和Grafana的可复现监控方案。核心组件首先需要部署Prometheus服务端和Grafana可视化面板。使用Docker快速部署： bash 启动...

大模型安全防护体系 NewEarth 2025-12-24T07:01:19 数据完整性 · 安全防护 · 大模型 +0/-0 3 0

大模型训练过程中的数据完整性保护踩坑记录背景最近在参与一个大模型安全项目时，发现训练数据在传输和存储环节存在被篡改的风险。经过调研和实验验证，总结出一套可复现的防护方案。问题重现首先用Python模拟了简单的数据完整性攻击： pyt...

模型压缩与量化技术栈 NewEarth 2025-12-24T07:01:19 边缘计算 +0/-0 3 0

量化部署架构：多层量化模型在边缘计算平台的应用随着AI模型在边缘设备上的广泛应用，模型压缩与量化技术成为关键。本文将通过实际案例展示如何构建一个完整的量化部署架构。架构设计我们采用分层量化策略：第一层为INT8量化（使用TensorF...

分布式训练框架优化指南 NewEarth 2025-12-24T07:01:19 PyTorch · 分布式训练 +0/-0 3 0

在PyTorch分布式训练中，启动阶段的优化对整体性能至关重要。本文将介绍如何通过合理的配置和优化策略来提升分布式训练的启动效率。 1. 启动脚本优化使用torchrun替代传统的python m torch.distributed.la...

分布式大模型训练优化 NewEarth 2025-12-24T07:01:19 分布式训练 +0/-0 4 0

在分布式大模型训练中，数据并行与模型并行是两种核心的并行策略。本文将结合实际调优经验，对比分析这两种方法在生产环境中的表现。数据并行（Data Parallelism）数据并行是最直观的并行方式，每个设备复制完整的模型参数，但处理不同的...

Linux内核与系统安全 NewEarth 2025-12-24T07:01:19 漏洞修复 · 权限控制 +0/-0 3 0

Linux内核漏洞修复流程：从CVE到实际部署的完整指南在Linux系统安全领域，及时修复内核漏洞是保障系统稳定性的关键环节。本文将通过具体案例演示完整的漏洞修复流程。 CVE 2023 XXXX：堆溢出漏洞修复示例 1. 漏洞识别与评估...

Linux内核与系统安全 NewEarth 2025-12-24T07:01:19 系统安全 · Linux内核 · 权限控制 +0/-0 3 0

Ubuntu服务器Web服务安全配置实践在Linux服务器环境中，Web服务是最重要的攻击面之一。本文将通过具体案例展示如何在Ubuntu服务器上实施Web服务安全配置。 1. Nginx安全加固配置首先，编辑nginx.conf文件进...

LLM微调工程化实践 NewEarth 2025-12-24T07:01:19 LoRa +0/-0 3 0

在Adapter微调实践中，训练资源利用效率直接决定了项目成本和迭代速度。最近在尝试使用LoRA+Adapter混合方案时，发现了一个容易被忽视的优化点。问题场景：使用HuggingFace Transformers库进行Qwen微调，...

大模型推理加速技术研究 NewEarth 2025-12-24T07:01:19 Transformer +0/-0 2 0

量化精度损失的数学分析方法在大模型推理加速中，量化技术是降低计算复杂度的关键手段。本文将从数学角度分析量化过程中的精度损失，并提供可复现的实现方案。量化原理与数学建模量化过程可以表示为：$\hat{x} = \text{round}(...

NewEarth