用户主页 - 极简博客

Linux内核与系统安全 Charlie165 2025-12-24T07:01:19 漏洞修复 · Linux内核 · 安全加固 +0/-0 2 0

CVE 2021 3955漏洞修复测试记录漏洞背景 CVE 2021 3955是一个影响Linux内核的权限提升漏洞，主要存在于 net/ipv4/tcp input.c 文件中。该漏洞允许本地攻击者通过构造特定的TCP数据包，在系统中获...

分布式大模型训练优化 Charlie165 2025-12-24T07:01:19 分布式训练 +0/-0 2 0

基于FSDP的超大模型分布式训练优化经验在处理超大规模模型（如LLaMA 65B）时，我们发现传统分布式训练方法存在显著性能瓶颈。本文分享基于FSDP（Fully Sharded Data Parallelism）的优化实践经验。核心优...

开源大模型训练与推理技术 Charlie165 2025-12-24T07:01:19 模型压缩 +0/-0 3 0

模型量化压缩对精度影响评估在大模型训练与推理实践中，量化压缩技术已成为降低计算资源消耗、提升推理效率的关键手段。本文将通过实际案例，系统评估不同量化策略对模型精度的影响。量化方法对比 1. 简单量化（8 bit） python impo...

开源大模型训练与推理技术 Charlie165 2025-12-24T07:01:19 负载均衡 · 资源优化 · 分布式训练 +0/-0 4 0

分布式训练中节点资源负载均衡优化实践在大模型分布式训练中，节点间的资源负载不均衡是影响训练效率的关键问题。本文将分享一种基于动态权重调整的负载均衡优化方案。问题分析在多GPU节点训练过程中，不同节点的计算负载往往存在显著差异，导致部分...

大模型安全防护体系 Charlie165 2025-12-24T07:01:19 部署优化 +0/-0 4 0

大模型安全配置检查工具的部署效率评估实验环境大模型：LLaMA2 7B 安全检查工具：Adversarial Defense Toolkit (ADT) 测试硬件：NVIDIA A100 80GB x2 部署方式：Docker容器化部署...

开源大模型测试与质量保障 Charlie165 2025-12-24T07:01:19 资源分配 +0/-0 2 0

大模型测试环境资源分配策略踩坑记录最近在参与开源大模型测试项目时，遇到一个令人头疼的问题：测试环境的资源分配不合理导致测试效率低下。本文记录一下踩坑过程和解决方案。问题现象在使用docker compose部署测试环境时，发现多个测试...

开源大模型测试与质量保障 Charlie165 2025-12-24T07:01:19 自动化测试 · 质量保障 +0/-0 2 0

大模型测试中的多任务验证踩坑记录最近在参与一个开源大模型的测试项目时，遇到了一个典型的多任务验证问题。团队需要同时验证模型在问答、文本生成和代码理解三个任务上的表现。问题描述最初我们采用的是串行测试方法，先测试问答任务，再测试文本生成...

模型服务的可扩展性设计

开源大模型微调与部署 Charlie165 2025-12-24T07:01:19 生产环境 · 可扩展性设计 +0/-0 4 0

模型服务的可扩展性设计踩坑记录在大模型服务部署过程中，可扩展性设计是决定系统能否支撑业务增长的关键因素。最近在为一个LLM推理服务做架构设计时，踩了不少坑，分享一下经验。问题背景我们最初采用单节点TensorRT引擎部署，性能表现良好...

开源大模型微调与部署 Charlie165 2025-12-24T07:01:19 数据处理 · 模型微调 +0/-0 3 0

在大模型微调过程中，样本平衡问题往往是影响模型性能的关键因素。当训练数据中各类别样本分布不均时，模型容易偏向多数类，导致少数类预测效果差。问题分析常见的样本不平衡情况包括：数据集中某一类别样本数远超其他类别类别间分布比例达到1:10...

PyTorch深度学习模型优化实战 Charlie165 2025-12-24T07:01:19 PyTorch · 模型压缩 +0/-0 4 0

模型压缩精度验证：PyTorch模型量化精度损失量化分析在实际部署场景中，模型量化是降低模型大小和提升推理速度的有效手段。本文将通过具体案例展示如何在PyTorch中进行量化，并量化分析其精度损失。实验环境与数据集我们使用ResNet...

Charlie165