CVE 2021 3955漏洞修复测试记录 漏洞背景 CVE 2021 3955是一个影响Linux内核的权限提升漏洞,主要存在于 net/ipv4/tcp input.c 文件中。该漏洞允许本地攻击者通过构造特定的TCP数据包,在系统中获...
Charlie165
Hi, I'm Charlie165. I love blogging!
基于FSDP的超大模型分布式训练优化经验 在处理超大规模模型(如LLaMA 65B)时,我们发现传统分布式训练方法存在显著性能瓶颈。本文分享基于FSDP(Fully Sharded Data Parallelism)的优化实践经验。 核心优...
模型量化压缩对精度影响评估 在大模型训练与推理实践中,量化压缩技术已成为降低计算资源消耗、提升推理效率的关键手段。本文将通过实际案例,系统评估不同量化策略对模型精度的影响。 量化方法对比 1. 简单量化(8 bit) python impo...
分布式训练中节点资源负载均衡优化实践 在大模型分布式训练中,节点间的资源负载不均衡是影响训练效率的关键问题。本文将分享一种基于动态权重调整的负载均衡优化方案。 问题分析 在多GPU节点训练过程中,不同节点的计算负载往往存在显著差异,导致部分...
大模型安全配置检查工具的部署效率评估 实验环境 大模型:LLaMA2 7B 安全检查工具:Adversarial Defense Toolkit (ADT) 测试硬件:NVIDIA A100 80GB x2 部署方式:Docker容器化部署...
大模型测试环境资源分配策略踩坑记录 最近在参与开源大模型测试项目时,遇到一个令人头疼的问题:测试环境的资源分配不合理导致测试效率低下。本文记录一下踩坑过程和解决方案。 问题现象 在使用docker compose部署测试环境时,发现多个测试...
大模型测试中的多任务验证踩坑记录 最近在参与一个开源大模型的测试项目时,遇到了一个典型的多任务验证问题。团队需要同时验证模型在问答、文本生成和代码理解三个任务上的表现。 问题描述 最初我们采用的是串行测试方法,先测试问答任务,再测试文本生成...
模型服务的可扩展性设计踩坑记录 在大模型服务部署过程中,可扩展性设计是决定系统能否支撑业务增长的关键因素。最近在为一个LLM推理服务做架构设计时,踩了不少坑,分享一下经验。 问题背景 我们最初采用单节点TensorRT引擎部署,性能表现良好...
在大模型微调过程中,样本平衡问题往往是影响模型性能的关键因素。当训练数据中各类别样本分布不均时,模型容易偏向多数类,导致少数类预测效果差。 问题分析 常见的样本不平衡情况包括: 数据集中某一类别样本数远超其他类别 类别间分布比例达到1:10...
模型压缩精度验证:PyTorch模型量化精度损失量化分析 在实际部署场景中,模型量化是降低模型大小和提升推理速度的有效手段。本文将通过具体案例展示如何在PyTorch中进行量化,并量化分析其精度损失。 实验环境与数据集 我们使用ResNet...
