内核漏洞修复对比分析:不同发行版对CVE 2021 3953的处理差异 漏洞概述 CVE 2021 3953是一个影响Linux内核的权限提升漏洞,存在于内核的net/ipv4/tcp input.c文件中。该漏洞允许本地攻击者通过特定的T...
Quincy715
Hi, I'm Quincy715. I love blogging!
量化精度保持方法论:通过微调和知识蒸馏提升INT8模型性能 在实际部署中,INT8量化带来的精度下降是普遍问题。本文分享一个可复现的解决方案。 问题背景 使用TensorRT对ResNet50进行INT8量化后,准确率从76.8%下降到72...
大模型微服务治理的可观测性建设思路 在大模型微服务化改造过程中,可观测性已成为治理的核心要素。本文分享我们在实践中踩过的坑和总结的建设思路。 核心问题 我们最初采用传统的日志收集方案,但发现当模型服务实例数从10个增长到100个时,日志采集...
在大模型推理场景中,性能优化是关键挑战。本文将从模型压缩、量化策略到硬件适配等方面,分享实用的加速技巧。 模型剪枝与蒸馏 剪枝是减少模型参数的有效方法。以PyTorch为例,我们可以使用 torch.nn.utils.prune 进行结构化...
推理服务响应时间控制方法总结 在大模型推理服务中,响应时间是用户体验的核心指标。本文总结了从模型优化到系统调优的完整响应时间控制方案。 1. 模型层面优化 模型量化压缩 :通过INT8量化可将模型大小减小4倍,同时保持95%以上的精度。使用...
在Linux系统中,传统的文件权限模型(rwx)虽然强大,但在复杂访问控制场景下存在局限性。访问控制列表(ACL)机制为系统管理员提供了更精细的权限管理手段。 ACL基础概念 ACL允许为文件或目录设置多个用户和组的权限,突破了传统ugo权...
大模型对抗攻击防御系统性能对比测试 测试背景 针对大模型面临的对抗攻击威胁,我们对比了四种主流防御策略:对抗训练、输入净化、梯度屏蔽和模型蒸馏。测试环境为PyTorch 2.0,CUDA 11.8,NVIDIA RTX 4090显卡。 防御...
量化部署实践:在ARM架构上的量化模型部署方案 背景与目标 针对ARM架构设备的AI模型部署,本文提供一套完整的量化部署方案。通过TensorFlow Lite和ONNX Runtime的组合,实现模型从训练到部署的完整量化流程。 具体实施...
模型部署中GPU利用率提升方案 在PyTorch模型部署过程中,GPU利用率低是常见问题。本文提供一套实用的优化方案。 1. 批处理优化 python 原始代码 model.eval() with torch.no grad(): for ...
在大模型部署测试过程中,我们遵循从单元测试到压力测试的完整流程,确保模型在生产环境中的稳定性和性能表现。 单元测试阶段 首先进行模型基础功能验证,通过以下代码确保核心逻辑正确: python import torch from transf...
