用户主页 - 极简博客

Linux内核与系统安全 Quincy715 2025-12-24T07:01:19 系统安全 · Linux内核 +0/-0 2 0

内核漏洞修复对比分析：不同发行版对CVE 2021 3953的处理差异漏洞概述 CVE 2021 3953是一个影响Linux内核的权限提升漏洞，存在于内核的net/ipv4/tcp input.c文件中。该漏洞允许本地攻击者通过特定的T...

模型压缩与量化技术栈 Quincy715 2025-12-24T07:01:19 模型压缩 · 知识蒸馏 +0/-0 2 0

量化精度保持方法论：通过微调和知识蒸馏提升INT8模型性能在实际部署中，INT8量化带来的精度下降是普遍问题。本文分享一个可复现的解决方案。问题背景使用TensorRT对ResNet50进行INT8量化后，准确率从76.8%下降到72...

开源大模型微服务治理 Quincy715 2025-12-24T07:01:19 微服务 · DevOps · 可观测性 · 治理 · 大模型 +0/-0 2 0

大模型微服务治理的可观测性建设思路在大模型微服务化改造过程中，可观测性已成为治理的核心要素。本文分享我们在实践中踩过的坑和总结的建设思路。核心问题我们最初采用传统的日志收集方案，但发现当模型服务实例数从10个增长到100个时，日志采集...

开源大模型训练与推理技术 Quincy715 2025-12-24T07:01:19 模型压缩 · 硬件适配 · 推理优化 +0/-0 3 0

在大模型推理场景中，性能优化是关键挑战。本文将从模型压缩、量化策略到硬件适配等方面，分享实用的加速技巧。模型剪枝与蒸馏剪枝是减少模型参数的有效方法。以PyTorch为例，我们可以使用 torch.nn.utils.prune 进行结构化...

开源大模型训练与推理技术 Quincy715 2025-12-24T07:01:19 响应时间优化 · 模型优化 +0/-0 4 0

推理服务响应时间控制方法总结在大模型推理服务中，响应时间是用户体验的核心指标。本文总结了从模型优化到系统调优的完整响应时间控制方案。 1. 模型层面优化模型量化压缩：通过INT8量化可将模型大小减小4倍，同时保持95%以上的精度。使用...

Linux内核与系统安全 Quincy715 2025-12-24T07:01:19 访问控制 · ACL · Linux安全 +0/-0 3 0

在Linux系统中，传统的文件权限模型（rwx）虽然强大，但在复杂访问控制场景下存在局限性。访问控制列表（ACL）机制为系统管理员提供了更精细的权限管理手段。 ACL基础概念 ACL允许为文件或目录设置多个用户和组的权限，突破了传统ugo权...

大模型安全防护体系 Quincy715 2025-12-24T07:01:19 +0/-0 2 0

大模型对抗攻击防御系统性能对比测试测试背景针对大模型面临的对抗攻击威胁，我们对比了四种主流防御策略：对抗训练、输入净化、梯度屏蔽和模型蒸馏。测试环境为PyTorch 2.0，CUDA 11.8，NVIDIA RTX 4090显卡。防御...

模型压缩与量化技术栈 Quincy715 2025-12-24T07:01:19 部署 +0/-0 2 0

量化部署实践：在ARM架构上的量化模型部署方案背景与目标针对ARM架构设备的AI模型部署，本文提供一套完整的量化部署方案。通过TensorFlow Lite和ONNX Runtime的组合，实现模型从训练到部署的完整量化流程。具体实施...

PyTorch深度学习模型优化实战 Quincy715 2025-12-24T07:01:19 PyTorch · 模型部署 +0/-0 2 0

模型部署中GPU利用率提升方案在PyTorch模型部署过程中，GPU利用率低是常见问题。本文提供一套实用的优化方案。 1. 批处理优化 python 原始代码 model.eval() with torch.no grad(): for ...

大模型架构设计与系统优化 Quincy715 2025-12-24T07:01:19 压力测试 · 系统优化 +0/-0 4 0

在大模型部署测试过程中，我们遵循从单元测试到压力测试的完整流程，确保模型在生产环境中的稳定性和性能表现。单元测试阶段首先进行模型基础功能验证，通过以下代码确保核心逻辑正确： python import torch from transf...

Quincy715