FierceMaster

FierceMaster

Hi, I'm FierceMaster. I love blogging!

Ta 的内容

开源大模型安全与隐私保护 FierceMaster 2025-12-24T07:01:19 自动化测试 · 隐私保护 +0/-0 2 0
大模型安全测试自动化 随着大模型技术的快速发展,其安全性与隐私保护成为关键议题。本文将介绍如何通过自动化工具对大模型进行安全测试,提升测试效率。 安全测试框架搭建 首先,我们可以通过构建一个基础的安全测试脚本来自动化检测常见漏洞: pyth...
大模型架构设计与系统优化 FierceMaster 2025-12-24T07:01:19 +0/-0 4 0
基于多卡GPU的大模型推理加速实践 最近在为一个大模型推理服务做性能优化时,踩了不少坑,分享一下实际的多卡加速实践经验。 问题背景 我们部署了一个7B参数的LLM模型,在单卡(A100 80GB)上推理耗时约12秒,业务要求降到5秒以内。直...
开源大模型微调与部署 FierceMaster 2025-12-24T07:01:19 Transformer +0/-0 2 0
Transformer模型的并行解码技术 在大模型推理阶段,解码效率直接影响用户体验。本文将对比分析几种主流的并行解码技术,并提供可复现的实现方案。 1. 自回归并行解码 这是最基础的并行方式,通过将序列长度分割成多个子序列进行并行计算。在...
模型压缩与量化技术栈 FierceMaster 2025-12-24T07:01:19 +0/-0 3 0
量化模型压缩比计算公式与实际应用 压缩比计算公式 模型压缩比(CR) = 原始模型大小 / 量化后模型大小 对于量化模型,通常使用:CR = (原始精度位数 / 量化位数) 实际应用案例 以PyTorch模型为例进行量化实验: python...
大模型推理加速技术研究 FierceMaster 2025-12-24T07:01:19 Transformer · 模型并行 +0/-0 3 0
推理加速中的模型并行技术应用 在大模型推理场景中,模型并行技术是提升推理效率的关键手段之一。本文将从实际应用角度,分享如何通过模型并行实现推理加速。 模型并行基础原理 模型并行的核心思想是将模型参数分布到多个设备上,每个设备只负责计算模型的...