Diana732

Diana732

Hi, I'm Diana732. I love blogging!

Ta 的内容

多模态大模型架构设计 Diana732 2025-12-24T07:01:19 模型训练 +0/-0 3 0
多模态模型训练中的梯度累积 在多模态大模型训练中,梯度累积是优化计算资源、提升训练效率的关键技术。当单个batch size受限于显存时,我们可以通过梯度累积来模拟更大的batch size。 核心原理 假设GPU显存限制只能处理batch...
大模型安全防护体系 Diana732 2025-12-24T07:01:19 安全防护 · 内容过滤 · 大模型 +0/-0 2 0
大模型推理过程中的输出内容过滤实验 实验背景 在大模型推理过程中,输出内容的安全性直接关系到系统安全性。本文通过构建过滤机制,对模型输出进行实时内容检测和过滤。 实验设计 我们采用以下过滤策略: 1. 关键词过滤 :构建敏感词库,包括恶意代...
开源大模型微调与部署 Diana732 2025-12-24T07:01:19 生产环境 · LLM +0/-0 4 0
在LLM服务中,API限流是保障系统稳定性和公平性的关键策略。本文将介绍几种常用的限流方法,并提供可复现的实现方案。 限流策略概述 常见的限流策略包括: 1. 令牌桶算法 :允许突发流量但平均速率限制 2. 漏桶算法 :平滑请求速率,适合处...
分布式训练框架优化指南 Diana732 2025-12-24T07:01:19 分布式训练 +0/-0 2 0
GPU硬件资源利用率分析 在分布式训练中,GPU硬件资源利用率是影响训练效率的关键因素。本文将通过实际案例对比不同配置下的GPU利用率表现。 环境配置 4台服务器,每台2张V100 GPU PyTorch 1.9 + CUDA 11.2 数...