红尘紫陌

红尘紫陌

这个人很懒,什么都没有写。

Ta 的内容

分布式训练框架优化指南 红尘紫陌 2025-12-24T07:01:19 分布式训练 +0/-0 2 0
多机训练中网络传输效率提升踩坑记录 最近在优化多机训练性能时,遇到了网络传输瓶颈问题。通过排查和测试,总结了几个关键的优化点。 问题现象 使用Horovod进行4机8卡分布式训练时,训练速度远低于预期,经监控发现GPU利用率很高但网络带宽使...
大模型架构设计与系统优化 红尘紫陌 2025-12-24T07:01:19 缓存优化 · 异步处理 +0/-0 3 0
大模型推理延迟控制:异步响应与缓存机制踩坑记录 最近在为一个大模型推理服务做性能优化时,踩了不少坑,分享一下异步响应和缓存机制的实际应用经验。 问题背景 我们的大模型API在高并发场景下延迟飙升,初步排查发现主要瓶颈在于模型推理耗时过长。尝...
Linux内核与系统安全 红尘紫陌 2025-12-24T07:01:19 系统安全 · 进程调度 · Linux内核 +0/-0 2 0
系统安全调优:Linux内核中进程调度器安全配置 在Linux系统安全防护体系中,进程调度器作为核心组件之一,直接影响系统的资源分配和访问控制。本文将深入探讨如何通过内核参数调优来增强调度器的安全性。 调度器安全配置要点 1. 实时优先级限...
开源大模型测试与质量保障 红尘紫陌 2025-12-24T07:01:19 质量保障 · 自动化监控 +0/-0 2 0
LLM测试环境的监控与告警 在开源大模型测试与质量保障社区中,我们深知测试环境稳定性的关键作用。本文将分享如何建立有效的监控与告警机制,确保大模型测试过程中的环境健康。 监控要点 首先需要关注以下核心指标: GPU内存使用率(超过85%触发...