用户主页 - 极简博客

Linux内核与系统安全 Oscar294 2025-12-24T07:01:19 系统安全 · Linux内核 · OpenVAS +0/-0 4 0

系统安全测试实践：使用OpenVAS进行漏洞扫描和分析在Linux系统安全防护中，定期进行漏洞扫描是保障系统安全的重要手段。本文将结合Linux内核与系统安全社区的关注点，介绍如何使用OpenVAS进行有效的漏洞扫描和分析。 OpenVA...

分布式大模型训练优化 Oscar294 2025-12-24T07:01:19 性能调优 · 分布式训练 +0/-0 4 0

在分布式大模型训练中，elastic training（弹性训练）已成为提升训练效率的关键技术。通过合理配置elastic training参数，我们可以在保证训练稳定性的同时最大化资源利用率。以PyTorch为例，启用elastic t...

分布式训练框架优化指南 Oscar294 2025-12-24T07:01:19 分布式训练 +0/-0 4 0

分布式训练中的批量大小设置策略在分布式训练中，批量大小（batch size）的设置直接影响训练效率和模型收敛性。合理的批量大小配置能够最大化GPU利用率并加速收敛。批量大小的核心考量硬件资源约束：多机多卡环境下，需平衡单卡内存与整...

LLM微调工程化实践 Oscar294 2025-12-24T07:01:19 LoRa · 大语言模型 · Adapter +0/-0 2 0

大模型微调架构优化：LoRA模块化设计经验总结踩坑记录最近在做大模型微调项目时，踩了不少坑，特别想分享一下LoRA模块化设计的经验。之前用传统全量微调，不仅显存爆表，而且训练时间长得让人绝望。核心方案我们采用LoRA（Low Ran...

大模型数据工程与特征工程 Oscar294 2025-12-24T07:01:19 特征工程 +0/-0 2 0

高维稀疏数据处理技术深度解析：稀疏矩阵运算优化与加速算法在大模型训练中，高维稀疏数据处理是常见的性能瓶颈。本文将分享我在实际项目中踩过的坑和优化经验。稀疏矩阵的常见问题首先，我曾遇到过这样的场景：使用scipy.sparse.csr ...

开源大模型训练与推理技术 Oscar294 2025-12-24T07:01:19 模型压缩 +0/-0 3 0

模型压缩算法的效率对比分析在大模型训练与推理实践中，模型压缩技术已成为提升效率的关键手段。本文将对比几种主流压缩算法在实际应用中的表现。压缩方法概述量化压缩：将浮点数转换为低精度表示，如INT8、FP8 剪枝压缩：移除网络中不重要...

多模态大模型架构设计 Oscar294 2025-12-24T07:01:19 +0/-0 3 0

图像文本联合训练的数据采样策略实践在多模态大模型训练中，数据采样策略直接影响模型性能。本文分享一个踩坑后的实用方案。问题背景最初尝试使用简单随机采样，发现模型对高频词汇过度拟合，低频词汇表现很差。通过分析发现，数据分布不均衡导致训练偏...

模型监控与性能追踪系统 Oscar294 2025-12-24T07:01:19 机器学习 · 监控 +0/-0 3 0

机器学习模型部署后的稳定性监控核心监控指标配置模型性能指标：准确率(Accuracy) : 设置阈值0.95，当低于0.92时触发告警 AUC值 : 监控roc auc score，阈值0.90，低于0.85告警推理延迟 : 平均响...

TensorFlow Serving微服务架构实践 Oscar294 2025-12-24T07:01:19 TensorFlow · Kubernetes · Serving +0/-0 2 0

Kubernetes Tensorflow服务资源调度实践在Kubernetes环境中部署TensorFlow Serving服务时，合理的资源调度至关重要。本文将分享一个完整的资源调度方案，包含Docker容器化和负载均衡配置。 Doc...

TensorFlow Serving微服务架构实践 Oscar294 2025-12-24T07:01:19 TensorFlow · Docker · Security · Serving +0/-0 3 0

基于Docker的TensorFlow模型服务化部署安全加固安全加固方案 1. 镜像安全构建 dockerfile FROM tensorflow/serving:latest 创建非root用户 RUN useradd create h...

Oscar294