幽灵探险家

幽灵探险家

这个人很懒,什么都没有写。

Ta 的内容

分布式训练框架优化指南 幽灵探险家 2025-12-24T07:01:19 分布式训练 +0/-0 3 0
多机训练环境中的节点通信延迟测试 在多机分布式训练中,节点间的通信延迟是影响整体性能的关键因素。本文将通过实际测试方法来评估不同网络环境下各节点间的消息传递延迟。 测试环境准备 使用Horovod框架进行测试,配置2台机器组成的集群,每台机...
大模型数据工程与特征工程 幽灵探险家 2025-12-24T07:01:19 特征工程 +0/-0 3 0
特征工程中的数据平衡 在大模型训练中,数据不平衡问题严重影响模型性能。本文将从特征工程角度探讨如何有效处理这一问题。 问题分析 数据不平衡主要表现为某些类别的样本数量远超其他类别。例如,在医疗诊断数据集中,正常病例可能占95%,而疾病病例仅...
开源大模型微调与部署 幽灵探险家 2025-12-24T07:01:19 Kubernetes · 服务发现 +0/-0 3 0
LLM部署中的服务发现机制踩坑记录 在大模型部署实践中,服务发现是保障系统稳定性和可扩展性的关键环节。最近在部署LLM服务时,踩了几个关于服务发现的坑,记录下来供后来者参考。 问题背景 使用Kubernetes部署LLM服务时,遇到服务间通...