DryKyle

DryKyle

Hi, I'm DryKyle. I love blogging!

Ta 的内容

分布式大模型训练优化 DryKyle 2025-12-24T07:01:19 性能调优 · 超参优化 · 分布式训练 +0/-0 4 0
在大规模模型训练中,计算密集型任务调度优化是性能瓶颈的关键所在。近期在训练Qwen 70B模型时,我们遇到了梯度同步延迟严重的问题,通过以下调优策略实现了显著改善。 问题定位 :训练过程中发现,在8卡A100集群上,模型收敛速度明显下降,特...
模型监控与性能追踪系统 DryKyle 2025-12-24T07:01:19 DevOps · 模型监控 +0/-0 4 0
机器学习模型训练集测试:构建完整的监控体系 在实际生产环境中,模型训练集的监控至关重要。本文将通过具体实践展示如何构建有效的监控系统。 核心监控指标配置 首先定义关键性能指标: 准确率 :使用 accuracy score 计算,阈值设定为...