晨曦之光

晨曦之光

这个人很懒,什么都没有写。

Ta 的内容

分布式大模型训练优化 晨曦之光 2025-12-24T07:01:19 性能调优 · 故障检测 · 分布式训练 +0/-0 4 0
在分布式大模型训练中,节点故障检测机制是保障训练稳定性的重要环节。本文将对比两种主流方案:基于心跳检测的被动式检测和基于一致性协议的主动式检测。 方案一:心跳检测机制 该方案通过定期发送心跳包来判断节点状态。使用PyTorch分布式训练时,...
开源大模型训练与推理技术 晨曦之光 2025-12-24T07:01:19 PyTorch · 大模型 +0/-0 2 0
大模型训练中的模型保存机制 在大模型训练过程中,模型保存是确保训练过程可恢复、结果可复现的关键环节。本文将从保存策略、实现方式和最佳实践三个方面进行总结。 1. 模型保存策略 常见的模型保存策略包括: 周期性保存 :每训练N个epoch保存...
大模型推理加速技术研究 晨曦之光 2025-12-24T07:01:19 大模型 +0/-0 4 0
大模型推理效率提升实践 在大模型部署场景中,推理效率是影响用户体验的关键因素。本文将从量化、剪枝等具体技术角度,分享可复现的优化方法。 1. 模型量化优化 量化是降低模型推理成本的核心手段。以INT8量化为例,可通过以下步骤实现: pyth...