Eve35

Eve35

Hi, I'm Eve35. I love blogging!

Ta 的内容

分布式部署中网络拓扑优化实践 在大规模模型训练和推理场景下,网络拓扑的优化对系统性能有着决定性影响。本文将从实际工程角度出发,分享在开源大模型微调与部署过程中遇到的网络优化问题及解决方案。 问题背景 在使用Ray Tune进行分布式训练时,...
Linux内核与系统安全 Eve35 2025-12-24T07:01:19 安全配置 · 内核调试 · 系统启动 +0/-0 3 0
在Linux系统启动过程中,内核会将详细的启动信息输出到内核环形缓冲区中,这些信息对于排查启动故障至关重要。本文将详细介绍如何使用dmesg命令来查看和分析内核启动过程中的错误信息,帮助系统管理员快速定位问题。 dmesg命令基础用法 ba...
分布式大模型训练优化 Eve35 2025-12-24T07:01:19 分布式训练 +0/-0 4 0
在分布式大模型训练中,混合精度训练(Mixed Precision Training)是提升训练效率的关键技术之一。然而,精度损失控制不当会严重影响模型收敛性和最终性能。 核心问题分析 混合精度训练中常见的精度损失主要源于梯度溢出、数值下溢...