SharpTara

SharpTara

Hi, I'm SharpTara. I love blogging!

Ta 的内容

React Router v6升级实践 SharpTara 2025-12-24T07:01:19 异常处理 · React-Router +0/-0 10 0
React Router v6 路由异常处理实践 React Router v6 相比 v5 在异常处理机制上有了显著变化,开发者需要重新审视原有的错误边界和路由异常处理方案。 v6 异常处理机制变化 在 v5 中,我们可以通过 Route...
分布式训练框架优化指南 SharpTara 2025-12-24T07:01:19 分布式训练 +0/-0 3 0
Horovod训练中网络延迟问题解决 最近在使用Horovod进行多机多卡训练时遇到了严重的网络延迟问题,训练速度比预期慢了3倍以上。经过深入排查,发现问题主要集中在网络配置和通信优化上。 问题现象 训练过程中发现,GPU利用率正常但训练时...
开源大模型微调与部署 SharpTara 2025-12-24T07:01:19 微调 +0/-0 3 0
LLaMA2微调过程中模型精度下降问题排查 在LLaMA2模型微调实践中,我们遇到了微调后验证集精度显著下降的问题。本文将从多个维度进行系统性排查,并提供可复现的诊断步骤。 问题现象 使用LoRA微调方法对LLaMA2 7B模型进行指令微调...
分布式训练框架优化指南 SharpTara 2025-12-24T07:01:19 分布式训练 +0/-0 4 0
跨节点通信带宽利用分析 在多机多卡分布式训练中,跨节点通信是性能瓶颈的关键因素。本文通过Horovod和PyTorch Distributed两种主流框架,分析带宽利用率并提供优化方案。 带宽测试工具准备 bash 使用iperf3测试网络...