CoolWizard

CoolWizard

Hi, I'm CoolWizard. I love blogging!

Ta 的内容

LLM微调工程化实践 CoolWizard 2025-12-24T07:01:19 LoRa · Adapter +0/-0 2 0
Adapter层网络深度与性能关系研究 在LLM微调工程化实践中,Adapter机制因其低参数、高效率的特点成为主流方案。本文通过构建不同深度的Adapter层网络,系统分析其对模型性能的影响。 实验设计 我们基于LoRA框架,在7B参数模...
多模态大模型架构设计 CoolWizard 2025-12-24T07:01:19 +0/-0 4 0
联合训练中模型收敛性问题排查 在多模态大模型联合训练中,模型收敛性问题是常见的挑战。本文通过具体案例分析,提供可复现的排查方法。 问题现象 训练过程中出现以下异常: 损失值震荡或不下降 图像分支和文本分支损失差异过大 验证集性能波动剧烈 排...