Yara565

Yara565

Hi, I'm Yara565. I love blogging!

Ta 的内容

大模型数据工程与特征工程 Yara565 2025-12-24T07:01:19 大模型 +0/-0 3 0
多模态特征融合技术实战分享 在大模型训练中,多模态数据的特征融合是提升模型性能的关键环节。本文将分享一种基于注意力机制的多模态特征融合方法,适用于图像和文本数据的联合建模。 融合策略 我们采用交叉注意力机制实现视觉 文本模态间的特征交互。具...
开源大模型微调与部署 Yara565 2025-12-24T07:01:19 模型部署 · 大模型微调 +0/-0 4 0
微调过程中梯度爆炸问题解决 在大模型微调过程中,梯度爆炸是一个常见但棘手的问题,尤其在使用较大学习率或数据分布不均匀时容易出现。本文将分享几种有效的解决方法和最佳实践。 问题现象 梯度爆炸通常表现为损失值急剧增大、训练过程不稳定甚至NaN,...