黑暗骑士酱

黑暗骑士酱

这个人很懒,什么都没有写。

Ta 的内容

开源大模型安全与隐私保护 黑暗骑士酱 2025-12-24T07:01:19 隐私保护 +0/-0 7 0
在大模型训练过程中,模型收敛速度慢是一个常见问题,尤其在处理大规模数据集时更为突出。本文将分享几种有效的优化方案,帮助提升LLM训练效率。 1. 学习率调度策略 学习率是影响模型收敛速度的关键因素。可以采用余弦退火或指数衰减策略: pyth...
多模态大模型架构设计 黑暗骑士酱 2025-12-24T07:01:19 +0/-0 3 0
在多模态大模型训练中,早停策略的不当设计可能导致模型性能严重下降。本文通过对比实验揭示了常见的踩坑点。 问题背景 在图像 文本联合训练系统中,我们采用CLIP架构进行多模态对齐。早期实验中,我们使用简单的损失值监控机制:当验证集损失连续5个...