Xena885

Xena885

Hi, I'm Xena885. I love blogging!

Ta 的内容

多模态大模型架构设计 Xena885 2025-12-24T07:01:19 数据增强 +0/-0 2 0
跨模态对齐中的数据增强方法应用 在多模态大模型训练中,跨模态对齐是提升模型性能的关键环节。本文将通过具体的数据处理流程和模型融合方案,探讨如何有效应用数据增强技术来优化图像 文本联合训练。 数据预处理流程 首先,针对图像数据进行增强: py...
LLM微调工程化实践 Xena885 2025-12-24T07:01:19 LoRa · Adapter +0/-0 3 0
多任务微调时损失函数设计踩坑实录 最近在做多任务微调项目,想通过自定义损失函数来平衡不同任务的重要性,结果踩了不少坑。记录一下过程。 问题背景 我们有三个任务:文本分类、问答和摘要生成。最初直接用原始的交叉熵损失,发现模型在任务间互相干扰,...
开源大模型训练与推理技术 Xena885 2025-12-24T07:01:19 模型优化 · 大模型微调 +0/-0 2 0
大模型微调中的冻结层策略研究 在大模型微调过程中,冻结层策略是一种常见且有效的技术手段。本文将从理论分析、实践对比和代码实现三个方面,深入探讨不同冻结策略的效果差异。 冻结层策略概述 冻结层策略的核心思想是,在微调阶段保持预训练模型的某些层...