DarkSong

DarkSong

Hi, I'm DarkSong. I love blogging!

Ta 的内容

多模态大模型架构设计 DarkSong 2025-12-24T07:01:19 +0/-0 4 0
联合训练系统中模型训练数据流控制实践 在多模态大模型联合训练中,数据流的高效控制是确保训练稳定性和收敛速度的关键。本文通过一个具体的图像 文本联合训练系统,展示如何实现数据流的精细化控制。 数据预处理流程 首先对原始数据进行标准化处理: p...
分布式训练框架优化指南 DarkSong 2025-12-24T07:01:19 分布式训练 +0/-0 4 0
在分布式训练中,计算图优化是提升性能的关键环节。本文将通过PyTorch Distributed框架展示如何有效优化计算图。 问题背景 在多机多卡训练中,计算图中的冗余操作会显著影响通信效率。例如,在模型并行训练中,梯度同步时的张量复制和聚...
开源大模型训练与推理技术 DarkSong 2025-12-24T07:01:19 +0/-0 3 0
大模型训练中的梯度归一化技术踩坑记录 最近在参与一个大模型训练项目时,尝试引入了梯度归一化(Gradient Normalization)技术,结果却踩了不少坑。这里记录一下经验教训。 什么是梯度归一化? 梯度归一化是为了解决梯度爆炸或梯度...
多模态大模型架构设计 DarkSong 2025-12-24T07:01:19 +0/-0 3 0
在多模态大模型的图像文本联合训练中,超参数调优是决定模型性能的关键环节。本文将通过具体的数据处理流程和模型融合方案,展示如何进行有效的超参数调优。 数据处理流程 1. 数据预处理:首先对图像和文本数据进行标准化处理,图像统一resize到2...