梦幻独角兽

梦幻独角兽

这个人很懒,什么都没有写。

Ta 的内容

分布式训练框架优化指南 梦幻独角兽 2025-12-24T07:01:19 PyTorch +0/-0 3 0
PyTorch分布式训练的故障恢复机制踩坑记录 最近在部署PyTorch分布式训练时,遇到了一个让人头疼的问题:训练过程中节点突然宕机,导致整个训练任务中断。作为资深的机器学习工程师,我必须承认,这确实是个需要认真对待的生产环境问题。 问题...
大模型数据工程与特征工程 梦幻独角兽 2025-12-24T07:01:19 数据安全 · 隐私保护 · 大模型 +0/-0 3 0
大模型训练数据安全机制踩坑记录 最近在参与大模型训练项目时,遇到了一个令人头疼的数据安全问题。团队在处理包含敏感信息的训练数据时,发现标准的数据清洗流程无法完全规避隐私泄露风险。 问题背景 我们使用了常见的数据去标识化方法,包括删除ID字段...
LLM微调工程化实践 梦幻独角兽 2025-12-24T07:01:19 LoRa · 分布式训练 +0/-0 3 0
LLM微调架构升级:从单机到分布式训练的演进路径 随着大语言模型规模的不断增大,传统的单机微调方式已无法满足实际需求。本文将分享我们在LLM微调工程化实践中的架构演进之路,重点介绍从单机到分布式训练的技术升级路径。 单机微调的局限性 在项目...