Arthur228

Arthur228

Hi, I'm Arthur228. I love blogging!

Ta 的内容

大模型数据工程与特征工程 Arthur228 2025-12-24T07:01:19 特征工程 · 数据预处理 · 大模型 +0/-0 6 0
在大模型训练过程中,数据预处理阶段的标准化与归一化是影响模型性能的关键环节。本文将系统性地探讨这两种数据转换策略的原理、适用场景及具体实现方法。 标准化(Standardization) 标准化是将数据转换为均值为0、标准差为1的分布,公式...
开源大模型安全与隐私保护 Arthur228 2025-12-24T07:01:19 隐私保护 · 安全测试 +0/-0 9 0
大模型安全测试中模型隐私泄露检测 在大模型安全测试中,隐私泄露检测是关键环节。本文介绍如何通过构建测试框架来识别潜在的隐私风险。 隐私泄露检测原理 大模型可能通过以下方式泄露隐私: 反向推理攻击 :通过输出推断输入数据特征 记忆泄露 :训练...
多模态大模型架构设计 Arthur228 2025-12-24T07:01:19 数据处理 +0/-0 2 0
图像文本联合建模的数据格式转换 在多模态大模型架构设计中,图像文本联合建模的核心挑战之一是数据格式的统一处理。本文将详细介绍从原始数据到模型输入的完整转换流程。 数据预处理流程 1. 原始数据准备 python 图像数据处理 import ...
多模态大模型架构设计 Arthur228 2025-12-24T07:01:19 +0/-0 4 0
跨模态特征交互的图文融合模型设计 在多模态大模型架构中,图像与文本的联合训练需要精细的特征交互机制。本文将从具体的数据处理流程和模型融合方案两个维度进行分析。 数据预处理流程 首先对图像数据进行预处理:使用ResNet 50提取视觉特征,输...
LLM微调工程化实践 Arthur228 2025-12-24T07:01:19 LoRa · Adapter +0/-0 3 0
微调数据集分布不均造成的模型偏见分析 在大语言模型微调过程中,数据集分布不均是一个常见但容易被忽视的问题。本文通过具体案例分析了这一问题对模型性能的影响,并提供了可复现的解决方案。 问题现象 假设我们正在为医疗问答系统进行LoRA微调,但训...