微调数据预处理标准化流程设计

在LLM微调工程化实践中，数据预处理的标准化流程是确保模型效果的关键环节。本文将基于LoRA和Adapter两种微调方案，详细介绍可复现的数据预处理流程。

标准化流程设计

1. 数据清洗与格式统一

import pandas as pd
from datasets import Dataset

def clean_data(df):
    # 移除空值和重复行
    df = df.dropna().drop_duplicates()
    # 统一文本格式
    df['text'] = df['text'].str.strip()
    return df

# 加载数据
raw_data = pd.read_csv('training_data.csv')
df_cleaned = clean_data(raw_data)

2. Prompt模板标准化

# LoRA微调中的Prompt构建
prompt_template = "请根据以下输入生成回复：{input}\n回答："

def build_prompt(input_text, output_text):
    return prompt_template.format(input=input_text, output=output_text)

# 构建训练数据集
train_dataset = Dataset.from_dict({
    'prompt': [build_prompt(row['input'], row['output']) for _, row in df_cleaned.iterrows()],
    'response': df_cleaned['output'].tolist()
})

3. 数据分词与截断处理

from transformers import AutoTokenizer

# 加载tokenizer
model_name = "bert-base-chinese"
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 分词并截断
def tokenize_function(examples):
    return tokenizer(
        examples["prompt"],
        examples["response"],
        truncation=True,
        padding="max_length",
        max_length=512
    )

# 应用分词
train_dataset = train_dataset.map(tokenize_function, batched=True)

Adapter微调特化处理

在Adapter微调中，需额外添加适配器层的输入标记：

# 添加Adapter标记
adapter_prompt = "[ADAPTER]"
full_prompt = adapter_prompt + prompt_template

该标准化流程确保了数据预处理的一致性，为LoRA和Adapter微调方案提供了可靠的数据基础。

LoudDiana · 2026-01-08T10:24:58

别看数据预处理流程设计得再标准，实际工程里最坑的往往是‘格式统一’这一步。我见过太多项目因为没统一文本编码、没处理好特殊字符，导致微调时模型直接崩盘。建议加个异常日志监控，跑一遍清洗脚本就记录下丢弃了多少条数据，不然你永远不知道哪些脏数据在悄悄拖后腿。

Xena167 · 2026-01-08T10:24:58

Prompt模板标准化听着高大上，但真正用起来你会发现，LoRA和Adapter的输入格式差异比你想象的大。别光写个模板就以为万事大吉，得根据具体任务测试不同prompt结构对模型输出的影响，比如是否加了system prompt、是否需要多轮对话上下文。建议做A/B测试，别让模板成为模型效果的隐形杀手。

编程艺术家 · 2026-01-08T10:24:58

分词截断处理看似简单，但一旦max_length设得太小，你可能在裁剪关键信息；设得太大又容易爆显存。我之前就因为没测好截断长度，训练时反复报错。建议先用少量数据跑个baseline，看看模型在不同长度下的响应效果，再决定最终参数，别让截断成了性能瓶颈的罪魁祸首。

标准化流程设计

1. 数据清洗与格式统一

2. Prompt模板标准化

3. 数据分词与截断处理

Adapter微调特化处理

讨论

选择表情