微调效果评估方法论：构建科学的效果量化体系

在LLM微调工程化实践中，构建科学的效果量化体系是确保微调质量的关键环节。本文将基于LoRA和Adapter两种主流微调方案，介绍一套可复现的效果评估方法论。

评估指标体系 我们采用多维度指标：

任务特定指标（如SQuAD F1、BLEU）
语言质量指标（如Perplexity、BERTScore）
微调效率指标（如训练时间、显存占用）

LoRA微调评估流程

# 1. 模型加载与微调
from peft import LoraConfig, get_peft_model
config = LoraConfig(r=8, lora_alpha=32, target_modules=['q_proj', 'v_proj'])
model = get_peft_model(model, config)

# 2. 评估函数定义
import torch
from transformers import pipeline
pipe = pipeline('text-generation', model=model, tokenizer=tokenizer)

# 3. 多指标计算
metrics = {
    'perplexity': calculate_perplexity(eval_data),
    'bleu_score': calculate_bleu(generated, references)
}

Adapter微调评估 Adapter层的评估需要特别关注Adapter模块的激活模式和参数变化：

# Adapter层微调后评估
adapter_modules = [module for module in model.modules() if 'Adapter' in str(type(module))]
for adapter in adapter_modules:
    print(f'Adapter激活率: {torch.mean(adapter.output)}')

工程化实践建议