LLM微调阶段数据集划分策略踩坑

最近在进行大模型微调项目时，遇到了一个让人头疼的数据集划分问题。最初按照传统的8:1:1比例划分训练、验证和测试集，结果发现模型在验证集上的表现远不如训练集，甚至出现了明显的过拟合现象。

问题复现步骤

import pandas as pd
from sklearn.model_selection import train_test_split

# 假设数据集已加载
train_data, temp_data = train_test_split(data, test_size=0.2, random_state=42)
val_data, test_data = train_test_split(temp_data, test_size=0.5, random_state=42)

# 问题：验证集和测试集分布不均
print(f"训练集大小: {len(train_data)}")
print(f"验证集大小: {len(val_data)}")
print(f"测试集大小: {len(test_data)}")

踩坑分析

通过深入分析发现，原始数据存在明显的类别不平衡问题。在随机划分后，验证集和测试集中某些关键类别的样本过少，导致模型评估失真。这在安全测试场景下尤其危险，因为可能掩盖了模型在特定攻击场景下的脆弱性。

解决方案

采用分层抽样策略：

from sklearn.model_selection import train_test_split

# 确保各集合中各类别比例一致
train_data, temp_data = train_test_split(data, test_size=0.2, stratify=data['label'], random_state=42)
val_data, test_data = train_test_split(temp_data, test_size=0.5, stratify=temp_data['label'], random_state=42)