图像数据特征提取算法对比分析

在大模型训练中，图像特征提取是关键环节。本文对比了三种主流特征提取方法：传统手工特征、CNN特征和CLIP特征。

实验环境

Python 3.8
PyTorch 1.10
OpenCV 4.5
Transformers 4.20

1. 传统手工特征 - HOG

import cv2
from skimage.feature import hog
import numpy as np

def extract_hog(image_path):
    image = cv2.imread(image_path, cv2.IMREAD_GRAYSCALE)
    features = hog(image, orientations=9, pixels_per_cell=(8, 8), 
                   cells_per_block=(2, 2), visualize=False)
    return features

2. CNN特征提取

import torch
import torchvision.models as models
from torchvision import transforms

def extract_cnn_features(image_path):
    model = models.resnet50(pretrained=True)
    model.eval()
    preprocess = transforms.Compose([
        transforms.Resize(256),
        transforms.CenterCrop(224),
        transforms.ToTensor(),
        transforms.Normalize(mean=[0.485, 0.456, 0.406], 
                           std=[0.229, 0.224, 0.225])
    ])
    image = preprocess(Image.open(image_path))
    with torch.no_grad():
        features = model(image.unsqueeze(0))
    return features.numpy()

3. CLIP特征

from transformers import CLIPProcessor, CLIPModel
import torch

def extract_clip_features(image_path):
    model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
    processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
    image = Image.open(image_path)
    inputs = processor(images=image, return_tensors="pt")
    with torch.no_grad():
        features = model.get_image_features(**inputs)
    return features.numpy()