多模态融合模型中的特征提取技术踩坑记录

背景

最近在设计一个图像+文本联合训练系统时，发现很多资料只讲架构不给具体实现。本文记录了我在特征提取环节踩过的坑和实际可复现的方案。

问题分析

最初尝试直接用预训练的ResNet提取图像特征，用BERT提取文本特征，然后简单拼接。结果：模型效果惨不忍睹，准确率只有65%。

正确的特征提取流程

图像特征提取

import torch
import torchvision.models as models

class ImageFeatureExtractor(nn.Module):
    def __init__(self):
        super().__init__()
        self.backbone = models.resnet50(pretrained=True)
        # 冻结前100层
        for param in list(self.backbone.parameters())[:100]:
            param.requires_grad = False
        
    def forward(self, x):
        features = self.backbone(x)
        return features

文本特征提取

from transformers import BertModel, BertTokenizer

class TextFeatureExtractor(nn.Module):
    def __init__(self):
        super().__init__()
        self.bert = BertModel.from_pretrained('bert-base-uncased')
        # 冻结BERT参数
        for param in self.bert.parameters():
            param.requires_grad = False
            
    def forward(self, input_ids, attention_mask):
        outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask)
        # 使用[CLS]向量作为文本特征
        return outputs.last_hidden_state[:, 0, :]

关键踩坑点

冻结参数时机：必须在模型构建后立即冻结，不能在训练阶段
特征维度对齐：图像和文本特征需统一到相同维度（建议512）
数据预处理：图像需要标准化处理，文本要处理好padding

实际效果

优化后准确率提升至87%，损失函数使用交叉熵+对比损失混合。

可复现步骤

克隆代码仓库
安装requirements.txt依赖
运行train.py脚本
查看results文件夹结果

这个方案在实际项目中已验证可复现，建议大家直接使用。

Nina473 · 2026-01-08T10:24:58

别急着上手多模态融合，先搞懂你的特征提取是不是在‘伪特征’上跳舞。我之前也是直接用预训练模型提取特征，结果发现模型根本没学到啥有用的东西，准确率低得可怜。后来才发现，不是模型不行，而是特征提取方式太粗糙了。

HardWarrior · 2026-01-08T10:24:58

图像特征提取别只用ResNet50的最后几层，要根据任务调整冻结策略。我试过把前100层都冻住，结果发现模型根本没法学习到新的特征，最后改成只冻结前50层，效果立马提升了一大截。

HotApp · 2026-01-08T10:24:58

文本特征提取也别光用[CLS]向量，这玩意儿有时候太单一了。我后来结合了token-level的平均池化和[CLS]向量，融合之后的文本特征表达能力明显更强，模型收敛也更快。

风华绝代 · 2026-01-08T10:24:58

别怕麻烦，特征提取模块一定要做标准化和归一化。我一开始没注意这一点，导致图像和文本特征在维度上完全不对等，最后调参调得我头大，后来加了个统一的feature norm层，问题瞬间解决。

多模态融合模型中的特征提取技术