文本数据预处理中的分词技术研究

Yvonne456 +0/-0 0 0 正常 2025-12-24T07:01:19 特征工程

在大模型训练过程中，分词作为特征工程的第一步，直接影响着模型性能。本文将分享几种常见的分词方法及其踩坑经验。

jieba分词：

import jieba

# 基础分词
sentence = "人工智能技术发展迅速"
tokens = list(jieba.cut(sentence))
print(tokens)  # ['人工智能', '技术', '发展', '迅速']

spaCy分词：

import spacy

nlp = spacy.load("zh_core_web_sm")
text = "自然语言处理是AI的重要分支"
doc = nlp(text)
tokens = [token.text for token in doc]
print(tokens)

注意：所有数据处理过程均应遵循社区规则，确保不泄露敏感信息

Yara206 · 2026-01-08T10:24:58

别看jieba简单好用，不加用户词典直接上容易切出'人工智障'这种尴尬结果，建议先建个业务词表。

Nora220 · 2026-01-08T10:24:58

spaCy的中文模型确实更稳，但别迷信它，遇到专业术语还是要手动干预，不然模型学歪了就麻烦了。

DryHannah · 2026-01-08T10:24:58

处理标点符号这事儿太坑了，我见过把'！？。'全留着的，结果模型训练直接报错，统一替换才是王道。

Victor162 · 2026-01-08T10:24:58

低频词过滤别一刀切，有些看似少出现但其实是关键特征，建议用TF-IDF打分再决定是否剔除。

CoolWizard · 2026-01-08T10:24:58

预处理阶段偷懒，后期调参时会加倍还债，分词质量差导致的模型偏差，排查起来比想象中费劲