ELK-Elasticsearch 笔记 - ES基础知识：分词与IK分词器的安装

前言

Elasticsearch (简称ES) 是一个流行的实时搜索和分析引擎，能够帮助我们快速地存储、搜索和分析大量的数据。其中，分词器是ES中一个非常重要的组件，它负责将文本数据切分为有意义的词语，以方便搜索与分析。

在本文中，我们将介绍ES中分词的基础知识，并讨论如何安装和配置IK分词器，以支持更为灵活和精确的中文分词。

分词的基础知识

在ES中，文本被分解成一个个词项（term），而不是整个句子进行搜索。这样可以提高搜索的效率和准确性。分词过程中，一些常见的处理步骤包括：

字符过滤：去除特殊字符或HTML标签，保留有意义的内容。
分词：将文本按照一定的规则切分为词项，例如按照空格或标点符号进行切分。
小写转换：将大写字母转换为小写，避免搜索时的大小写问题。
停用词过滤：去除一些常见的无意义词语，例如英文中的"a"、"the"等。

ES提供了默认的标准分词器（Standard Tokenizer），它有一个较好的性能，并适用于大多数情况。不过，当我们处理中文文本时，使用默认分词器可能无法达到我们的需求。

安装与配置IK分词器

第一步：安装IK分词器插件

IK分词器是ES中一个开源的中文分词器，它可以更好地处理中文文本。我们可以通过插件的方式将IK集成到ES中。

下载IK分词器插件：https://github.com/medcl/elasticsearch-analysis-ik/releases
将下载的插件包解压到ES的plugins目录下，例如：/usr/share/elasticsearch/plugins/ik
重启ES服务，使插件生效。

第二步：配置IK分词器

在ES的配置文件中，我们需要进行一些配置，以便使用IK分词器。

找到ES的配置文件 elasticsearch.yml。

添加以下配置信息：

# 设置默认的分词器为IK分词器
index.analysis.analyzer.default.type: ik_max_word

# 添加自定义的分词器，例如名为my_ik的分词器
index.analysis.analyzer.my_ik.type: ik_smart

ik_max_word 和 ik_smart 分别表示分词器的模式，前者会将文本按照最大切分粒度进行切词，后者则根据智能切分规则进行切词。

保存文件并重启ES服务。

第三步：使用IK分词器

在ES中，我们可以使用以下方式来指定使用IK分词器进行分词：

{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_custom_analyzer": {
          "type": "ik_max_word"
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "title": {
        "type": "text",
        "analyzer": "my_custom_analyzer"
      },
      "content": {
        "type": "text",
        "analyzer": "ik_smart"
      }
    }
  }
}

在上述示例中，我们使用了 my_custom_analyzer 和 ik_smart 两个不同的分词器，分别应用于 title 和 content 字段。

结语

通过安装和配置IK分词器，我们可以更好地处理中文文本的分词需求，从而提高搜索和分析的准确性。ES作为一个灵活而强大的搜索引擎，能够帮助我们有效地处理大量的数据，并获得有价值的信息。

希望本文对您理解ES基础知识以及IK分词器的安装与配置有所帮助。如果您有任何疑问或建议，请随时在评论区留言，我们将尽力为您解答。