内置分析器 · Elasticsearch7.x

Elasticsearch 还附带了可以直接使用的预包装的分析器。接下来我们会列出最重要的分析器。为了证明它们的差异，我们看看每个分析器会从下面的字符串得到哪些词条： ``` Set the shape to semi-transparent by calling set_trans(5) ``` **1. 标准分析器** 标准分析器是 Elasticsearch 默认使用的分析器。它是分析各种语言文本最常用的选择。它根据 Unicode 联盟定义的单词边界划分文本。删除绝大部分标点。最后将词条小写。它会产生： ``` set, the, shape, to, semi, transparent, by, calling, set_trans, 5 ``` **2. 简单分析器** 简单分析器在任何不是字母的地方分隔文本，将词条小写。它会产生： ``` set, the, shape, to, semi, transparent, by, calling, set, trans ``` **3. 空格分析器** 空格分析器在空格的地方划分文本。它会产生： ``` Set, the, shape, to, semi-transparent, by, calling, set_trans(5) ``` **4. 语言分析器** 特定语言分析器可用于很多语言。它们可以考虑指定语言的特点。例如，英语分析器附带了一组英语无用词（常用单词，例如 and 或者 the ，它们对相关性没有多少影响），它们会被删除。由于理解英语语法的规则，这个分词器可以提取英语单词的词干。英语分词器会产生下面的词条： ``` set, shape, semi, transpar, call, set_tran, 5 ``` 注意看 transparent、 calling 和 set_trans 已经变为词根格式。