企业🤖AI智能体构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
Elasticsearch 还附带了可以直接使用的预包装的分析器。接下来我们会列出最重要的分析器。为了证明它们的差异,我们看看每个分析器会从下面的字符串得到哪些词条: ``` Set the shape to semi-transparent by calling set_trans(5) ``` **1. 标准分析器** 标准分析器是 Elasticsearch 默认使用的分析器。它是分析各种语言文本最常用的选择。它根据 Unicode 联盟定义的 单词边界划分文本。删除绝大部分标点。最后将词条小写。它会产生: ``` set, the, shape, to, semi, transparent, by, calling, set_trans, 5 ``` **2. 简单分析器** 简单分析器在任何不是字母的地方分隔文本,将词条小写。它会产生: ``` set, the, shape, to, semi, transparent, by, calling, set, trans ``` **3. 空格分析器** 空格分析器在空格的地方划分文本。它会产生: ``` Set, the, shape, to, semi-transparent, by, calling, set_trans(5) ``` **4. 语言分析器** 特定语言分析器可用于很多语言。它们可以考虑指定语言的特点。例如, 英语分析器附带了一组英语无用词(常用单词,例如 and 或者 the ,它们对相关性没有多少影响),它们会被删除。 由于理解英语语法的规则,这个分词器可以提取英语单词的 词干 。 英语分词器会产生下面的词条: ``` set, shape, semi, transpar, call, set_tran, 5 ``` 注意看 transparent、 calling 和 set_trans 已经变为词根格式。