文档分析 · Elasticsearch7.x

**分析**包含下面的过程： 1. 将一块文本分成适合于倒排索引的独立的词条。 2. 将这些词条统一化为标准格式以提高它们的可搜索性，或者recall分析器执行上面的工作。分析器实际上是将三个功能封装到了一个包里：（1）字符过滤器。首先，字符串按顺序通过每个字符过滤器。他们的任务是在分词前整理字符串。一个字符过滤器可以用来去HTML，或者将 & 转化成 and。（2）分词器。其次，字符串被分词器分为单个的词条。一个简单的分词器遇到空格和标点的时候，可能会将文本拆分成词条。（3）Token 过滤器。最后，词条按顺序通过每个 token 过滤器。这个过程可能会改变词条（例如，小写化Quick ），删除词条（例如，像 a， and， the 等无用词），或者增加词条（例如，像 jump 和 leap 这种同义词）。