💎一站式轻松地调用各大LLM模型接口,支持GPT4、智谱、星火、月之暗面及文生图 广告
**分析**包含下面的过程: 1. 将一块文本分成适合于倒排索引的独立的词条。 2. 将这些词条统一化为标准格式以提高它们的可搜索性,或者recall分析器执行上面的工作。分析器实际上是将三个功能封装到了一个包里: (1)字符过滤器。 首先,字符串按顺序通过每个 字符过滤器 。他们的任务是在分词前整理字符串。一个字符过滤器可以用来去HTML,或者将 & 转化成 and。 (2)分词器。 其次,字符串被 分词器 分为单个的词条。一个简单的分词器遇到空格和标点的时候,可能会将文本拆分成词条。 (3)Token 过滤器。 最后,词条按顺序通过每个 token 过滤器 。这个过程可能会改变词条(例如,小写化Quick ),删除词条(例如, 像 a, and, the 等无用词),或者增加词条(例如,像 jump 和 leap 这种同义词)。