企业🤖AI智能体构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
# Classic Tokenizer **`classic` tokenizer** 是一种基于语法的标记器,适用于英文文档。 该标记器启发式地特殊处理了首字母缩略词、公司名称、电子邮件地址和互联网主机名。 但是,这些规则并不总是起作用,而且除了英文之外,大多数语言中并不能正常工作: * 它以大多数标点符号分割字词,删除标点符号。 不过,后面没有空格的点被认为是 **token** 的一部分。 * 它以连字符分隔单词。除非**token** 中有一个数字,在这种情况下,整个 **token** 将被解释为产品编号,并且不分割。 * 它将电子邮件地址和互联网主机名识别为一个词元。 * ## **输出示例** | `POST _analyze` `{` `"tokenizer"``: ``"classic"``,` `"text"``: ``"The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."` `}` | 上面的句子会生成如下的词元: | `[ The, 2, QUICK, Brown, Foxes, jumped, over, the, lazy, dog's, bone ]` | ## **配置** **Classic Tokenizer**  接受以下参数: ***max_token_length** *  单个 token 的最大长度。如果一个 token 超过这个长度,则以  `max_token_length 为间隔分割。默认值是` `255`.。 ## **配置示例** 下面的例子中,我们配置 **Classic Tokenizer **的  `***max_token_length*** 为 5 (便于展示):` | `PUT my_index` `{` `"settings"``: {` `"analysis"``: {` `"analyzer"``: {` `"my_analyzer"``: {` `"tokenizer"``: ``"my_tokenizer"` `}` `},` `"tokenizer"``: {` `"my_tokenizer"``: {` `"type"``: ``"classic"``,` `"max_token_length"``: 5` `}` `}` `}` `}` `}` `POST my_index``/_analyze` `{` `"analyzer"``: ``"my_analyzer"``,` `"text"``: ``"The 2 QUICK Brown-Foxes jumped over the lazy dog's bone."` `}` | 输出如下: | `[ The, 2, QUICK, Brown, Foxes, jumpe, d, over, the, lazy, dog's, bone ]` |