企业🤖AI智能体构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
# Fingerprint Token Filter(指纹过滤器) 原文链接 : [https://www.elastic.co/guide/en/elasticsearch/reference/5.4/analysis-fingerprint-tokenfilter.html](https://www.elastic.co/guide/en/elasticsearch/reference/5.4/analysis-fingerprint-tokenfilter.html) 译文链接 :[http://www.apache.wiki/pages/viewpage.action?pageId=10028829](http://www.apache.wiki/pages/viewpage.action?pageId=10028829) 贡献者 : [李亚运](/display/~liyayun),[ApacheCN](/display/~apachecn),[Apache中文网](/display/~apachechina) ## 简述 `fingerprint`过滤器发出单个token,该token对于指纹身份的文本和/或提供可以被聚类的token是有用的。 它通过排序token,重复数据删除,然后将它们连接回单个token来实现。 ## 示例 如文本:["the", "quick", "quick", "brown", "fox", "was", "very", "brown"],将会被转化为单个token: "brown fox quick the very was",注意token是按字母顺序排列的,并且只有一个`"quick"` 。 ## 参数 | 设置 | 描述 | | --- | --- | | `separator` | 默认为空格。 | | `max_output_size` | 默认为`255` 。 | ## 最大token大小 因为一个字段可能有许多独特的token,所以重要的是设置一个阈值,使得字段不会变得太大。 `max_output_size`设置控制此行为。 如果连接的指纹增长大于`max_output_size` ,则过滤器将退出并且不会发出token(例如,该字段将为空)。