企业🤖AI智能体构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
# CJK Bigram Token Filter(CJK Bigram词元过滤器) 原文链接 :[https://www.elastic.co/guide/en/elasticsearch/reference/5.4/analysis-cjk-bigram-tokenfilter.html](https://www.elastic.co/guide/en/elasticsearch/reference/5.4/analysis-cjk-bigram-tokenfilter.html) 译文链接 : [http://www.apache.wiki/pages/viewpage.action?pageId=10028059](http://www.apache.wiki/pages/viewpage.action?pageId=10028059) 贡献者 : [李亚运](/display/~liyayun),[ApacheCN](/display/~apachecn),[Apache中文网](/display/~apachechina) ## 简述 `cjk_bigram`过滤器形成了由[`standard` tokenizer](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-standard-tokenizer.html)或icu_tokenizer生成的CJK术语中的`icu_tokenizer`(见[`analysis-icu`插件](https://www.elastic.co/guide/en/elasticsearch/plugins/5.3/analysis-icu-tokenizer.html) )。 默认情况下,当一个CJK字符没有相邻字符形成一个二进制格式时,它以单格形式输出。 如果您总是输出unigrams和bigrams,请将`output_unigrams`标志设置为`true` 。 这可以用于组合的unigram +二进制格式。 在`han` , `hiragana` , `katakana`和`hangul`中为字符生成Bigram,但对于具有`ignored_scripts`参数的特定脚本,可以禁用bigrams。 所有非CJK输入都通过未修改。 ## 示例 ``` { "index" : { "analysis" : { "analyzer" : { "han_bigrams" : { "tokenizer" : "standard", "filter" : ["han_bigrams_filter"] } }, "filter" : { "han_bigrams_filter" : { "type" : "cjk_bigram", "ignored_scripts": [ "hiragana", "katakana", "hangul" ], "output_unigrams" : true } } } } } ```