CJK Bigram Token Filter（CJK Bigram词元过滤器） · Elasticsearch 5.4 中文文档

# CJK Bigram Token Filter（CJK Bigram词元过滤器）原文链接 :[https://www.elastic.co/guide/en/elasticsearch/reference/5.4/analysis-cjk-bigram-tokenfilter.html](https://www.elastic.co/guide/en/elasticsearch/reference/5.4/analysis-cjk-bigram-tokenfilter.html) 译文链接 : [http://www.apache.wiki/pages/viewpage.action?pageId=10028059](http://www.apache.wiki/pages/viewpage.action?pageId=10028059) 贡献者 : [李亚运](/display/~liyayun)，[ApacheCN](/display/~apachecn)，[Apache中文网](/display/~apachechina) ## 简述 `cjk_bigram`过滤器形成了由[`standard` tokenizer](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-standard-tokenizer.html)或icu_tokenizer生成的CJK术语中的`icu_tokenizer`（见[`analysis-icu`插件](https://www.elastic.co/guide/en/elasticsearch/plugins/5.3/analysis-icu-tokenizer.html) ）。默认情况下，当一个CJK字符没有相邻字符形成一个二进制格式时，它以单格形式输出。如果您总是输出unigrams和bigrams，请将`output_unigrams`标志设置为`true` 。这可以用于组合的unigram +二进制格式。在`han` ， `hiragana` ， `katakana`和`hangul`中为字符生成Bigram，但对于具有`ignored_scripts`参数的特定脚本，可以禁用bigrams。所有非CJK输入都通过未修改。 ## 示例 ``` { "index" : { "analysis" : { "analyzer" : { "han_bigrams" : { "tokenizer" : "standard", "filter" : ["han_bigrams_filter"] } }, "filter" : { "han_bigrams_filter" : { "type" : "cjk_bigram", "ignored_scripts": [ "hiragana", "katakana", "hangul" ], "output_unigrams" : true } } } } } ```