CJK Bigram Token Filter · my-elasticsearch-cn

# CJK Bigram Token Filter（CJK Bigram词元过滤器） ## 简述 `cjk_bigram`过滤器形成了由[`standard` tokenizer](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-standard-tokenizer.html)或icu_tokenizer生成的CJK术语中的`icu_tokenizer`（见[`analysis-icu`插件](https://www.elastic.co/guide/en/elasticsearch/plugins/5.3/analysis-icu-tokenizer.html) ）。默认情况下，当一个CJK字符没有相邻字符形成一个二进制格式时，它以单格形式输出。如果您总是输出unigrams和bigrams，请将`output_unigrams`标志设置为`true` 。这可以用于组合的unigram +二进制格式。在`han` ， `hiragana` ， `katakana`和`hangul`中为字符生成Bigram，但对于具有`ignored_scripts`参数的特定脚本，可以禁用bigrams。所有非CJK输入都通过未修改。 ## 示例 | `{` `"index"` `: {` `"analysis"` `: {` `"analyzer"` `: {` `"han_bigrams"` `: {` `"tokenizer"` `: ``"standard"``,` `"filter"` `: [``"han_bigrams_filter"``]` `}` `},` `"filter"` `: {` `"han_bigrams_filter"` `: {` `"type"` `: ``"cjk_bigram"``,` `"ignored_scripts"``: [` `"hiragana"``,` `"katakana"``,` `"hangul"` `],` `"output_unigrams"` `: ``true` `}` `}` `}` `}` `}` |