多应用+插件架构,代码干净,二开方便,首家独创一键云编译技术,文档视频完善,免费商用码云13.8K 广告
# CJK Bigram Token Filter(CJK Bigram词元过滤器) ## 简述 `cjk_bigram`过滤器形成了由[`standard` tokenizer](https://www.elastic.co/guide/en/elasticsearch/reference/5.3/analysis-standard-tokenizer.html)或icu_tokenizer生成的CJK术语中的`icu_tokenizer`(见[`analysis-icu`插件](https://www.elastic.co/guide/en/elasticsearch/plugins/5.3/analysis-icu-tokenizer.html) )。 默认情况下,当一个CJK字符没有相邻字符形成一个二进制格式时,它以单格形式输出。 如果您总是输出unigrams和bigrams,请将`output_unigrams`标志设置为`true` 。 这可以用于组合的unigram +二进制格式。 在`han` , `hiragana` , `katakana`和`hangul`中为字符生成Bigram,但对于具有`ignored_scripts`参数的特定脚本,可以禁用bigrams。 所有非CJK输入都通过未修改。 ## 示例 | `{` `"index"` `: {` `"analysis"` `: {` `"analyzer"` `: {` `"han_bigrams"` `: {` `"tokenizer"` `: ``"standard"``,` `"filter"` `: [``"han_bigrams_filter"``]` `}` `},` `"filter"` `: {` `"han_bigrams_filter"` `: {` `"type"` `: ``"cjk_bigram"``,` `"ignored_scripts"``: [` `"hiragana"``,` `"katakana"``,` `"hangul"` `],` `"output_unigrams"` `: ``true` `}` `}` `}` `}` `}` |