💎一站式轻松地调用各大LLM模型接口,支持GPT4、智谱、星火、月之暗面及文生图 广告
# 使用拼音分词 要实现根据字母做补全,就必须对文档按照拼音分词。在GitHub上恰好有elasticsearch的拼音分词插件。 地址:https://github.com/medcl/elasticsearch-analysis-pinyin 安装方式与IK分词器一样,分三步: 1. 解压上传到虚拟机中 2. elasticsearch的plugin目录 3. 重启elasticsearch测试 # 自定义分词器 elasticsearch中分词器(analyzer)的组成包含三部分: * character filters:在tokenizer之前对文本进行处理。例如删除字符、替换字符 * tokenizer:将文本按照一定的规则切割成词条(term)。例如keyword,就是不分词;还有ik_smart * tokenizer filter:将tokenizer输出的词条做进一步处理。例如大小写转换、同义词处理、拼音处理等 ![](https://img.kancloud.cn/f9/0c/f90cdbd3f5128cde0bf67546708dd472_1071x224.png)