自动补全 · 技术总结

# 使用拼音分词要实现根据字母做补全，就必须对文档按照拼音分词。在GitHub上恰好有elasticsearch的拼音分词插件。地址：https://github.com/medcl/elasticsearch-analysis-pinyin 安装方式与IK分词器一样，分三步： 1. 解压上传到虚拟机中 2. elasticsearch的plugin目录 3. 重启elasticsearch测试 # 自定义分词器 elasticsearch中分词器（analyzer）的组成包含三部分： * character filters：在tokenizer之前对文本进行处理。例如删除字符、替换字符 * tokenizer：将文本按照一定的规则切割成词条（term）。例如keyword，就是不分词；还有ik_smart * tokenizer filter：将tokenizer输出的词条做进一步处理。例如大小写转换、同义词处理、拼音处理等 ![](https://img.kancloud.cn/f9/0c/f90cdbd3f5128cde0bf67546708dd472_1071x224.png)