Thai Tokenizer（泰语分词器） · Elasticsearch 5.4 中文文档

# Thai Tokenizer（泰语分词器） **thai tokenizer（泰语分词器）** 将泰文文本分成单词，使用的是 java 的泰语分割算法。文本中的其他语言按照 **standard tokenizer **处理。注意不是所有的 JRE 都支持这个分词器，目前已知在 Sun/Oracle 和 OpenJDK 运行正常。如果您的应用程序需要完全可移植，可考虑使用 **ICU Tokenizer** 来代替。原文链接 : [https://www.elastic.co/guide/en/elasticsearch/reference/5.4/analysis-thai-tokenizer.html](https://www.elastic.co/guide/en/elasticsearch/reference/5.4/analysis-thai-tokenizer.html) 译文链接 : [http://www.apache.wiki/pages/viewpage.action?pageId=10028882](http://www.apache.wiki/pages/viewpage.action?pageId=10028882) 贡献者 : [陈益雷](/display/~chenyilei)，[ApacheCN](/display/~apachecn)，[Apache中文网](/display/~apachechina) ## **输出示例** ``` POST _analyze { "tokenizer": "thai", "text": "การที่ได้ต้องแสดงว่างานดี" } ``` 上面的句子会生成如下的词元： ``` [ การ, ที่, ได้, ต้อง, แสดง, ว่า, งาน, ดี ] ``` ## **配置** **thai tokenizer（泰语分词器）**不支持配置。