## Elasticsearch
**author:xiak**
**last update: 2022-10-15 10:12:22**
----
[TOC=3,8]
----
### 索引的概念
#### doc 文档
1. 小布爱吃瓜子
2. 小布好强势,抢瓜子吃
3. 小布是一只布丁仓鼠
4. 金丝熊不是熊
https://hanlp.hankcs.com/demos/tok.html?text=%E5%B0%8F%E5%B8%83%E6%98%AF%E4%B8%80%E5%8F%AA%E5%B8%83%E4%B8%81%E4%BB%93%E9%BC%A0&v1=true&coarse=true
----
#### 正排索引
每个文档有哪些关键词 (文档 > 关键词)
| doc | keywords |
|--|--|
|doc1| 小布, 爱, 吃, 爱吃, 瓜子|
|doc2| 小布, 好, 强势, 抢, 瓜子, 吃|
|doc3| 小布, 是, 布丁, 仓鼠, 布丁仓鼠|
|doc4| 金丝熊, 不, 是, 不是, 熊|
----
#### 倒排索引
每个关键词出现在哪些文档 (关键词 > 文档)
| keyword | docs |
|--|--|
|小布| doc1, doc2, doc3|
|爱| doc1|
|吃| doc1, doc2|
|爱吃| doc1|
|瓜子| doc1, doc2|
|好| doc2|
|强势| doc2|
|抢| doc2|
|布丁| doc3|
|仓鼠| doc3|
|布丁仓鼠| doc3|
|金丝熊| doc4|
|不| doc4|
|是| doc3, doc4|
|不是| doc4|
|熊| doc4|
----
### 查询方式
1. termquery 关键字查询
2. phrase 短语查询
3. boolean 布尔查询
4. range 区间查询
5. boosting 加权查询
6. wildcard 通配符查询 (类似 like "_{$keyword}%")
7. fuzzy 模糊查询 (proximity 邻近查询)
8. spatial 地理位置查询
9. prospective search (订阅查询)
https://www.kancloud.cn/wizardforcel/mastering-elasticsearch/147126
----
### 特殊字符
如果在搜索关键词中出现了如下18个字符中的任意一个字符,就需要用反斜杠`\`进行转义,例如,查询关键词 `abc"efg` 就需要转义成 `abc\"efg`。
`+`, `-`, `&`, `|`, `!`, `(`, `)`, `{`, `}`, `[`, `]`, `^`, `"`, `~`, `*`, `?`, `:`, `\`, `/`
----
query term
字符、词、短语
通配搜索
模糊搜索
----
### RESTful API
```shell
curl -i -XGET 'http://127.0.0.1:9200/_count?pretty' -d '{ "query": { "match_all": {} }}' -H "Content-Type: application/json"
```
----
[基础入门 | Elasticsearch: 权威指南 | Elastic - 互联网笔记](http://www.lvesu.com/blog/es/getting-started.html)
> 如果你现在打开这本书,是因为你拥有数据。除非你准备使用它做些什么,否则拥有这些数据将没有意义。
**不幸的是,大部分数据库在从你的数据中提取可用知识时出乎意料的低效。当然,你可以通过时间戳或精确值进行过滤,但是它们能够进行全文检索、处理同义词、通过相关性给文档评分么? 它们从同样的数据中生成分析与聚合数据吗?最重要的是,它们能实时地做到上面的那些而不经过大型批处理的任务么?**
这就是 Elasticsearch 脱颖而出的地方:Elasticsearch 鼓励你去探索与利用数据,而不是因为查询数据太困难,就让它们烂在数据仓库里面。
[添加索引 | Elasticsearch: 权威指南 | Elastic - 互联网笔记](http://www.lvesu.com/blog/es/_add-an-index.html)
> 集群的健康状况为`yellow`则表示全部主分片都正常运行(集群可以正常服务所有请求),但是*副本*分片没有全部处在正常状态。 实际上,所有3个副本分片都是`unassigned`—— 它们都没有被分配到任何节点。 **在同一个节点上既保存原始数据又保存副本是没有意义的,因为一旦失去了那个节点,我们也将丢失该节点上的所有副本数据。** 当前我们的集群是正常运行的,但是在硬件故障时有丢失数据的风险。
[Elasticsearch 在各大互联网公司大量真实的应用案例!](https://baijiahao.baidu.com/s?id=1708767125326104870&wfr=spider&for=pc)
> 原来采用的热表分库方式,即将最近6个月的订单的放置在一张表中,将历史订单放在在history表中。history表存储全量的数据,当用户查询的下单时间跨度超过6个月即查询历史订单表,此分表方式热表的数据量为4000w左右,当时能解决的问题。但是显然不能满足携程艺龙订单接入的需求。
>
> 滴滴几乎所有写入 Elasticsearch 的数据都是经由 kafka 消费入到 Elasticsearch。kafka 的数据包括业务 log 数据、mysql binlog 数据和业务自主上报的数据,Sink 服务将这些数据实时消费入到 Elasticsearch。
[社区电台第七期:Elastic 在今日头条广告系统中的大规模应用 - 知乎](https://zhuanlan.zhihu.com/p/50819769)
[Mastering Elasticsearch 中文版 · 看云](https://www.kancloud.cn/wizardforcel/mastering-elasticsearch/147120)
[java - mysql一千万的数据量如何一秒内实现模糊搜索? - SegmentFault 思否](https://segmentfault.com/q/1010000042572439?utm_source=sf-similar-question)
[java - mysql 倒排索引为什么没人用? - SegmentFault 思否](https://segmentfault.com/q/1010000042632919?utm_source=sf-similar-question)
[可否完全使用ElasticSearch代替数据库存储?](https://baijiahao.baidu.com/s?id=1721820719672976775&wfr=spider&for=pc)
[Elastic Search 入门 - 知乎](https://zhuanlan.zhihu.com/p/458011982)
- 开始
- 公益
- 更好的使用看云
- 推荐书单
- 优秀资源整理
- 技术文章写作规范
- SublimeText - 编码利器
- PSR-0/PSR-4命名标准
- php的多进程实验分析
- 高级PHP
- 进程
- 信号
- 事件
- IO模型
- 同步、异步
- socket
- Swoole
- PHP扩展
- Composer
- easyswoole
- php多线程
- 守护程序
- 文件锁
- s-socket
- aphp
- 队列&并发
- 队列
- 讲个故事
- 如何最大效率的问题
- 访问式的web服务(一)
- 访问式的web服务(二)
- 请求
- 浏览器访问阻塞问题
- Swoole
- 你必须理解的计算机核心概念 - 码农翻身
- CPU阿甘 - 码农翻身
- 异步通知,那我要怎么通知你啊?
- 实时操作系统
- 深入实时 Linux
- Redis 实现队列
- redis与队列
- 定时-时钟-阻塞
- 计算机的生命
- 多进程/多线程
- 进程通信
- 拜占庭将军问题深入探讨
- JAVA CAS原理深度分析
- 队列的思考
- 走进并发的世界
- 锁
- 事务笔记
- 并发问题带来的后果
- 为什么说乐观锁是安全的
- 内存锁与内存事务 - 刘小兵2014
- 加锁还是不加锁,这是一个问题 - 码农翻身
- 编程世界的那把锁 - 码农翻身
- 如何保证万无一失
- 传统事务与柔性事务
- 大白话搞懂什么是同步/异步/阻塞/非阻塞
- redis实现锁
- 浅谈mysql事务
- PHP异常
- php错误
- 文件加载
- 路由与伪静态
- URL模式之分析
- 字符串处理
- 正则表达式
- 数组合并与+
- 文件上传
- 常用验证与过滤
- 记录
- 趣图
- foreach需要注意的问题
- Discuz!笔记
- 程序设计思维
- 抽象与具体
- 配置
- 关于如何学习的思考
- 编程思维
- 谈编程
- 如何安全的修改对象
- 临时
- 临时笔记
- 透过问题看本质
- 程序后门
- 边界检查
- session
- 安全
- 王垠
- 第三方数据接口
- 验证码问题
- 还是少不了虚拟机
- 程序员如何谈恋爱
- 程序员为什么要一直改BUG,为什么不能一次性把代码写好?
- 碎碎念
- 算法
- 实用代码
- 相对私密与绝对私密
- 学习目标
- 随记
- 编程小知识
- foo
- 落盘
- URL编码的思考
- 字符编码
- Elasticsearch
- TCP-IP协议
- 碎碎念2
- Grafana
- EFK、ELK
- RPC
- 依赖注入
- 开发笔记
- 经纬度格式转换
- php时区问题
- 解决本地开发时调用远程AIP跨域问题
- 后期静态绑定
- 谈tp的跳转提示页面
- 无限分类问题
- 生成微缩图
- MVC名词
- MVC架构
- 也许模块不是唯一的答案
- 哈希算法
- 开发后台
- 软件设计架构
- mysql表字段设计
- 上传表如何设计
- 二开心得
- awesomes-tables
- 安全的代码部署
- 微信开发笔记
- 账户授权相关
- 小程序获取是否关注其公众号
- 支付相关
- 提交订单
- 微信支付笔记
- 支付接口笔记
- 支付中心开发
- 下单与支付
- 支付流程设计
- 订单与支付设计
- 敏感操作验证
- 排序设计
- 代码的运行环境
- 搜索关键字的显示处理
- 接口异步更新ip信息
- 图片处理
- 项目搭建
- 阅读文档的新方式
- mysql_insert_id并发问题思考
- 行锁注意事项
- 细节注意
- 如何处理用户的输入
- 不可见的字符
- 抽奖
- 时间处理
- 应用开发实战
- python 学习记录
- Scrapy 教程
- Playwright 教程
- stealth.min.js
- Selenium 教程
- requests 教程
- pyautogui 教程
- Flask 教程
- PyInstaller 教程
- 蜘蛛
- python 文档相似度验证
- thinkphp5.0数据库与模型的研究
- workerman进程管理
- workerman网络分析
- java学习记录
- docker
- 笔记
- kubernetes
- Kubernetes
- PaddlePaddle
- composer
- oneinstack
- 人工智能 AI
- 京东
- pc_detailpage_wareBusiness
- doc
- 电商网站设计
- iwebshop
- 商品规格分析
- 商品属性分析
- tpshop
- 商品规格分析
- 商品属性分析
- 电商表设计
- 设计记录
- 优惠券
- 生成唯一订单号
- 购物车技术
- 分类与类型
- 微信登录与绑定
- 京东到家库存系统架构设计
- crmeb
- 命名规范
- Nginx https配置
- 关于人工智能
- 从人的思考方式到二叉树
- 架构
- 今日有感
- 文章保存
- 安全背后: 浏览器是如何校验证书的
- 避不开的分布式事务
- devops自动化运维、部署、测试的最后一公里 —— ApiFox 云时代的接口管理工具
- 找到自己今生要做的事
- 自动化生活
- 开源与浆果
- Apifox: API 接口自动化测试指南