### 数据的分类
###
结构化数据:指具有固定格式或有限⻓度的数据,如数据库,元数据等。对于结构化数据,我们⼀般都是可以通过关系型数据库(mysql,oracle等)的 table 的⽅式存储和搜索,也可以建⽴索引。通过b-tree等数据结构快速搜索数据。
###
⾮结构化数据:全⽂数据,指不定⻓或⽆固定格式的数据,如邮件,word⽂档等。对于⾮结构化数据,也即对全⽂数据的搜索主要有两种⽅法:顺序扫描法,全⽂搜索法。
###
### 顺序扫描
按字⾯意思,我们可以了解它的⼤概搜索⽅式,就是按照顺序扫描的⽅式查找特定的关键字。⽐如让你在⼀篇篮球新闻中,找出"科⽐"这个名字在哪些段落出现过。那你肯定需要从头到尾把⽂章阅读⼀遍,然后标记出关键字在哪些地⽅出现过。这种⽅法毋庸置疑是最低效的,如果⽂章很⻓,有⼏万字,等你阅读完这篇新闻找到"科⽐"这个关键字,那得花多少时间。
###
### 全⽂搜索
###
对⾮结构化数据进⾏顺序扫描很慢,我们是否可以进⾏优化?把我们的⾮结构化数据想办法弄得有⼀定结构不就⾏了吗?将⾮结构化数据中的⼀部分信息提取出来,重新组织,使其变得有⼀定结构,然后对这些有⼀定结构的数据进⾏搜索,从⽽达到搜索相对较快的⽬的。这种⽅式就构成了全⽂搜索的基本思路。这部分从⾮结构化数据中提取出的然后重新组织的信息,我们称之索引。
###
我们以NBA中国⽹站为例,假设我们都是篮球爱好者,并且我们是科密,那如何快速找到有关科⽐的新闻呢?全⽂搜索的⽅式就是,将所有新闻中所有的关键字进⾏提取,⽐如"科⽐","詹姆斯","总冠军","MVP"等关键字,然后对这些关键字建⽴索引,通过索引我们就可以找到对应的该关键词出现的新闻了。
###
### 什么是全⽂搜索引擎
根据百度百科中的定义,全⽂搜索引擎是⽬前⼴泛应⽤的主流搜索引擎。它的⼯作原理是计算机索引程序通过扫描⽂章中的每⼀个词,对每⼀个词建⽴⼀个索引,指明该词在⽂章中出现的次数和位置,当⽤户查询时,检索程序就根据事先建⽴的索引进⾏查找,并将查找的结果反馈给⽤户的。
###
### 搜索引擎
1. Lucene
2. Solr
3. Elastic search
- 基础概念
- 为什么不使用mysql做全文搜索
- 常见的搜索引擎
- 快速安装部署es
- 补充ES和kibana认证
- 补充kibana中文显示
- ES的目录以及核心概念介绍
- RESTful风格介绍
- 索引的各类操作
- 映射的各类操作
- 文档的各类操作
- 搜索的使用
- 中文分词器
- 常见字段类型
- kibana的安装
- es批量导入数据
- es的term的多种查询
- es的范围查询
- es的布尔查询
- es的排序查询
- es的指标聚合查询
- es的桶聚合查询
- es的别名操作
- es重建索引
- es的refresh操作
- es的高亮查询
- es的查询建议
- java实操es之集成
- 补充java操作es集成认证
- 补充java连接es集群
- java实操es之准备工作
- java实操es之各种骚操作(一期)
- java实战之数据库文件
- java实操es之各种骚操作(二期)
- java实操es之各种骚操作(三期)
- es分布式集群概念介绍
- es分布式集群的搭建
- es分布式集群kibana的配置
- es分布式集群分片管理
- es分布式集群节点健康管理
- es故障排查总结