基础概念 · es从入门到集群架构(java系列)

### 数据的分类 ### 结构化数据：指具有固定格式或有限⻓度的数据，如数据库，元数据等。对于结构化数据，我们⼀般都是可以通过关系型数据库(mysql，oracle等)的 table 的⽅式存储和搜索，也可以建⽴索引。通过b-tree等数据结构快速搜索数据。 ### ⾮结构化数据：全⽂数据，指不定⻓或⽆固定格式的数据，如邮件，word⽂档等。对于⾮结构化数据，也即对全⽂数据的搜索主要有两种⽅法：顺序扫描法，全⽂搜索法。 ### ### 顺序扫描按字⾯意思，我们可以了解它的⼤概搜索⽅式，就是按照顺序扫描的⽅式查找特定的关键字。⽐如让你在⼀篇篮球新闻中，找出"科⽐"这个名字在哪些段落出现过。那你肯定需要从头到尾把⽂章阅读⼀遍，然后标记出关键字在哪些地⽅出现过。这种⽅法毋庸置疑是最低效的，如果⽂章很⻓，有⼏万字，等你阅读完这篇新闻找到"科⽐"这个关键字，那得花多少时间。 ### ### 全⽂搜索 ### 对⾮结构化数据进⾏顺序扫描很慢，我们是否可以进⾏优化？把我们的⾮结构化数据想办法弄得有⼀定结构不就⾏了吗？将⾮结构化数据中的⼀部分信息提取出来，重新组织，使其变得有⼀定结构，然后对这些有⼀定结构的数据进⾏搜索，从⽽达到搜索相对较快的⽬的。这种⽅式就构成了全⽂搜索的基本思路。这部分从⾮结构化数据中提取出的然后重新组织的信息，我们称之索引。 ### 我们以NBA中国⽹站为例，假设我们都是篮球爱好者，并且我们是科密，那如何快速找到有关科⽐的新闻呢？全⽂搜索的⽅式就是，将所有新闻中所有的关键字进⾏提取，⽐如"科⽐"，"詹姆斯"，"总冠军"，"MVP"等关键字，然后对这些关键字建⽴索引，通过索引我们就可以找到对应的该关键词出现的新闻了。 ### ### 什么是全⽂搜索引擎根据百度百科中的定义，全⽂搜索引擎是⽬前⼴泛应⽤的主流搜索引擎。它的⼯作原理是计算机索引程序通过扫描⽂章中的每⼀个词，对每⼀个词建⽴⼀个索引，指明该词在⽂章中出现的次数和位置，当⽤户查询时，检索程序就根据事先建⽴的索引进⾏查找，并将查找的结果反馈给⽤户的。 ### ### 搜索引擎 1. Lucene 2. Solr 3. Elastic search