1. 全文检索系统之基本介绍 · postgresql教程

# 1. 全文检索系统之基本介绍 #### 1. Full Text Search介绍 ![](https://box.kancloud.cn/2c36790f8ff338416b87a8b4f6d0d683_206x80.png) 如果要实现一个站内搜索的功能，可能可以这么办，假如你的网站是个放博客的，那么可能有博客这张表，要搜索的时候，用SQL语句就好了，用where like，但是这样不够好，因为你只能搜索包含或未包含的，不能像百度那样，根据关键词来搜索，也就是分词系统。我们来介绍一下，全文检索是搜索引擎的一部分，它首先得有数据，有了数据，要根据数据来分词，例如"this is a cat"就可以分成四个词，分别是"this"，"is", "a", "cat"，或许像这些不太重要的"is"，"a", "this"的停止词(stop word)可能会被去掉，那就剩下一个词，这只是规则而已，不管怎样，不管是中文，英文，都是会切成一个个词。根据词来建立索引。索引就先理解为书中的目录，建立索引是要消耗磁盘空间的，想下就清楚了，不然索引存哪啊。索引建立好了，用户一搜索关键词，假如用户搜索了"cat"，刚好命中了那个建立过的关键词，那就会通过索引把相关的记录取出来。这就是一个全文检索系统啦。只是要实现一个较完整的全文检索系统，那是需要好多功能的，例如实时搜索，关键词提示，错误提示，还有排名等。PostgreSQL作为一个关系型数据库系统，它本身就支持全文检索，它比其他数据库支持得更好。通过简单的扩展，还能实现中文检索。这是后话。 #### 2. PostgreSQL的文本匹配接下来，我们用PostgreSQL的tsvector等命令处理器来测试分词和文本匹配。先来看一个例子 ``` postgres=# SELECT 'hello world hfpp2012'::tsvector @@ 'hello'::tsquery; ``` 输出的结果是这样的。 ``` ?column? ---------- t (1 row) ``` t就是true，说明是匹配成功的。如果是f，那就是false，表示匹配不成功。上面语句的意思是总共有三个词，"hello world hfpp2012"，然后用"hello"来匹配，相当于数据库存了三个词，在搜索引擎输入框输入了"hello"，因为数据库是有"hello"这个词的，所以是能匹配到的。再试试下面的例子。 ``` postgres=# SELECT 'hello world hfpp2012'::tsvector @@ 'hello & world'::tsquery; ?column? ---------- t (1 row) ``` "&"符号是停止符，是不被索引的，因为没有意义啊。也就不存储在数据中了。PostgreSQL有一条规则就是 **"Define stop words that should not be indexed."** 还有另一种写法是这样的。 ``` postgres=# SELECT 'hello & world'::tsquery @@ 'hello world hfpp2012'::tsvector; ?column? ---------- t (1 row) ``` 来搜索中文的试下 ``` rails365_pro=# SELECT '号'::tsquery @@ '2015 - Rails365 Inc. All rights reserved. | 粤ICP备15004902号-2'::tsvector; ?column? ---------- f (1 row) rails365_pro=# SELECT 'Rails365'::tsquery @@ '2015 - Rails365 Inc. All rights reserved. | 粤ICP备15004902号-2'::tsvector; ?column? ---------- t (1 row) ``` 显然，默认情况下，对中文是不支持的。 #### 3. PostgreSQL的数据库全文检索刚才测试的只是分词，我们用实际的数据库来测试一下。 ``` # 列出所有数据库 \l # 选择数据库 \c rails365_pro; select title from articles where to_tsvector('english', body) @@ to_tsquery('english', 'ruby') ``` 输出的结果是这样的。 ``` title ----------------------------------------------------- 最简单的用户登录注册系统登录认证系统的进阶使用用OneAPM作为你的监控平台使用backup来备份数据库使用mina来部署ruby on rails应用 Mina的进阶使用用logrotate切割Ruby on rails日志用exception_notification结合Slack或数据库来捕获异常 devise简单入门教程 (9 rows) ``` 上面是搜索了articles表中body字段，只要包含ruby的都找出来。这不是where like，而是先将body分成一个个词，之后再来找的。再看一个例子。 ``` rails365_pro=# select title from articles where to_tsvector('english', body) @@ to_tsquery('english', 'Mina') ; title --------------------------------- 使用mina来部署ruby on rails应用 Mina的进阶使用 (2 rows) ``` 上面是搜索Mina这个关键词，两个例子都是用english作为语法的，如果搜索中文是搜索不到的。例如，搜索title为devise简单入门教程的这篇文章。 ``` rails365_pro=# select title from articles where to_tsvector('english', title) @@ to_tsquery('english', '教程') ; title ------- (0 rows) ``` 我们把"english"去掉。 ``` rails365_pro=# select title from articles where to_tsvector(title) @@ to_tsquery('教程') ; title ------- (0 rows) ``` 还是不行。因为没有中文分词器。这个后绪再说。 #### 3. 创建索引上面的是没有建立索引的情况下操作的，那样肯定不行的，如果数据量大，会很慢。 ``` CREATE INDEX articles_idx ON articles USING gin(to_tsvector('english', body)); ``` 具体的操作可以看官方的这篇文章[textsearch-tables](http://www.postgresql.org/docs/9.4/static/textsearch-tables.html) 完结。下一篇：[PostgreSQL 的全文检索系统之进阶 (二)](https://www.rails365.net/articles/postgresql-de-quan-wen-jian-suo-xi-tong-zhi-jin-jie-er)