搜索索引 · Lucene案例开发

转载请注明出处：[http://blog.csdn.net/xiaojimanman/article/details/42884921](http://blog.csdn.net/xiaojimanman/article/details/42884921) 此事例中的索引数据来自于上一篇博客创建的索引，索引中包含两篇文档，每一篇文档中有两个域 name 、 content 。 **索引搜索demo** 还是老样子在介绍之前先看一个简单索引搜索 demo程序。 ~~~ /** *@Description: 索引检索demo */ package com.lulei.lucene.study; import java.io.File; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.apache.lucene.index.DirectoryReader; import org.apache.lucene.queryparser.classic.QueryParser; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.Query; import org.apache.lucene.search.TopDocs; import org.apache.lucene.store.Directory; import org.apache.lucene.store.FSDirectory; import org.apache.lucene.util.Version; public class SearchIndex { public static void main(String[] args) { Directory directory = null; try { //索引硬盘存储路径 directory = FSDirectory.open(new File("D://study/index/testindex")); //读取索引 DirectoryReader dReader = DirectoryReader.open(directory); //创建索引检索对象 IndexSearcher searcher = new IndexSearcher(dReader); //指定分词技术，这里采用的语言处理模块要和创建索引的时候一致，否则检索的结果很不理想 Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_43); //创建查询query，搜索词为“空间向量” QueryParser parse = new QueryParser(Version.LUCENE_43, "content", analyzer); Query query = parse.parse("空间向量"); //检索索引，获取符合条件的前10条记录 TopDocs topDocs = searcher.search(query, 10); if (topDocs != null) { System.out.println("总共查找到 " + topDocs.totalHits + " 条符合条件的记录"); //循环输出记录内容 for (int i = 0; i < topDocs.scoreDocs.length; i++) { Document doc = searcher.doc(topDocs.scoreDocs[i].doc); System.out.println("第" + (i + 1) + "条内容为--\tname:\t" + doc.get("name") + "\tcontent:\t" + doc.get("content")); } } //关闭资源 dReader.close(); directory.close(); } catch (Exception e) { e.printStackTrace(); } } } ~~~ 上述demo程序运行结果截图如下： ![](https://box.kancloud.cn/2016-02-22_56ca7bedc6fff.jpg) 可以看出关键词 “空间向量” 的搜索结果为索引中的第二个文档，可以通过document.get方法可以获取对应的域值。 **搜索索引核心类** 在上述索引搜索过程中，用到了几个核心类：**Directory**、**DirectoryReader**、**IndexSearcher**、**Analyzer**、**Query**、**TopDocs**，上一篇介绍过的核心类这里就不再继续介绍了，这里就介绍一下之前没有介绍过的类。 **DirectoryReader** DirectoryReader用于读取索引，创建的dReader对象用于创建用于搜索的IndexSearcher对象。 **IndexSearcher** IndexSearcher用于索引的搜索，这个类公开了几个搜索方法，它是连接索引的中心环节；可以将IndexSearcher类看做成一个以只读打开索引的类，关于IndexSearcher的更深层次的内容，将在后面博客中介绍。 **Query** Lucene中含有许多具体Query(查询)子类，Query子类有：TermQuery、BooleanQuery、PhraseQuery、PrefixQuery、PhrasePrefixQuery、TermRangQuery、NumericRangeQuery、FilteredQuery、SpanQuery等，这些子类也将会在以后的博客中一一介绍。 **TopDocs** TopDocs类是一个简单的指针容器，指针一般指向前N个排名的搜索结果，搜索结果即匹配查询条件的文档。到目前为止，我们可以用Lucene实现一个简单的索引创建、搜索事例，在后面的几篇博客中，我将会逐一介绍分词技术、Query众多子类、IndexSearcher的搜索API等，这几部分可以通过源代码的阅读来理解。