Highlighter与BooleanQuery查询

2019独角兽企业重金招聘Python工程师标准>>>

查询这个功能很强大，也可以说是lucene搜索最重要的功能之一，但是这个功能对英文也来比较好用，对中文支持来说，就不那么理想了。

查询支持种类很多，最简单的是TermQuery，其次是TermRangeQuery、PrefixQuery、BooleanQuery、PhraseQuery等等，看起来确实很丰富，特别是PhraseQuery这种查询，就是通过短语来进行查询，听起来很不错，可惜经过本人尝试和网上了解，这个对中文根本行不通。退而求其次，BooleanQuery相对来说靠谱一点，但稍微要注意一些东西。

BooleanQuery用途大概是这样，比如有句话为

感恩南无大慈大悲救苦救难广大灵感观世音菩萨摩诃萨

我们输入两个关键字“南无“、”观世音“，如果采用 BooleanQuery查询，可以使用类似于"and"、“or"这样的逻辑关系来组合查询，只是BooleanQuery里面的对应的是：

BooleanClause.Occur.MUST（必须包括此关键字）
BooleanClause.Occur.MUST_NOT（必须不包括此关键字）
BooleanClause.Occur.SHOULD（可以包含）

下面我们来看一个实际的例子：

public static void main(String[] args) throws Exception {Directory dir = new RAMDirectory();Analyzer analyzer = new MyIKAnalyzer();IndexWriterConfig config = new IndexWriterConfig(analyzer);IndexWriter writer = new IndexWriter(dir,config);writer.addDocument(getDoc("感恩南无大慈大悲救苦救难广大灵感观世音菩萨摩诃萨"));writer.addDocument(getDoc("观世音菩萨摩诃萨"));writer.close();IndexReader reader = DirectoryReader.open(dir);IndexSearcher searcher = new IndexSearcher(reader);BooleanQuery.Builder builder = new BooleanQuery.Builder();QueryParser queryParser = new QueryParser("field",analyzer);builder.add(queryParser.parse("观世音菩萨"), BooleanClause.Occur.MUST);builder.add(queryParser.parse("感恩"), BooleanClause.Occur.MUST);TopScoreDocCollector collector = TopScoreDocCollector.create(10);searcher.search(builder.build(), collector);ScoreDoc[] hits = collector.topDocs().scoreDocs;System.out.println("Found " + hits.length + " hits.");for(int i=0;i<hits.length;++i) {int docId = hits[i].doc;Document d = searcher.doc(docId);System.out.println((i + 1) + ". " + d.get("field") );}reader.close();}private static Document getDoc(String field) throws IOException {Document doc = new Document();doc.add(new TextField("field", field, Field.Store.YES));return doc;}

上面的代码不做多说，只说一个地方，BooleanQuery这个在6.0版本里面不能直接用new BooleanQuery()这种形式构造，而是通过new BooleanQuery.Builder()创建一个BooleanQuery.Builder对象，而且Builder对象add的对象不能是TermQuery这种对象，而是要由QueryParser解析后对象，如上面代码中的：

builder.add(queryParser.parse("观世音菩萨"),。。。。。);

不然的话，中文词组就查不出来，这点至关重要。最后获取BooleanQuery查询对象是这么获取的：

builder.build()

记住，获取查询对象必须要放在添加组合查询之后。

下面来一个highlighter与booleanQuery查询相结合的例子吧，直接上代码：

public static void main(String[] args) throws Exception {String text = readFile("d:/content1.txt");//设置高亮文本的样式Formatter formatter = new SimpleHTMLFormatter("<span>", "</span>");//通过TokenStream流获取存储分词的各种信息Analyzer analyzer = new MyIKAnalyzer();Query query = getBooleanQuery(analyzer);TokenStream tokenStream = analyzer.tokenStream("field",new StringReader(text));//通过评分后的查询对象QueryScorer scorer = new QueryScorer(query,"field");Highlighter highlighter = new Highlighter(formatter,scorer);
//        默认情况下，highlighter内部使用的是SimpleFragmenter分成片断，如果满足不了需求，可以用SimpleSpanFragmenterhighlighter.setTextFragmenter(new SimpleSpanFragmenter(scorer));System.out.println(highlighter.getBestFragment(tokenStream,text));}static String readFile(String filename) throws Exception {String line = null;StringBuilder records = new StringBuilder();BufferedReader bufferedReader = new BufferedReader(new FileReader(filename));while ((line = bufferedReader.readLine()) != null) {records.append(line);}bufferedReader.close();return records.toString();}public static Query getBooleanQuery(Analyzer analyzer) throws ParseException {BooleanQuery.Builder builder = new BooleanQuery.Builder();QueryParser queryParser = new QueryParser("field",analyzer);builder.add(queryParser.parse("地藏菩萨"), BooleanClause.Occur.MUST);builder.add(queryParser.parse("南无"), BooleanClause.Occur.MUST);return builder.build();}

注意，我已经在ext.dic里面添加了“地藏菩萨”这个词组，上面的程序运行结果如下：

早晨请这个水喝，在二十四小时之内，心里思念地藏菩萨名号“南无地藏菩萨”六字，喝的时候长跪捧这杯水，要发愿请地藏菩萨加持。这部经上指示说面向南，南西北方都是不定的，你的意念对着地藏菩萨像就行了，想的是南方

需要注意的是，获取BooleanQuery查询对象的位置要放在获取tokenStream之前，不然会报错。从上面运行输出来看，结果相当完美。

转载于:https://my.oschina.net/moluyingxing/blog/673024

Highlighter与BooleanQuery查询相关推荐

Spring Boot操作ES进行各种高级查询（值得收藏）
作者 | 后青春期的Keats 来源 | http://cnblogs.com/keatsCoder/p/11341835.html SpringBoot整合ES 创建SpringBoot项目,导入 ...
elasticsearch(es)高级查询api
yml配置 #es配置 spring:elasticsearch:rest:uris: 192.168.16.188:9200 添加依赖 <dependency><groupId&g ...
SpringBoot操作ES进行各种高级查询（值得收藏）
来源:cnblogs.com/keatsCoder/p/11341835.html SpringBoot整合ES 创建SpringBoot项目,导入 ES 6.2.1 的 RestClient 依赖和 ...
SpringBoot 操作 ES 进行各种高级查询
点击上方"Java基基",选择"设为星标" 做积极的人,而不是积极废人! 每天 14:00 更新文章,每天掉亿点点头发... 源码精品专栏原创 | Java ...
SpringBoot操作ES进行各种高级查询
SpringBoot整合ES 创建SpringBoot项目,导入 ES 6.2.1 的 RestClient 依赖和 ES 依赖.在项目中直接引用 es-starter 的话会报容器初始化异常错误,导 ...
java操作es之各种高级查询
目录一.springboot整合es 1.1 pom依赖 1.2 yml配置 1.3 创建索引 1.4 创建映射 1.5 写入数据二.Java API操作ES 2.1 查询全部 2.2 精准匹配 ...
ElasticSearch使用（嵌套查询、嵌套高亮）
ElasticSearch使用(嵌套查询.嵌套高亮) 嵌套查询 bool 查询 must.should关系 1.只有must 2.只有should 3.must和should同时存在 4.怎样设置sh ...
ElasticSearch安装、IK、映射、索引管理、搜索管理和集群管理
ElasticSearch 一.ElasticSearch 1.1 概念 1.2 原理与应用 1.2.1 索引结构 1.2.3 RESTful应用二.ElasticSearch安装 2.1 Wind ...
全文检索服务ElasticSearch
1.ElasticSearch 介绍 1.1.为什么要用ElasticSearch? 当我们访问购物网站的时候,我们可以根据我们随意所想的内容输入关键字就可以查询出相关的内容,这是怎么做到呢?这些 ...

Highlighter与BooleanQuery查询

Highlighter与BooleanQuery查询相关推荐

最新文章

热门文章