Lucene为不同字段指定不同分词器(转)

在lucene使用过程中，如果要对同一IndexWriter中不同 Document，不同Field中使用不同的analyzer，我们该如何实现呢？

通过对《lucene in action》的阅读，发现是可以解决这一问题的。lucene可以正对整个IndexWriter对象或者每一个document对象或者特定 Field使用不同的分析器。
Java代码复制代码

Analyzer analyzer = new StandardAnalyzer();

IndexWriter writer = new IndexWriter(direcotry, analyzer, true); //

Document doc = new Document();

doc.add(new Field("title", "this is title", Field.Store.COMPRESS,Field.Index.TOKENIZED,Field.TermVector.WITH_POSITIONS_OFFSETS));

doc.add(new Field("content", "this is content", Field.Store.COMPRESS,Field.Index.TOKENIZED,Field.TermVector.WITH_POSITIONS_OFFSETS));

writer.addDocument(doc); //这是大部分情况下使用的一个方法

其实还有另外一个方法，原型如下：
lucene自带文档写道
addDocument(Document doc, Analyzer analyzer)
Adds a document to this index, using the provided analyzer instead of the value of getAnalyzer().

所以我们还可以写成这样：
Java代码复制代码

writer.addDocument(doc, analyzer);
// 这里的analyzer是指另外一个你指定的analyzer，不同于上面的StandardAnalyzer

那么如何针对特定Field使用不同分析器呢，lucene包里面有个PerFieldAnalyzerWrapper类，解决了这一问题，这是 lucene的文档里面的一段话：
lucene自带文档写道
Example usage:

PerFieldAnalyzerWrapper aWrapper = new PerFieldAnalyzerWrapper(new StandardAnalyzer());
aWrapper.addAnalyzer("firstname", new KeywordAnalyzer());
aWrapper.addAnalyzer("lastname", new KeywordAnalyzer());

In this example, StandardAnalyzer will be used for all fields except "firstname" and "lastname", for which KeywordAnalyzer will be used.

A PerFieldAnalyzerWrapper can be used like any other analyzer, for both indexing and query parsing.

PreFieldAnalyzerWrapper类的构造函数中需要一个默认的分析器作为参数。为了给不同的Field指定不同的 analyzer，就需要调用该类的addAnalyzer()方法。上面的E文相信大家都能看懂的，就不需要我来翻译了，我的英语很差，着急啊，呵呵。

也就是说大家以前初始化分析器的时候用这一句:
Java代码复制代码

Analyzer analyzer = new StandardAnalyzer();

现在可以改用
Java代码复制代码

PerFieldAnalyzerWrapper analyzer = new PerFieldAnalyzerWrapper(new StandardAnalyzer());

然后如果需要特定域的分析器就调用addAnalyzer方法
Java代码复制代码

analyzer.addAnalyzer("fieldname", new KeywordAnalyzer());

对了，最后说一下，PerFieldAnalyzerWrapper类也是在org.apache.lucene.analysis包下面的，只需要
Java代码复制代码

import org.apache.lucene.analysis.PerFieldAnalyzerWrapper;

就行了

转:http://hi.baidu.com/lewutian/blog/item/42bf84ceeef3ba35b600c8e7.html

转载于:https://blog.51cto.com/daheyuan/1133216

Lucene为不同字段指定不同分词器(转)相关推荐

Lucene.net(4.8.0)+PanGu分词器问题记录一分词器Analyzer的构造和内部成员ReuseStategy
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
ik分词和jieba分词哪个好_Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合，以及对分词器的思考...
前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移.因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3 ...
3.ElasticSearch分词器，包括默认分词器、英文分词器、中文分词器
注:测试环境:CentOS Linux release 7.6.1810 (Core) jdk:1.8 elasticsearch:6.8.2 单节点 es 安装:https://blo ...
Lucene分词器，使用中文分词器，扩展词库，停用词
2019独角兽企业重金招聘Python工程师标准>>> Lucene分词器,使用中文分词器,扩展词库,停用词博客分类: 搜索引擎,爬虫停止词:lucene的停止词是无功能意义的词 ...
java lucene 分词器_中文分词器—IKAnalyzer
对于lucene自带分词器,没有一个能很好的处理中文的分词,因此,我们使用的分词的时候,往往会使用国人开发的一个分词器IKAnalyzer,使用非常简单,只需要将jar包拷入即可. 如果需要扩展词库或 ...
玩转ES，一文教你掌握IK中文分词器
前言 ES默认的分词器对中文分词并不友好,所以我们一般会安装中文分词插件,以便能更好的支持中文分词检索. 而ES的中文分词器中,最流行的必然是IK分词器. 一.IK分词器介绍 IK分词器在是一款基于词 ...
Elasticsearch 入门核心概念数据结构分词器 javaAPI
ElasticSearch 1-今日内容 2-初识ElasticSearch 2.1-基于数据库查询的问题 2.2-倒排索引 2.2.1 评分TF/IDF/BM25计算 2.3-ES存储和查询的原理 ...
elasticsearch中分词器edge_ngram和ngram的区别
参考:https://www.phpmianshi.com/?id=199 简介 edge_ngram和ngram是ElasticSearch自带的两个分词器,一般设置索引映射的时候都会用到,设置完步 ...
Solr配置IK分词器
配置步骤下载分词器上传文件添加jar包添加配置文件添加分词器,配置业务域测试分词器第一步下载IK分词器第二步上传文件查看第三步添加jar包到solr工程 cp IKAnal ...
ELK下es的分词器analyzer
转载链接 :es的分词器analyzerhttps://www.cnblogs.com/xiaobaozi-95/p/9328948.html 中文分词器在lunix下执行下列命令,可以看到本来应该 ...

Lucene为不同字段指定不同分词器(转)

Lucene为不同字段指定不同分词器(转)相关推荐

最新文章

热门文章