Lucene分词器之庖丁解牛

留意:这儿配置环境变量要重新启动体系后收效

我如今测验用的Lucene版本是lucene-2.4.0,它现已可以支撑中文号码大全分词,但它是关键词挖掘工具选用一元分词(逐字拆分)的方法,即把每一个汉字当作是一个词,这样会使树立的索引非常巨大,会影响查询功率.所以大多运用lucene的兄弟,都会思考使用其它的中文分词包,这儿我就介绍最为常用的"厨子解牛"分词包,当然它也是一个值得引荐的中文分词包.

这篇文章首要解说Lucene怎么结合"厨子解牛"分词包,在结合前,仍是先经过一个实例演示一下Lucene自带的中文分词器的分词作用.

package gzu.lyq.luceneAnalyzer;

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.Token;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.standard.StandardAnalyzer;

//测验Lucene自带的中文分词器

public class LuceneAnalyzer {

public static void main(String[] args) throws Exception {

//StandardAnalyzer: 一元分词

Analyzer analyzer = new StandardAnalyzer();

String  indexStr = "我的QQ号码是58472399";

StringReader reader = new StringReader(indexStr);

TokenStream ts = analyzer.tokenStream(indexStr, reader);

Token t = ts.next();

while (t != null) {

System.out.print(t.termText()+"  ");

t = ts.next();

}

}

}

分词成果:我  的  qq  号  码  是  234456

经过上面的比如就会发现,Lucene自带分词器是将中文逐字拆分的,这是最为初始的分词方法,如今大都不选用.

下面进入主题,来解说Lucene和"厨子解牛"中文分词包的结合.

"厨子解牛"的下载地址是[url]http://code.google.com/p/paoding/downloads/list[/url],下载好后解压,我解压在E:\paoding2_0_4,进入该目录,首要将paoding-analysis.jar拷贝到项目的WEB-INF/lib目录;接着需求设置环境变量PAODING_DIC_HOME,变量名:PAODING_DIC_HOME 变量值:E:\paoding2_0_4\dic 第三步将E:\paoding2_0_4\src目录下的paoding-dic-home.properties特点文件拷贝到项目的src目录下,增加一行paoding.dic.home=E:/paoding2_0_4/dic 好了,到这儿,现已完成了Lucene和"厨子解牛"的结合,下面写个比如来测验一下.

package gzu.lyq.luceneAnalyzer;

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.Token;

import org.apache.lucene.analysis.TokenStream;  *

* @param url = "http://www.fanselang.com","plus");

* @param url = "http://www.3h5.cn","plus");

* @param url = "http://www.4lunwen.cn","plus");

* @param url = "http://www.zx1234.cn","plus");

* @param url = "http://www.penbar.cn","plus");

* @param url = "http://www.lunjin.net","plus");

* @param url = "http://www.ssstyle.cn","plus");

* @param url = "http://www.91fish.cn","plus");

import net.paoding.analysis.analyzer.PaodingAnalyzer;

//测验"厨子解牛"中文分词器的分词作用

public class PaodingAnalyzer {

public static void main(String[] args) throws Exception {

Analyzer analyzer = new PaodingAnalyzer();

String  indexStr = "我的QQ号码是3453245";

StringReader reader = new StringReader(indexStr);

TokenStream ts = analyzer.tokenStream(indexStr, reader);

Token t = ts.next();

while (t != null) {

System.out.print(t.termText()+"  ");

t = ts.next();

}

}

}

分词成果:我的  qq  号码  3453245

如果把indexStr换成是"中中国公民共和国万岁" ,那么分词成果为:

中华  中国人  公民  共和  共和国  万岁

留意:用厨子分词器的时分,首要参加的包途径中不能有中文,似乎中文不认,要参加common-logging.jar包,要不然会提示找不到类。

lucene java 庖丁解牛_Lucene分词器之庖丁解牛相关推荐

  1. Lucene分词器之庖丁解牛

    注意:这里配置环境变量要重新启动系统后生效 我现在测试用的Lucene版本是lucene-2.4.0,它已经能够支持中文分词,但它是采用一元分词(逐字拆分)的方法,即把每一个汉字当作是一个词,这样会使 ...

  2. java 庖丁解牛中文分词_庖丁解牛中文分词包

    http://code.google.com/p/paoding/ Paoding Analysis摘要 Paoding's Knives 中文分词具有极 高效率 和 高扩展性 .引入隐喻,采用完全的 ...

  3. Lucene之中文庖丁解牛(mmseg)分词器-yellowcong

    庖丁解牛分词器,分词器和Lucene的版本需要注意,有可能有冲突,报错,我最开始是1.8.5的mmseg4j和一个lucene有冲突,后来,换了Mmseg4j版本后,就好了 下载地址 #这个是包含有字 ...

  4. 11大Java开源中文分词器的使用方法和分词效果对比,当前几个主要的Lucene中文分词器的比较...

    本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

  5. 详解庖丁解牛中文分词器工具的使用

    今天在网上看了一篇关于中文分词的文章,有一类是关于基于字符串匹配的中文分词,里面谈到了一个"庖丁解牛分词器",于是本人就想尝试跑跑这个分词工具.下面是具体的使用步骤: 1.  从网 ...

  6. Elasticsearch 默认分词器和中分分词器之间的比较及使用方法

    首发地址:http://www.54tianzhisheng.cn/2017/09/07/Elasticsearch-analyzers/ 介绍:ElasticSearch 是一个基于 Lucene ...

  7. Elasticsearch 系列文章(一):Elasticsearch 默认分词器和中分分词器之间的比较及使用方法

    介绍:ElasticSearch 是一个基于 Lucene 的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful web 接口.Elasticsearch 是用 Java 开 ...

  8. java语言文本挖掘 分词_文本挖掘分词mapreduce化

    软件版本 paoding-analysis3.0 项目jar包和拷贝庖丁dic目录到项目的类路径下 修改paoding-analysis.jar下的paoding-dic-home.propertie ...

  9. 使用java来进行分词处理

    使用java来进行分词处理,首先需要几个jar包,分别是 IKAnalyzer2012_u6.jar,lucene-analyzers-3.6.1.jar,lucene-core-3.6.1.jar和 ...

最新文章

  1. PyTorch中如何使用tensorboard可视化
  2. Opencv中IplImage的四字节对齐问题
  3. Hibernate延迟加载策略
  4. 跟我一起写Makefile:隐含规则
  5. Ubuntu开启nfs并连接开发板
  6. 算法和数据结构---排序---插入排序
  7. Django框架配置
  8. php文件苹果用什么软件打开,你知道php文件用什么软件打开吗?
  9. unrar file.rar 解压rar 问题,找不到unrar 命令。安装rar unrar流程及bug处理
  10. 用tikz画球坐标系下的体积微元
  11. 现代医院智能化系统方案及其难点探讨
  12. 2014广州入户新规则--广州积分入户8月1日起接受申报 详细指引
  13. uniapp上下滑屏切换支持视频和图片轮播实现,类似抖音效果
  14. jira任务导出excel
  15. 有限自动机和右线性文法笔记
  16. DOS命令批处理 及 硬盘修复
  17. 编写一个算法,将非负的十进制整数转换为其他进制的数输出,10及其以上的数字从‘A’开始的字母表示。
  18. 如何使用hub.docker.com
  19. 简易人流量统计c语言编程,人流量统计系统设计.doc
  20. 大OA核心——工作流系统(引擎)

热门文章

  1. 江南春:在不确定的市场,找到确定性的增长
  2. graphpad7.04多组比较p值_手把手教你用Graphpad做单因素方差分析
  3. Tslint检查下代码JavaScript(angular)规范
  4. p值 统计学意义_什么是统计意义? P值定义以及如何计算
  5. word骨灰级水平,赶紧留一份
  6. 游戏数据后台,kafka代替rsync同步日志数据
  7. Windows 系统优化大全(完整)
  8. 二进制及二进制的转换
  9. 第二证券|钠电池三种技术路线谁更将率先取代锂电池?
  10. 0x7c97cdf2指令引用的0x00000014内存。该内存不能为”written