lucene java 庖丁解牛_Lucene分词器之庖丁解牛
Lucene分词器之庖丁解牛
留意:这儿配置环境变量要重新启动体系后收效
我如今测验用的Lucene版本是lucene-2.4.0,它现已可以支撑中文号码大全分词,但它是关键词挖掘工具选用一元分词(逐字拆分)的方法,即把每一个汉字当作是一个词,这样会使树立的索引非常巨大,会影响查询功率.所以大多运用lucene的兄弟,都会思考使用其它的中文分词包,这儿我就介绍最为常用的"厨子解牛"分词包,当然它也是一个值得引荐的中文分词包.
这篇文章首要解说Lucene怎么结合"厨子解牛"分词包,在结合前,仍是先经过一个实例演示一下Lucene自带的中文分词器的分词作用.
package gzu.lyq.luceneAnalyzer;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
//测验Lucene自带的中文分词器
public class LuceneAnalyzer {
public static void main(String[] args) throws Exception {
//StandardAnalyzer: 一元分词
Analyzer analyzer = new StandardAnalyzer();
String indexStr = "我的QQ号码是58472399";
StringReader reader = new StringReader(indexStr);
TokenStream ts = analyzer.tokenStream(indexStr, reader);
Token t = ts.next();
while (t != null) {
System.out.print(t.termText()+" ");
t = ts.next();
}
}
}
分词成果:我 的 qq 号 码 是 234456
经过上面的比如就会发现,Lucene自带分词器是将中文逐字拆分的,这是最为初始的分词方法,如今大都不选用.
下面进入主题,来解说Lucene和"厨子解牛"中文分词包的结合.
"厨子解牛"的下载地址是[url]http://code.google.com/p/paoding/downloads/list[/url],下载好后解压,我解压在E:\paoding2_0_4,进入该目录,首要将paoding-analysis.jar拷贝到项目的WEB-INF/lib目录;接着需求设置环境变量PAODING_DIC_HOME,变量名:PAODING_DIC_HOME 变量值:E:\paoding2_0_4\dic 第三步将E:\paoding2_0_4\src目录下的paoding-dic-home.properties特点文件拷贝到项目的src目录下,增加一行paoding.dic.home=E:/paoding2_0_4/dic 好了,到这儿,现已完成了Lucene和"厨子解牛"的结合,下面写个比如来测验一下.
package gzu.lyq.luceneAnalyzer;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream; *
* @param url = "http://www.fanselang.com","plus");
* @param url = "http://www.3h5.cn","plus");
* @param url = "http://www.4lunwen.cn","plus");
* @param url = "http://www.zx1234.cn","plus");
* @param url = "http://www.penbar.cn","plus");
* @param url = "http://www.lunjin.net","plus");
* @param url = "http://www.ssstyle.cn","plus");
* @param url = "http://www.91fish.cn","plus");
import net.paoding.analysis.analyzer.PaodingAnalyzer;
//测验"厨子解牛"中文分词器的分词作用
public class PaodingAnalyzer {
public static void main(String[] args) throws Exception {
Analyzer analyzer = new PaodingAnalyzer();
String indexStr = "我的QQ号码是3453245";
StringReader reader = new StringReader(indexStr);
TokenStream ts = analyzer.tokenStream(indexStr, reader);
Token t = ts.next();
while (t != null) {
System.out.print(t.termText()+" ");
t = ts.next();
}
}
}
分词成果:我的 qq 号码 3453245
如果把indexStr换成是"中中国公民共和国万岁" ,那么分词成果为:
中华 中国人 公民 共和 共和国 万岁
留意:用厨子分词器的时分,首要参加的包途径中不能有中文,似乎中文不认,要参加common-logging.jar包,要不然会提示找不到类。
lucene java 庖丁解牛_Lucene分词器之庖丁解牛相关推荐
- Lucene分词器之庖丁解牛
注意:这里配置环境变量要重新启动系统后生效 我现在测试用的Lucene版本是lucene-2.4.0,它已经能够支持中文分词,但它是采用一元分词(逐字拆分)的方法,即把每一个汉字当作是一个词,这样会使 ...
- java 庖丁解牛中文分词_庖丁解牛中文分词包
http://code.google.com/p/paoding/ Paoding Analysis摘要 Paoding's Knives 中文分词具有极 高效率 和 高扩展性 .引入隐喻,采用完全的 ...
- Lucene之中文庖丁解牛(mmseg)分词器-yellowcong
庖丁解牛分词器,分词器和Lucene的版本需要注意,有可能有冲突,报错,我最开始是1.8.5的mmseg4j和一个lucene有冲突,后来,换了Mmseg4j版本后,就好了 下载地址 #这个是包含有字 ...
- 11大Java开源中文分词器的使用方法和分词效果对比,当前几个主要的Lucene中文分词器的比较...
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
- 详解庖丁解牛中文分词器工具的使用
今天在网上看了一篇关于中文分词的文章,有一类是关于基于字符串匹配的中文分词,里面谈到了一个"庖丁解牛分词器",于是本人就想尝试跑跑这个分词工具.下面是具体的使用步骤: 1. 从网 ...
- Elasticsearch 默认分词器和中分分词器之间的比较及使用方法
首发地址:http://www.54tianzhisheng.cn/2017/09/07/Elasticsearch-analyzers/ 介绍:ElasticSearch 是一个基于 Lucene ...
- Elasticsearch 系列文章(一):Elasticsearch 默认分词器和中分分词器之间的比较及使用方法
介绍:ElasticSearch 是一个基于 Lucene 的搜索服务器.它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful web 接口.Elasticsearch 是用 Java 开 ...
- java语言文本挖掘 分词_文本挖掘分词mapreduce化
软件版本 paoding-analysis3.0 项目jar包和拷贝庖丁dic目录到项目的类路径下 修改paoding-analysis.jar下的paoding-dic-home.propertie ...
- 使用java来进行分词处理
使用java来进行分词处理,首先需要几个jar包,分别是 IKAnalyzer2012_u6.jar,lucene-analyzers-3.6.1.jar,lucene-core-3.6.1.jar和 ...
最新文章
- PyTorch中如何使用tensorboard可视化
- Opencv中IplImage的四字节对齐问题
- Hibernate延迟加载策略
- 跟我一起写Makefile:隐含规则
- Ubuntu开启nfs并连接开发板
- 算法和数据结构---排序---插入排序
- Django框架配置
- php文件苹果用什么软件打开,你知道php文件用什么软件打开吗?
- unrar file.rar 解压rar 问题,找不到unrar 命令。安装rar unrar流程及bug处理
- 用tikz画球坐标系下的体积微元
- 现代医院智能化系统方案及其难点探讨
- 2014广州入户新规则--广州积分入户8月1日起接受申报 详细指引
- uniapp上下滑屏切换支持视频和图片轮播实现,类似抖音效果
- jira任务导出excel
- 有限自动机和右线性文法笔记
- DOS命令批处理 及 硬盘修复
- 编写一个算法,将非负的十进制整数转换为其他进制的数输出,10及其以上的数字从‘A’开始的字母表示。
- 如何使用hub.docker.com
- 简易人流量统计c语言编程,人流量统计系统设计.doc
- 大OA核心——工作流系统(引擎)