庖丁解牛分词工具使用教程

今天想测试一下“庖丁”分词的效果，编写了一个测试小程序，从文件中读入文本，并将分词结果显示到控制台。

环境平台：Win7+eclipse

过程如下：

1.编辑paoding-analysis.jar中的paoding-dic-home.properties文件，去掉“#paoding.dic.home=dic”前面的#号，并将等号后面的dic改为dic文件夹在你本地存放的具体路劲，如：F://workspace//data//dic

(注：编辑paoding-analysis.jar中的文件，可先用WinRAR将paoding-analysis.jar打开，再用记事本或写字板直接编辑paoding-dic-home.properties文件后保存即可)

2. 将paoding-analysis.jar、commons-logging.jar、lucene-analyzers-2.2.0.jar和lucene-core-2.2.0.jar四个包导入工程：

①在工程下新建lib文件夹，将这四个包复制进来；

②右键单击工程->Properties->Java Build Path，在右侧选中第三个标签Libraries，点击Add JARs…，导入上述四个包；

③再选择第四个标签Order and Export，勾选上这四个包，点击OK按钮。

3. 创建一个主类，编写测试小程序，如下：

import java.io.*;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.Token;

import org.apache.lucene.analysis.TokenStream;

import net.paoding.analysis.analyzer.PaodingAnalyzer;

publicclass FenciTest {

publicstaticvoid main(String[] args)

{

Analyzer analyzer = new PaodingAnalyzer();

String docText = null;

File file = new File("F://Work//workSpace//FenciTest//data//test1.txt");

docText = readText(file);

TokenStream tokenStream = analyzer.tokenStream(docText, new StringReader(docText));

try {

Token t;

//System.out.println(docText);

while ((t = tokenStream.next()) != null)

{

System.out.println(t);

}

} catch (IOException e) {

e.printStackTrace();

}

privatestatic String readText(File file) {

String text = null;

try

{

InputStreamReader read1 = new InputStreamReader(new FileInputStream(file), "GBK");

BufferedReader br1 = new BufferedReader(read1);

StringBuffer buff1 = new StringBuffer();

while((text = br1.readLine()) != null)

{

buff1.append(text + "/r/n");

}

br1.close();

text = buff1.toString();

}

catch(FileNotFoundException e)

{

System.out.println(e);

}

catch(IOException e)

{

System.out.println(e);

}

return text;

}

说明：此测试程序对lucene2.2适用，但对lucene3.0不适用，因为其去掉了tokenStream.next()方法，具体可参考：http://www.cnblogs.com/LeftNotEasy/archive/2010/01/14/1647778.html

4. 运行程序，会有如下提示信息：

2011-3-26 20:05:29 net.paoding.analysis.knife.PaodingMaker getProperties

信息: config paoding analysis from: F:/Work/workspace/FenciTest/file:/F:/Work/workspace/FenciTest/lib/paoding-analysis.jar!/paoding-analysis.properties;F:/Work/workspace/FenciTest/file:/F:/Work/workspace/FenciTest/lib/paoding-analysis.jar!/paoding-analysis-default.properties;F:/Work/workspace/FenciTest/file:/F:/Work/workspace/FenciTest/lib/paoding-analysis.jar!/paoding-analyzer.properties;F:/Work/workspace/FenciTest/file:/F:/Work/workspace/FenciTest/lib/paoding-analysis.jar!/paoding-dic-home.properties;F:/Work/workspace/FenciTest/data/dic/paoding-dic-names.properties;F:/Work/workspace/FenciTest/file:/F:/Work/workspace/FenciTest/lib/paoding-analysis.jar!/paoding-knives.properties;F:/Work/workspace/FenciTest/file:/F:/Work/workspace/FenciTest/lib/paoding-analysis.jar!/paoding-knives-user.properties

2011-3-26 20:05:29 net.paoding.analysis.knife.PaodingMaker createPaodingWithKnives

信息: add knike: net.paoding.analysis.knife.CJKKnife

2011-3-26 20:05:29 net.paoding.analysis.knife.PaodingMaker createPaodingWithKnives

信息: add knike: net.paoding.analysis.knife.LetterKnife

2011-3-26 20:05:29 net.paoding.analysis.knife.PaodingMaker createPaodingWithKnives

信息: add knike: net.paoding.analysis.knife.NumberKnife

这是正常情况，表示”刀片”加载成功，后面则会输出具体的分词结果。

到此庖丁分词小程序就已成功实现~

p.s.路径中不能有中文，所以目录名都最好不要用中文。

庖丁解牛分词工具使用教程相关推荐

jieba分词怎么操作_常用分词工具使用教程
常用分词工具使用教程以下分词工具均能在Python环境中直接调用(排名不分先后). jieba(结巴分词) 免费使用 HanLP(汉语言处理包) 免费使用 SnowNLP(中文的类库) 免费使用 F ...
『开发技术』Python中文分词工具SnowNLP教程
介绍一个好用多功能的Python中文分词工具SnowNLP,全称Simplified Chinese Text Processing.在实现分词的同时,提供转换成拼音(Trie树实现的最大匹配)及繁体 ...
测试庖丁解牛分词工具
因为笔者要在MapReduce中进行中文分词解析数据,所以测试了一下庖丁解牛中文分词器(paoding-analysis-2.0.4-beta).现将使用过程小结: 下载地址:http://pan.b ...
各种中文分词工具的使用方法
诸神缄默不语-个人CSDN博文目录本文将介绍jieba.HanLP.LAC.THULAC.NLPIR.spacy.stanfordcorenlp.pkuseg等多种中文分词工具的简单使用方法. 对于 ...
python 分词工具训练_中文分词入门和分词工具汇总攻略
[注意]如果寻找分词和文本分析软件,为了完成内容分析和其他文本研究任务,直接使用集搜客分词和文本分析软件就可以了.本文是为了讲解集搜客分词和文本分析的实现原理,是给产品设计者和开发者看的. 最近在整理 ...
常用的开源中文分词工具
转载自: http://www.scholat.com/vpost.html?pid=4477 常用的开源中文分词工具由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及 ...
分词工具与方法：jieba、spaCy等
分词是自然语言处理中的一项重要任务,将一段文本划分成一系列有意义的词语或单词,是很多文本处理任务的基础,如文本分类.情感分析.机器翻译等.在中文分词中,jieba是一个常用的分词工具,而在英文分词中, ...
Jieba、NLTK等中英文分词工具进行分词
实验目的: 利用给定的中英文文本序列(见 Chinese.txt 和 English.txt),分别利用以下给定的中英文分词工具进行分词并对不同分词工具产生的结果进行简要对比分析. 实验工具: 中文 ...
中文开源汉语分词工具
本文转载自:http://www.scholat.com/vpost.html?pid=4477 由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及切词,这里整理了一些中文 ...

庖丁解牛分词工具使用教程

庖丁解牛分词工具使用教程相关推荐

最新文章

热门文章