因为笔者要在MapReduce中进行中文分词解析数据,所以测试了一下庖丁解牛中文分词器(paoding-analysis-2.0.4-beta)。现将使用过程小结:

下载地址:http://pan.baidu.com/s/1eQ88SZS

个人环境:linux+eclipse

使用分为如下几步:

1. 配置dic文件:

修改paoding-analysis.jar中的paoding-dic-home.properties文件,将“#paoding.dic.home=dic”的注释去掉,并配置成自己dic文件的本地存放路径。eg:/home/hadoop/work/paoding-analysis-2.0.4-beta/dic

2. 把Jar包导入到项目中:

将paoding-analysis.jar、commons-logging.jar、lucene-analyzers-2.2.0.jar和lucene-core-2.2.0.jar四个包导入到项目中,这时就可以在代码片段中使用庖丁解牛工具提供的中文分词技术,例如:

       Analyzer analyzer = new PaodingAnalyzer(); //定义一个解析器String text = "庖丁系统是个完全基于lucene的中文分词系统,它就是重新建了一个analyzer,叫做PaodingAnalyzer,这个analyer的核心任务就是生成一个可以切词TokenStream。"; //待分词的内容TokenStream tokenStream = analyzer.tokenStream(text, new StringReader(text)); //得到token序列的输出流try {Token t;while ((t = tokenStream.next()) != null){System.out.println(t); //输出每个token}} catch (IOException e) {e.printStackTrace();}

结果如下:


每一行的输出是一个token。

测试庖丁解牛分词工具相关推荐

  1. 庖丁解牛分词工具使用教程

    今天想测试一下"庖丁"分词的效果,编写了一个测试小程序,从文件中读入文本,并将分词结果显示到控制台. 环境平台:Win7+eclipse 过程如下: 1.编辑paoding-ana ...

  2. jieba库 python2.7 安装_Python中文分词工具大合集:安装、使用和测试

    这篇文章事实上整合了前面两篇文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AI ...

  3. 6大中文分词工具测试比较

    中文分词工具比较 6大中文分词器测试(jieba.FoolNLTK.HanLP.THULAC.nlpir.ltp) 哈工大LTP.中科院计算所NLPIR.清华大学THULAC和jieba 个人接触的分 ...

  4. Python中文分词工具大合集:安装、使用和测试

    转自:AINLP 这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具 ...

  5. python 分词工具训练_Python中文分词工具大合集:安装、使用和测试

    这篇文章事实上整合了前面两篇文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AI ...

  6. 中文分词工具比较 6大中文分词器测试(哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP)

    中文分词工具比较 6大中文分词器测试(jieba.FoolNLTK.HanLP.THULAC.nlpir.ltp) 哈工大LTP.中科院计算所NLPIR.清华大学THULAC和jieba 个人接触的分 ...

  7. 常用的开源中文分词工具

    转载自:  http://www.scholat.com/vpost.html?pid=4477 常用的开源中文分词工具 由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及 ...

  8. 中文开源汉语分词工具

    本文转载自:http://www.scholat.com/vpost.html?pid=4477 由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及切词,这里整理了一些中文 ...

  9. 干货 | 史上最全中文分词工具整理

    作者 | fendouai 一.中文分词 分词服务接口列表 二.准确率评测: THULAC:与代表性分词软件的性能对比 我们选择LTP-3.2.0 .ICTCLAS(2015版) .jieba(C++ ...

最新文章

  1. 使用VC实现一个“智能”自增减线程池
  2. 2021计算机技能高考考纲,2021年湖北省技能高考技能考试大纲(机械类).pdf
  3. ASP.NET MVC 导入Excel文件
  4. html canvas抽奖,HTML5 Canvas圆盘抽奖应用(适用于Vue项目)
  5. 图像纹理合成及纹理传输算法学习(附源码)。
  6. ImportError: module ‘pip‘ has no attribute ‘main‘
  7. (双指针、二分Binary Search) leetcode 658. Find K closest Elements
  8. linux操作命令等积累
  9. Activiti 工作流会签开发设计思路
  10. 补习系列(17)-springboot mongodb 内嵌数据库
  11. 修车-最小费用最大流
  12. html ajax传参数 20,jQuery Ajax传参
  13. 【UE4 C++】实现发出伤害与接收伤害
  14. matlab——红绿灯颜色及数字识别(二)
  15. Matlab安装失败问题
  16. 电影后期制作图形服务器,影视后期制作中存储的选择——MDC服务器篇
  17. 企业员工信息管理系统(C语言编程)
  18. 电子技术基础(三)__电路分析基础__电容元件
  19. java键盘键入法_【java基础】键盘键入内容
  20. Java计算文件的hash值

热门文章

  1. fastboot刷机方法
  2. Error 错误 程序包 databinding不存在
  3. 借助91助手,将ibook中的pdf文件拷贝至其它的pdf阅读器中(ios设备无需越狱)
  4. GM/T 0005《随机性检测规范》2012版和2021版对比
  5. 保险业务与系统——LOMA 290 保险公司运营——第六讲——产品开发
  6. 学“大神”炒币月收益300%?大神在背后偷偷举起了镰刀……
  7. ubuntu 查询软件依赖
  8. 强大又具实用性的 GreenBrowser 表单填写和管理功能
  9. 脑洞大开,献给“攻城狮”的情人节创意表白礼物【附开发教程】
  10. ros之odom发布